基于在线层次化非负矩阵分解的文本流主题检测  被引量:2

Hierarchical online NMF for detecting and tracking topics

在线阅读下载全文

作  者:涂鼎 陈岭[1] 陈根才[1] 吴勇 王敬昌 

机构地区:[1]浙江大学计算机科学与技术学院,浙江杭州310027 [2]浙江鸿程计算机系统有限公司,浙江杭州310009

出  处:《浙江大学学报(工学版)》2016年第8期1618-1626,共9页Journal of Zhejiang University:Engineering Science

基  金:国家自然科学基金资助项目(60703040;61332017);浙江省科技计划资助项目(2011C13042;2015C33002);"核高基"国家科技重大专项资助项目(2010ZX01042-002-003);中国工程科技知识中心资助项目(CKCEST-2014-1-5)

摘  要:针对文本流主题检测中存在的主题结构扁平问题,提出在线的层次化非负矩阵分解方法,在每个时间片中根据归一化累计折损增益选择主题节点进行分解,接着反复将文档分配给最相关的主题节点构建主题层次,该过程中假设主题在由不同时间片中相似主题节点构成的序列中连续再演化,在当前时间片对主题节点进行分解时考虑过去时间片中主题节点的分解结果.该方法不仅能在线的发现和更新文本流中的主题,而且还可揭示主题间的结构关系.在Nist TDT2数据集上的实验结果表明,该方法在NMI、Micro F1、MAP和NDCG等指标下均显著超过了其他动态NMF方法,并在时间效率上显示出一定优势.An online hierarchical non-negative matrix fraction method was proposed to address the problem of flat topic structure of text stream topic detecting methods.At every time slot,the topic nodes were oplited-splited according to the normalized discounted cumulative gain and a topic hierarchy was built by iteratively assigning documents to the most related topic nodes.The hierarchy construction process refers the previous topic hierarchy.The underlying assumption is that the topics are evolving among the similar topic nodes in different time slots.The method can detect and track topics in stream in an online way,which reveals many useful relationships between the topics.Experiments on Nist TDT2 dataset show that our method outperforms the contrasting methods under different metrics,e.g.NMI,Micro F1,MAP and NDCG,and uses less execution time.

关 键 词:动态主题模型 层次聚类 非负矩阵分解 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象