层次非负矩阵分解及在文本聚类中的应用  被引量:2

Hierarchical Non-Negative Matrix Factorization for Text Clustering

在线阅读下载全文

作  者:景丽萍[1] 朱岩[1] 于剑[1] 

机构地区:[1]北京交通大学计算机与信息技术学院,北京100044

出  处:《计算机科学与探索》2011年第10期904-913,共10页Journal of Frontiers of Computer Science and Technology

基  金:国家自然科学基金No.60905028;90820013;60875031;61033013;国家重点基础研究发展规划(973)No.2007CB311002;中央高校基本科研业务费专项资金No.2010RC029;2011JBM030;国家教育部留学回国人员科研启动基金~~

摘  要:文本聚类的目标是把数据集中内容相似的文档归为一类,而使内容不同的文档分开。目前针对不同领域的需求,多种解决聚类问题的算法应运而生。然而,由于文本数据本身固有的复杂特点,如海量、高维、稀疏等,使得对海量文本数据的聚类仍然是一个棘手的问题。提出了层次非负矩阵分解聚类方法,该方法不但保留了非负矩阵分解的优点,如同步识别文档类别和找出类别本质特征,而且能够展现类别间的层次结构。这种类别层次结构在网页预览等应用中是非常有用的。在真实数据集20Newsgroups和Reuters-RCV1上的实验结果表明,层次非负矩阵分解相比已有的方法更有效。The goal of text clustering is to group the documents with similar content into a same cluster, while separate the documents with different contents. Till now, a lot of clustering algorithms have been proposed according to different requirements, however, text clustering is still an open problem because of the potential characteristics of text data: large volume, high dimension, sparse etc. This paper proposes a clustering method based on hierarchical non-negative matrix factorization. The new method keeps the merits of the original non-negative matrix factorization, simultaneously clustering documents and identifying key features for each cluster. At the same time, it can mine the hierarchical structure between clusters, and such structure is very useful in many real applications, e.g., news browser. The experimental results on real data, 20Newsgroups and Reuters-RCV1, show that the proposed method performs better than the existing popular methods.

关 键 词:文本聚类 非负矩阵分解 层次聚类 

分 类 号:TP391.41[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象