检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京交通大学计算机与信息技术学院,北京100044
出 处:《计算机科学与探索》2011年第10期904-913,共10页Journal of Frontiers of Computer Science and Technology
基 金:国家自然科学基金No.60905028;90820013;60875031;61033013;国家重点基础研究发展规划(973)No.2007CB311002;中央高校基本科研业务费专项资金No.2010RC029;2011JBM030;国家教育部留学回国人员科研启动基金~~
摘 要:文本聚类的目标是把数据集中内容相似的文档归为一类,而使内容不同的文档分开。目前针对不同领域的需求,多种解决聚类问题的算法应运而生。然而,由于文本数据本身固有的复杂特点,如海量、高维、稀疏等,使得对海量文本数据的聚类仍然是一个棘手的问题。提出了层次非负矩阵分解聚类方法,该方法不但保留了非负矩阵分解的优点,如同步识别文档类别和找出类别本质特征,而且能够展现类别间的层次结构。这种类别层次结构在网页预览等应用中是非常有用的。在真实数据集20Newsgroups和Reuters-RCV1上的实验结果表明,层次非负矩阵分解相比已有的方法更有效。The goal of text clustering is to group the documents with similar content into a same cluster, while separate the documents with different contents. Till now, a lot of clustering algorithms have been proposed according to different requirements, however, text clustering is still an open problem because of the potential characteristics of text data: large volume, high dimension, sparse etc. This paper proposes a clustering method based on hierarchical non-negative matrix factorization. The new method keeps the merits of the original non-negative matrix factorization, simultaneously clustering documents and identifying key features for each cluster. At the same time, it can mine the hierarchical structure between clusters, and such structure is very useful in many real applications, e.g., news browser. The experimental results on real data, 20Newsgroups and Reuters-RCV1, show that the proposed method performs better than the existing popular methods.
分 类 号:TP391.41[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222