基于改进聚类算法的网络舆情分析系统研究被引量：14

Research and Implementation of Desktop Search Engine Based on Tika and Lucene

作　　者：王旭仁[1] 李娜[1] 何发镁[2] 王彦丽[1] 宋蓓[1]

机构地区：[1]首都师范大学信息工程学院,北京100048 [2]北京理工大学图书馆,北京100081

出　　处：《情报学报》2014年第5期530-537,共8页Journal of the China Society for Scientific and Technical Information

基　　金：国家自然科学基金项目(61373161);北京市属高等学校人才强教深化计划“中青年骨干人才”项目(PHR201008083)资助

摘　　要：针对互联网舆情挖掘领域的特点，提出了一种基于向量空间模型VSM的文本聚类算法STCC（Similarity Threshold Control Clustering BasedVSM）。该算法按照层次聚类从下至上凝聚的策略，获取初始簇信息，然后根据K-means算法的思想以设置的聚类相似度阈值作为度量来合并簇。该算法结合层次聚类和K-means算法的优点，克服其缺点。与层次聚类相比，每一次聚类时不需要比较所有簇之间的相似度，降低了时间复杂度，提高了聚类的效率；与K—means算法相比，不需要确定K值，灵活性更高。通过实验表明，该算法聚类效果好，实用性高，适合大规模的文本聚类。By analyzing the existed clustering algorithms, a new text clustering algorithm, which uses similarity threshold control clustering based VSM （STCC） , is proposed in this paper. The algorithm is based on the hierarchical clustering bottom to top strategy to get the information of primary clusters and can merge clusters in a threshold of clustering similarity according to K-means. The algorithm overcomes the shortcomings of calculating the similarity in all clusters with every clustering and pre-determining the value K. The experimental results show that the algorithm can reduce the time complexity, improve the clustering efficiency, is more flexible and more applicable.

关键词：互联网舆情数据挖掘关键词提取文本聚类

分类号：TP393.09[自动化与计算机技术—计算机应用技术] G206[自动化与计算机技术—计算机科学与技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于改进聚类算法的网络舆情分析系统研究被引量：14

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于改进聚类算法的网络舆情分析系统研究 被引量：14

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于改进聚类算法的网络舆情分析系统研究被引量：14