基于改进聚类算法的网络舆情分析系统研究  被引量:14

Research and Implementation of Desktop Search Engine Based on Tika and Lucene

在线阅读下载全文

作  者:王旭仁[1] 李娜[1] 何发镁[2] 王彦丽[1] 宋蓓[1] 

机构地区:[1]首都师范大学信息工程学院,北京100048 [2]北京理工大学图书馆,北京100081

出  处:《情报学报》2014年第5期530-537,共8页Journal of the China Society for Scientific and Technical Information

基  金:国家自然科学基金项目(61373161);北京市属高等学校人才强教深化计划“中青年骨干人才”项目(PHR201008083)资助

摘  要:针对互联网舆情挖掘领域的特点,提出了一种基于向量空间模型VSM的文本聚类算法STCC(Similarity Threshold Control Clustering BasedVSM)。该算法按照层次聚类从下至上凝聚的策略,获取初始簇信息,然后根据K-means算法的思想以设置的聚类相似度阈值作为度量来合并簇。该算法结合层次聚类和K-means算法的优点,克服其缺点。与层次聚类相比,每一次聚类时不需要比较所有簇之间的相似度,降低了时间复杂度,提高了聚类的效率;与K—means算法相比,不需要确定K值,灵活性更高。通过实验表明,该算法聚类效果好,实用性高,适合大规模的文本聚类。By analyzing the existed clustering algorithms, a new text clustering algorithm, which uses similarity threshold control clustering based VSM (STCC) , is proposed in this paper. The algorithm is based on the hierarchical clustering bottom to top strategy to get the information of primary clusters and can merge clusters in a threshold of clustering similarity according to K-means. The algorithm overcomes the shortcomings of calculating the similarity in all clusters with every clustering and pre-determining the value K. The experimental results show that the algorithm can reduce the time complexity, improve the clustering efficiency, is more flexible and more applicable.

关 键 词:互联网舆情 数据挖掘 关键词提 取文本聚类 

分 类 号:TP393.09[自动化与计算机技术—计算机应用技术] G206[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象