增量式聚类的新闻热点话题发现研究  被引量:1

Research on Hot News Topic Detection of Incremental Clustering

在线阅读下载全文

作  者:王丽颖[1,2] 葛丽娜[1,2] 张翼鹏[1,2] 王红[1,2] WANG Li-ying GE Li-na ZHANG Yi-peng WANG Hong(College of Information Science and Engineering, Guangxi University for Nationalities, Nanning 530006, China China-ASEAN Study Center( Guangxi Science Experiment Center) of Guangxi University for Nationalities, Nanning 530006, China)

机构地区:[1]广西民族大学信息科学与工程学院,广西南宁530006 [2]广西民族大学东盟研究中心(广西科学实验中心),广西南宁530006

出  处:《计算机与现代化》2017年第3期46-50,共5页Computer and Modernization

基  金:国家自然科学基金资助项目(61462009);广西高等学校优秀中青年骨干教师培养工程项目(GXQG012013014);广西民族大学中国-东盟研究中心(广西科学实验中心)2014年度开放课题项目(TD201404)

摘  要:为实现新闻热点话题的排行和发现,对新闻文本进行聚类,通过对报道频率的研究,利用热度公式计算得到新闻热点话题TOP排行榜。针对增量式聚类方法 Single-Pass算法相似度公式计算代价大和特征值选择不够准确的不足提出改进方案,利用抓取的新闻语料库数据对改进算法进行实验验证与分析,实验数据与Single-Pass算法聚类结果进行对比,得到了更理想的新闻热点聚类效果,表明了算法的可行有效性。News text clustering is applied to achieve ranking and finding hot news topics. To obtain hot topic news ranking by the formula of heat, the reporting rate is studied. To overcome the shortcomings of huge cost of calculation and inaccuracy of selecting eigenvalues when Single-Pass is used to cluster, it's proposed enhanced methods to solve the problems. The improved algorithm is verified and analyzed through the experiment using fetched news corpus. The result of experiments is compared to the Single- Pass, and a more desirable hot news clustering effect is presented, the feasibility of modified algorithm is demonstrated.

关 键 词:新闻热点话题 文本聚类 Single-Pass算法 热度公式 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象