基于新词发现的网络新闻热点排名  被引量:11

Hot News Ranking of Network News Based on New Words Detection

在线阅读下载全文

作  者:王馨[1] 王煜[1] 王亮[1] 

机构地区:[1]河北大学计算机科学与技术学院,保定071000

出  处:《图书情报工作》2015年第6期68-74,共7页Library and Information Service

基  金:国家自然科学基金项目"关系Top-N查询引擎和排序函数的研究"(项目编号:61170039)研究成果之一

摘  要:[目的 /意义]随着网络新闻的广泛快速传播,通过辨析网络新词,及时掌握新闻热点关键词,对于了解新闻热点和社会舆情的预警控制具有十分重要的意义。[方法 /过程]利用改进的关联规则算法对网络新闻标题进行挖掘,相邻、有序地输出频繁字符串集合。根据互信息计算字符串的相似度,形成热点新闻的关键词集合,以实际的网络新闻为语料进行实验。[结果 /结论]实验结果表明,本文所提出的方法不仅能有效地发现词典中不存在的新词汇以及当前网络中流行的热词,而且有效地区别词汇集合中的复合式新词,继而可通过热词集合的热点度计算对网络新闻热点进行排名。[ Purpose/significance ] With the widespread of network news, the hot words associated with the news will spread, and the new words with a large amount of public opinion become the basis of the analysis of the network pub- lic opinion. [ Method/process ] This article proposes an improved algorithm of association rules to mine new words based on the headlines of network news, input frequent string collections adjacently and orderly, proposes a method of computing the similarity of strings by using Mutual Information to form the collections of keywords of the hot news, and tested based on the actual network news corpus. [ Result/conclusion] The experiment results show that this method can not only find unknown words and hot words from the network news, but also proposed a new method of support degree comparison which can distinguish combined new words from the collection of words. Then rank the news by computing hot degrees of the collections of hot words.

关 键 词:关联规则 未登录词 互信息 热点度 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象