基于词共现网络的海量文本分析与热点话题发现  被引量:11

Large Text Corpus Analysis and Hot Topic Discovery Based on Word Co-occurrence Network

在线阅读下载全文

作  者:张海龙[1] 淦文燕[1] 陈刚[1] 姜博[1] 

机构地区:[1]解放军理工大学指挥信息系统学院,南京210007

出  处:《计算机与数字工程》2015年第10期1729-1735,共7页Computer & Digital Engineering

基  金:国家自然科学基金(编号:60974086)资助

摘  要:在语言学领域,词与词之间的关系具有很强的规则性,基于词共现网络的文本表示可以最大程度捕捉文本结构信息,揭示其内在的组织原则与语言学规律。论文以取自凤凰网环球军事、新浪网中国军事、中华网中国军事的海量军事语料为研究对象,构建军事领域词共现网络,通过词频统计、结点度分布分析以及命名实体抽取,揭示其小世界特性和无标度特性,实现海量文本的热点话题发现。实验结果显示了相关方法的有效性。In the domain of linguistics,the relationship between words has a strong regularity.Using word co-occurrence network for text representation can capture maximum information of text structure,reveals its internal organization principle and rule of linguistics.In this paper,geared to the massive military corpora of ifeng.com,sina.com.cn and china.cn,the word co-occurrence network of military domain corpora is constructed,its small-world effect and scale-free property are revealed,and hot topic discovery is realized through the analysis of word frequency statistics,node degree distribution and named entity extraction.The experimental result shows the effectiveness of related methods.

关 键 词:词共现网络 小世界特性 无标度特性 热点话题发现 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象