基于熵值的网络论坛热点话题发现  被引量:10

Hot Topics Foundation in Network Forum Based on Entropy

在线阅读下载全文

作  者:孙永利[1] 李东[1] 张玥[1] 

机构地区:[1]哈尔滨工业大学计算机网络与信息安全技术研究中心,哈尔滨150001

出  处:《计算机工程》2014年第6期312-316,共5页Computer Engineering

基  金:国家"863"计划基金资助项目(2012AA012506;2011AA010705);国家自然科学基金资助项目(61173145);国家"973"计划基金资助项目(2011CB302605);国家科技支撑计划基金资助项目(2012BAH37B01)

摘  要:针对网络论坛热点话题的识别、发现和舆情监测问题,提出一种基于热度熵值的热点话题发现方法。通过网络爬虫抓取网络论坛中的数据,在对数据进行预处理和分析热点话题属性特征的基础上,合理定义各属性的权重和话题的热度熵值,并以此对话题的热点信息进行分析、统计与评估,从而发现和追踪网络论坛中的热点话题。同时,对话题的热度进行细致划分和各种类型的定义,采用不同阈值策略计算不同类型的热度信息标注的准确率。实验结果表明,该方法合理、有效,相比于传统的话题语义分析方法具有较高的准确率,可作为互联网论坛舆情监测的依据。Aiming at the problem of the identification, discovery and monitoring of public opinion of hot topic in network forums, a discovery method is presented based on the hot topic of the heat entropy. Firstly, it gets the data in the online forum with web crawler and reasonably defines the heat entropy of topic and the weight of each attribute on the basis of the data pre-processing and analysis of hot topics attributes. Secondly, it detects and tracks a hot topic in online forums according to the information about the analysis, statistics and evaluation of the hot topic. Finally, it calculates the accuracy of the different types with the topic of division and various types of definitions. Experimental results show that the policy is reasonable and effective compared with the traditional topic semantic analysis methods, so it can be the basis of the Internet forum of public opinion monitoring.

关 键 词:网络论坛 话题发现 属性特征 热度熵值 热点话题追踪 舆情监测 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象