基于Single-Pass的网络舆情热点发现算法  被引量:17

An Internet Public Opinion Hotspot Detection Algorithm Based on Single-Pass

在线阅读下载全文

作  者:格桑多吉[1] 乔少杰[2] 韩楠[3] 张小松[4] 杨燕[2] 元昌安[5] 康健[2] 

机构地区:[1]西藏大学藏文信息技术研究中心,拉萨850000 [2]西南交通大学信息科学与技术学院,成都610031 [3]西南交通大学生命科学与工程学院,成都610031 [4]电子科技大学大数据研究中心,成都611731 [5]广西师范学院科学计算与智能信息处理广西高校重点实验室,南宁530023

出  处:《电子科技大学学报》2015年第4期599-604,共6页Journal of University of Electronic Science and Technology of China

基  金:国家自然科学基金(61100045;61165013);高等学校博士学科点专项科研基金(20110184120008);中国博士后科学基金特别资助项目(201104697);教育部人文社会科学研究青年基金(14YJCZH046);中央高校基本科研业务费专项资金(2682013BR023);科学计算与智能信息处理广西高校重点实验室开放课题资助(GXSCIIP201407);四川省教育厅资助科研项目(14ZB0458)

摘  要:考虑网络事件的时间距离,基于半结构化网页中不同位置特征项重要程度的不同,提出改进的single-pass文本聚类算法single-pass*,优势在于对Web文本不同位置特征项的加权处理,仅需计算新文档与同类别种子文档间的相似度。实验结果表明,相比single-pass,改进算法极大减少了漏检率和错检率,降低了由于新文本流内文档进行相似度计算导致系统性能的下降,平均提高Web文本聚类效率40%。将聚类后的Web文本应用于网络舆情分析,进行主题关注度分析和话题热度特性分析。By considering the time interval of Internet events as well as the importance of different feature items from semi-structured Web documents in different locations, an improved single-pass text clustering algorithm called single-pass* is proposed. The advantage is that it assigns the weight value to different feature items from different locations on the Web pages, and only needs to calculate the similarity between the new document and its seed document. Experimental results show that, compared to the single-pass algorithm, the improved algorithm can reduce the missing rate, the error detection rate, and the degradation of system performance caused by computing the topic similarity of documents in new Web data stream, and improve the clustering efficiency at an average rate of 40%. The clustered Web texts can be used to analyze the Internet opinion including the topic relevant degree and the hot degree.

关 键 词:舆情分析 single-pass 文本聚类 话题发现 

分 类 号:TP312[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象