基于突发词H指数的微博突发事件检测算法研究  被引量:8

Micro-blog Emergencies Detection Approach Based on the H-index of Burst Words

在线阅读下载全文

作  者:张晓霞[1] 王名扬[1] 贾冲冲[1] 董煦 

机构地区:[1]东北林业大学信息与计算机工程学院,哈尔滨150040

出  处:《情报杂志》2015年第2期37-41,共5页Journal of Intelligence

基  金:中央高校基本科研业务费专项资金项目"基于社会网络特征提取的群体性突发事件预警方法研究"(编号:2572014DB05);国家自然科学基金"群体性突发事件预警的超网络方法研究"(编号:71473034);中国博士后科学基金面上基金"考虑科技动态演化特征的热点技术领域预测研究"(编号:2012M520711)

摘  要:从微博中准确而高效地检测突发事件是近年来的研究热点。在综合考虑词的突发性和其对文档覆盖度的基础上,提出突发词H指数的概念,用于抽取有效表征突发事件的突发特征。构造突发词-文档矩阵,结合凝聚式层次聚类算法对突发微博文本进行聚类,并借助微博原文对事件进行描述。在新浪微博数据集上的实验表明,该方法可以有效地检测出微博突发事件。Mining emergencies accurately and efficiently from micro-blogs is one of the hottest issues in recent years. Based on the emer- gency of words and their coverage degree on documents, the concept of H-index of burst words was proposed to extract burst characters that could effectively represent the emergencies. By constructing the BurstWords-Document matrix, the Hierarchical Clustering Algorithm was used to cluster the burst documents. Based on the original micro-blog in each cluster, the emergencies were determined. Experiments on Sina Micro-blog showed that the approach proposed in this paper could effectively identify micro-blog emergencies.

关 键 词:微博 突发事件 突发词H指数 聚类 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象