基于爆发词识别的微博突发事件监测方法研究  被引量:19

Micro-blog Emergencies Detection Approach Based on Burst Words Distinguishing

在线阅读下载全文

作  者:陈国兰[1] 

机构地区:[1]南京邮电大学图书馆,南京邮电大学科技情报研究所,南京210003

出  处:《情报杂志》2014年第9期123-128,共6页Journal of Intelligence

摘  要:鉴于近年突发事件在微博传播的巨大影响力,提出基于爆发词识别的微博突发事件监测方法。把微博突发事件监测分为微博预处理、爆发词抽取、爆发词聚类三个模块。先提出微博噪声数据过滤规则从海量数据中过滤噪声微博,然后采用相对词频、词频增长率、爆发词权重三个计算指标来提取出爆发词特征,最后采用共词分析方法来实现爆发词聚类,从而提取突发事件。最后以新浪微博数据为例进行实验,验证了提出的算法对突发事件监测能取得不错的效果。Giventhehuge influenceof emergencies in micro-blog spread in recent years,this paper presentsa study of the emergency detection on Chinese micro-blog based on burst words distinguishing. In this paper, the burst event detection on micro-blog is divided intothree modules,namely micro-blog pretreatment, burst word extraction and burst word clustering. Firstly, it puts forwardmicro-blog filtering rules to filter micro-blog noise data from massive data, and then usesthree indexes of therelative word frequency, the frequency rate of growth and the weight of words to extract the features for burstwords. Finally it usesthe co-word analysis and"absolute cluster" to achieve the burst word clustering. Experiments on Sina Micro-blog afterwards verifies the effectiveness of the algorithm proposed in this paper on emergency extraction.

关 键 词:微博 爆发词 共现分析 突发事件 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象