基于有意义串聚类的微博热点话题发现方法  被引量:12

Microblog hot topic detection method based on meaningful string clustering

在线阅读下载全文

作  者:贺敏[1,2] 王丽宏[2] 杜攀[1] 张瑾[1] 程学旗[1] 

机构地区:[1]中国科学院计算技术研究所,北京100080 [2]国家计算机网络应急技术处理协调中心,北京100029

出  处:《通信学报》2013年第S1期256-262,共7页Journal on Communications

基  金:国家科技支撑基金资助项目(2012BAH46B01);国家自然科学基金资助项目(61170230)~~

摘  要:针对微博数据特征稀疏、内容碎片化的特点,提出一种基于有意义串聚类的热点话题发现方法。结合重复串计算、上下文邻接分析和语言规则过滤多种策略,提取能够表达独立完整语义的有意义串,并将微博数据建模在相对较小的有意义串空间,通过聚类产生候选话题,根据热度排序发现热点话题。微博数据实验结果表明,该方法在一定程度上实现对微博高维稀疏空间的降维,对于微博空间的热点话题发现有效可行。Aiming at the properties of sparse feature, content fragmentation for microblog data, a hot topic detection method was proposed based on meaningful string clustering. The multiple strategies including repeated string detection, context analysis and language rule filtering were combined to extract meaningful strings. Candidate topics were generated by clustering with distribution of meaningful strings in documents. The hot topics were detected according to hotness sorting for candidate topics. As is shown from the experiment results on microblog data, the method achieves good effect in solving the problem of data sparseness. It is effective and feasible to hot topic detection for microblog.

关 键 词:热点话题 微博 有意义串 特征聚类 

分 类 号:TP393.092[自动化与计算机技术—计算机应用技术] TP391.1[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象