基于混合聚类的微博热点话题发现方法  被引量:4

Micro-blog Hot Topics Detection Method Based on Hybrid Clustering

在线阅读下载全文

作  者:张亚男 冯建文[1] ZHANG Yanan;FENG Jianwen(School of Computer,Hangzhou Dianzi University,Hangzhou Zhejiang 310018,China)

机构地区:[1]杭州电子科技大学计算机学院,浙江杭州310018

出  处:《杭州电子科技大学学报(自然科学版)》2018年第1期59-64,80,共7页Journal of Hangzhou Dianzi University:Natural Sciences

摘  要:针对划分聚类算法对初始中心较为敏感的缺陷,提出了一种新的热点话题检测方法。首先,为了降低语义表达形式带来的误差,采用结合语义相似度的TF-IDF函数计算特征权重;然后,用AGNES算法进行聚类,得到初始聚类中心,再用K-means算法聚类出最终结果;最后,分析微博的转发数和评论数对热度的影响,计算话题热度并对结果进行排序。通过实验验证了新方法的有效性。To solve the partition clustering algorithm is sensitive to the initial center more defects,a new hot topic detection method was proposed in this paper.Firstly,in order to reduce the error caused by semantic expression,the feature weight was calculated by the term frequency-inverse document frequency(TF-IDF)function combined with semantic similarity.Then,combined with AGNES clustering algorithm to select the initial clustering center,and applied to the K-means algorithm for clustering.Finally,in order to sort of topics,this paper analysis the micro-blog forwarding and comments on the heat influence and calculates the heat of topics.The results show that proposed method can effectively topic clustering and detect the hot topics.

关 键 词:聚类算法 向量空间模型 话题聚类 热点话题 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象