检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:杨长春[1] 周猛[1] 叶施仁[1] 徐小松[1]
机构地区:[1]常州大学信息科学与工程学院,江苏常州213164
出 处:《计算机仿真》2013年第11期383-387,共5页Computer Simulation
基 金:国家自然科学基金项目(61272367);江苏省科技厅项目(BZ2010021);江苏省研究生培养创新工程项目(20120515)
摘 要:由于微博平台的信息量大,为对博文热点进行准确识别,本文提出了一种基于经典CURE聚类算法的改进算法来发现微博热点话题。本文选取了20391条中文微博作为样本数据集,通过将博文稀疏矩阵化达到将高维数据降维的效果,很大程度上提高了计算的精度和速度。从选取CURE层次聚类的代表点出发,将代表点转换为博文种子集,同时调节收缩因子,加大排除博文的异常点,利用CURE层次聚类算法的思想设计了改进的CURE算法来发现微博热点话题,通过实验发现改进CURE层次聚类算法能够将数据集中的74.65%作为孤立点,更好的提高了算法的精度,同时准确地抓住长尾效应的"头部",能够更加直观的发现微博热点话题。As the large amount of information on microblog platform, for the accuracy of hot topics detection, a method based on classic CURE clustering algorithm of improving algorithm to discover microblog Hot Topics was pro- posed in this paper . We selected 20,391 Chinese micro-blogs as the sample data set. It greatly improved the accu- racy and speed of calculation when tweets sparse matrix was used to dimension reduction with highdimensional data. Starting with typical points selected from the CURE hierarchical clustering, converting typical points into tweets seed set, at the same time, adjusting the shrinkage factor and increasing outliers tweets excluding, we used the idea of CURE hierarchical clustering algorithm to design a new improved CURE algorithm for the discovering of microblog Hot Topics. The experiment shows that the improved CURE hierarchical clustering algorithm can set 74.65% of the tweets as isolated points, which can well improved the accuracy of algorithm and accurately grasp the "head" of the long tail effect. Also it is more intuitive to discover micro-blog Hot Topics.
关 键 词:稀疏矩阵 热点话题 层次聚类算法 博文种子集 改进层次聚类算法
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.15.1.201