检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]湖南师范大学物理与信息科学学院,长沙410081
出 处:《计算机工程》2014年第5期7-11,共5页Computer Engineering
基 金:国家自然科学基金资助项目(60973129);广东省自然科学基金资助项目(S2011010000812)
摘 要:针对互联网微博业务的广泛应用及其对大数据挖掘和分析的影响,提出一种基于标签的微博人脉网络挖掘算法。分析该网络的结构特征,利用微博用户标签,在模糊匹配过程中计算词语之间的匹配度时,主要考虑词语语素、次序和词长3个因素。为弱化以不同用户为起点对算法准确率的影响,分别以普通用户和名人用户为起点用户,挖掘微博人脉网络数据。同时,研究微博人脉网络的结构特性,通过分析发现微博人脉网络同时具有小世界和无标度特性。实验结果表明,运用该算法对名人用户和普通用户朋友中对IT感兴趣的人进行挖掘的误差率是可接受的。其中,挖掘10个名人用户朋友时算法的平均误差率为14.08%,挖掘10个普通用户朋友时算法的平均误差率为10.63%。For the widespread use of microblog business and the impact on data mining techniques, a mining algorithm of microblog interpersonal relationship network is proposed based on the fuzzy matching of tag, and the characteristics of the network are analyzed. Use the tag of the users, the algorithm mainly considers word morpheme, order, and word length to calculate the match degree of the words when matching the tag. For weakening the influence that using different users as a starting point may have different result, ordinary users and celebrities as a starting point separately are used. At the same time, the structural characteristics of the network are studied, and the analysis results show that the network has small-world and scale-free properties. The results show that the mining error rate of celebrities and common users friends who are interested in IT. When mining 10 celebrity users’ friends, the average error rate of the algorithm is 14.08%, and 10.63%for common users.
关 键 词:标签 微博 人脉网络 模糊匹配 数据挖掘 结构特征
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.173