检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李斌阳[1] 韩旭[2] 彭宝霖 李菁[3] 王腾蛟[4] 黄锦辉[3]
机构地区:[1]国际关系学院信息科技学院,北京100091 [2]首都师范大学信息工程学院,北京100048 [3]香港中文大学系统工程与工程管理系,香港999077 [4]北京大学信息工程学院,北京100871
出 处:《中国科学:信息科学》2015年第12期1547-1557,共11页Scientia Sinica(Informationis)
基 金:国家自然科学基金(批准号:61502115;61370165;61572043);中央高校基本科研项目(批准号:3262014T75;3262015T20)资助
摘 要:随着互联网的蓬勃发展,微博在信息传播过程中扮演着非常重要的角色,正逐渐演变成一种新型线上交流新闻源.人们已经习惯于通过微博平台来了解他们身边的朋友或家人在做什么,关心这个世界正在发生什么.然而,由于微博平台蕴含着海量信息,很难以人工的方式在微博上快速检测当前实时发生的重大新闻或突发事件.因此,面向微博的热点主题检测成为当下的一个研究热点.然而,现有研究主要侧重于主题识别而忽略了用户对于实时性的要求,少数针对实时热点主题发现的方法主要基于关键词的统计分析,实时性和准确率都有待提高.根据我们的观察发现,微博平台汇集了成千上万的观点与意见,包括对社会事件的讨论、对产品的评价等,这些观点使得微博成为一个非常有价值的观点意见数据源.通过分析观点与情感的实时变化,我们可以更好地了解相关主题的变化趋势,从而辅助用户判定其是否是流行的热点主题.本文结合微博的情感时序变化提出了一种实时的非参数化的热点主题检测方法.该方法通过对微博情感极性分析及其强度变化来计算情感时序分布,并利用上述特征构建一个复合模型以识别、检测微博热点主题.实验分别在Twitter和新浪微博等真实数据集上进行,结果表明我们提出的方法能够在保证检测准确率的前提下更快地识别热点话题.Twitter plays a significant role in information diffusion, and it has evolved to become an important information resource as well as news feed. There is a widespread interest in what is happening on Twitter, and the instantaneous news information that is passed on. However, with the large amount of data, it is impossible to manually determine what topic is trending, which makes real-time topic detection attractive and significant.Furthermore, Twitter provides a platform for the sharing of opinions and providing feedback for events, news,and products, etc. Because users tend to express their real thoughts on Twitter, it is recognized as a valuable source of opinions. Nevertheless, most works about trending topic detection fail to consider sentiments. In this work, we develop a non-parametric supervised real-time-trending topic-detection model with a sentimental feature. By performing experiments, we show that our model successfully detects trending sentimental topic in a short time. After applying a combination of multiple features, e.g., tweet volume and user volume, the proposed model demonstrates impressive effectiveness with an 82.3% recall rate, surpassing all of the competitors.
关 键 词:情感分析 热点主题 情感时间序列 实时检测 微博
分 类 号:TP393.092[自动化与计算机技术—计算机应用技术] TP391.1[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15