检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《现代图书情报技术》2016年第2期90-101,共12页New Technology of Library and Information Service
基 金:国家社会科学基金项目"语义网络环境下面向数字化科研的分布式知识发现研究"(项目编号:11BTQ040);华中师范大学中央高校基本科研业务费专项资金项目"基于统计本体学习方法的文本领域本体自动抽取与演化研究"(项目编号:CCNU13A05048)的研究成果之一
摘 要:【目的】利用数据挖掘算法,从海量繁杂的微博数据中检测出有价值的事件信息。【方法】针对国内具有代表性的微博网站,通过使用微博网络开放接口高效收集带有地理坐标的微博数据。使用K-means、KNN和决策树三种数据挖掘算法,根据微博数据的发布数、转发数、评论数、用户活跃度和移动强度5个指标构建微博的地理规律性特征。将日常地区性的微博数据特征与该地区微博特征的地理规律性进行比较,从而检测出该区域是否有事件发生。【结果】以2015年4月15日、16日的微博数据作为测试语料,使用文中提出的微博事件检测框架,成功检测到"北京沙尘暴"事件。【局限】在抽取微博地理规律性特征时,采用的样本数据偏少,一定程度上影响了事件检测框架的效果。【结论】基于地理坐标的微博事件检测框架是切实有效的,分析出的事件信息不仅可以帮助用户获取感兴趣的事件资讯,而且可以协助政府部门进行舆情管控和行政决策。[Objective] This study aims to retrieve the trending events from the micro-blog platform with the help of data mining algorithms. [Methods] First, we collected micro-blog message with geographic coordinates from the most popular platform(the Sina Weibo) using its API service. Then, we used the K-means, KNN and decision trees algorithms to construct the geographical patterns of those collected posts. The number of published posts, re-tweets, and comments, as well as user activity and movement strength were also examined. Third, we compared these geographical patterns with the daily regional micro-blog data to identify breaking news in that area. [Results] We analyzed data collected on April 15 and April 16 of 2015 with the help of the proposed model, and found a trending event of "Beijing Sandstorm". [Limitations] The sample size was small, which might influence the results. [Conclusions] Geographic coordinates could help us detect trending events on the Sina Weibo, and this new method will also support the government’s crisis management strategy and decision-making process.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117