检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]同济大学经济与管理学院,上海200092 [2]上海通用汽车销售有限公司,上海201206
出 处:《情报学报》2016年第10期1022-1037,共16页Journal of the China Society for Scientific and Technical Information
基 金:国家自然科学基金项目(71371144);上海市哲学社会科学规划课题一般项目(2013BGL004);山东省统计科研重点课题一般项目(KT15073)
摘 要:准确识别在线新闻的热点话题,有助于政府了解社会动向、企业洞察消费需求、学者追踪研究热点。为此,提出一种基于隐含狄利克雷分布和社会网络分析的在线新闻文本热点挖掘模型。首先,借助LDA主题模型对同一时期某一领域的新闻文本进行主题词提取,形成主题词共现结构网络。然后,采用社会网络分析方法对共现网络进行分析,构造主题词语的社会网络结构图谱,进行中心性分析、核心-边缘分析和凝聚子群分析,并以"可持续发展"领域为例,对该领域的热点进行识别。最后,分别与TD-IDF和LDA的主题抽取方法对比,并结合百度指数的验证,发现本文的方法能够有效地反映词语的重要程度和分布情况,具有较强的可移植性。The purpose of paper is to identify hot topics of online news accurately, it is of great reference value for government to understand the social dynamics, enterprise to get consumers' demand, and researcher to find research hotspot. In this paper, a model for mining hot topic of online news text based on Latent Dirichlet Allocation and Social Network Analysis is developed. Firstly, some topics of news text are extracted by LDA topic model at the same period, then topic co-occurrence network is made by SNA. We construct social network structure map and analysis node centricity, core- periphery and cohesive subgroup. And an experiment is conducted by online news text in the field of sustainable development. Finally, comparing with methods of extracting topic based on TD-IDF and LDA respectively, this method can reflect the degree of importance and distribution of words effectively by the verification of Baidu Index, and has strong portability.
关 键 词:热点主题 在线新闻 隐含狄利克雷分布 社会网络分析
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.171