基于可扩展LDA模型的微博话题特征抽取研究被引量：13

A Feature Extraction Method of Microblog Based on a Scalable Topic LDA Model

出　　处：《情报科学》2017年第4期22-26,31,共6页Information Science

基　　金：国家自然科学基金面上项目(71373123);江苏高校哲学社会科学研究重点项目(2015ZDIXM007);江苏省普通高校研究生科研创新计划项目(KYZZ15_0104)

摘　　要：【目的/意义】提出一种基于可扩展LDA模型的微博话题特征抽取方法。【方法/过程】利用词语权重调整方法筛选高贡献度高频词语;基于bootstrap思想,迭代产生特征词条候选集;引入信息熵值理论筛选话题词条;并利用四维泛化分类实现对特征词条的泛化和归类。【结果/结论】本文以真实新浪微博数据为实验对象,实验结果表明基于扩展LDA模型的特征词提取方法可弥补传统LDA模型在话题可解释性上的不足,有效地对微博文本进行话题特征抽取。[Purpose/significance] This paper presents a feature extraction method of microblog based on a scalable topic LDA model. [Method/process] By using the method of words weight adjustment for screening the high-frequency of contribution words and based on the bootstrap thought to introduce information entropy theory to build topic entry screening methods which iterative produce a characteristic set of candidate terms. It also uses four-dimensional generalization of the classification method to complete entry generalization and classification. [Result/conclusion] The real datasets-based experiments on Sina Weibo shows that the method can compensate for the interpretability lack of traditional LDA model and extract the topic feature of microblog text effectively.

关键词：LDA模型微博话题话题特征特征抽取

分类号：G206.3[文化科学—传播学]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于可扩展LDA模型的微博话题特征抽取研究被引量：13

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于可扩展LDA模型的微博话题特征抽取研究 被引量：13

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于可扩展LDA模型的微博话题特征抽取研究被引量：13