基于可扩展LDA模型的微博话题特征抽取研究  被引量:13

A Feature Extraction Method of Microblog Based on a Scalable Topic LDA Model

在线阅读下载全文

作  者:邱明涛[1] 马静[1] 张磊[1] 姚兆旭 

机构地区:[1]南京航空航天大学经济与管理学院,江苏南京210016

出  处:《情报科学》2017年第4期22-26,31,共6页Information Science

基  金:国家自然科学基金面上项目(71373123);江苏高校哲学社会科学研究重点项目(2015ZDIXM007);江苏省普通高校研究生科研创新计划项目(KYZZ15_0104)

摘  要:【目的/意义】提出一种基于可扩展LDA模型的微博话题特征抽取方法。【方法/过程】利用词语权重调整方法筛选高贡献度高频词语;基于bootstrap思想,迭代产生特征词条候选集;引入信息熵值理论筛选话题词条;并利用四维泛化分类实现对特征词条的泛化和归类。【结果/结论】本文以真实新浪微博数据为实验对象,实验结果表明基于扩展LDA模型的特征词提取方法可弥补传统LDA模型在话题可解释性上的不足,有效地对微博文本进行话题特征抽取。[Purpose/significance] This paper presents a feature extraction method of microblog based on a scalable topic LDA model. [Method/process] By using the method of words weight adjustment for screening the high-frequency of contribution words and based on the bootstrap thought to introduce information entropy theory to build topic entry screening methods which iterative produce a characteristic set of candidate terms. It also uses four-dimensional generalization of the classification method to complete entry generalization and classification. [Result/conclusion] The real datasets-based experiments on Sina Weibo shows that the method can compensate for the interpretability lack of traditional LDA model and extract the topic feature of microblog text effectively.

关 键 词:LDA模型 微博话题 话题特征 特征抽取 

分 类 号:G206.3[文化科学—传播学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象