检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京航空航天大学经济与管理学院,江苏南京210016
出 处:《情报科学》2017年第4期22-26,31,共6页Information Science
基 金:国家自然科学基金面上项目(71373123);江苏高校哲学社会科学研究重点项目(2015ZDIXM007);江苏省普通高校研究生科研创新计划项目(KYZZ15_0104)
摘 要:【目的/意义】提出一种基于可扩展LDA模型的微博话题特征抽取方法。【方法/过程】利用词语权重调整方法筛选高贡献度高频词语;基于bootstrap思想,迭代产生特征词条候选集;引入信息熵值理论筛选话题词条;并利用四维泛化分类实现对特征词条的泛化和归类。【结果/结论】本文以真实新浪微博数据为实验对象,实验结果表明基于扩展LDA模型的特征词提取方法可弥补传统LDA模型在话题可解释性上的不足,有效地对微博文本进行话题特征抽取。[Purpose/significance] This paper presents a feature extraction method of microblog based on a scalable topic LDA model. [Method/process] By using the method of words weight adjustment for screening the high-frequency of contribution words and based on the bootstrap thought to introduce information entropy theory to build topic entry screening methods which iterative produce a characteristic set of candidate terms. It also uses four-dimensional generalization of the classification method to complete entry generalization and classification. [Result/conclusion] The real datasets-based experiments on Sina Weibo shows that the method can compensate for the interpretability lack of traditional LDA model and extract the topic feature of microblog text effectively.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117