检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:居亚亚 杨璐[1] 严建峰[1] Ju Yaya;Yang Lu;Yan Jianfeng(School of Computer Science&Technology,Soochow University,Suzhou Jiangsu 215006,China)
机构地区:[1]苏州大学计算机科学与技术学院
出 处:《计算机应用研究》2019年第12期3553-3557,共5页Application Research of Computers
基 金:国家自然科学基金资助项目(61572339,61272449);江苏省科技支撑计划重点项目(BE2014005)
摘 要:潜在狄利克雷分布(LDA)以词袋(bag of words,BOW)模型为基础,简化了建模的复杂度,但使得主题的语义连贯性较差,文档表征能力不强。为解决此问题,提出了一种基于语义分布相似度的主题模型。该模型在EM(expectation maximization)算法框架下,使用GPU(generalized Pólya urn)模型加入单词-单词和文档-主题语义分布相似度来引导主题建模,从语义关联层面上削弱了词袋假设对主题产生的影响。在四个公开数据集上的实验表明,基于语义分布相似度的主题模型在主题语义连贯性、文本分类准确率方面相对于目前流行的主题建模算法表现得更加优越,同时该模型提高了收敛速度和模型精度。LDA is based on the bag-of-words,which simplifies the complexity of modeling,but makes the semantic coherence of topics poor,and text representation ability is not strong. To solve this problem,this paper proposed the semantic distribution similarity based topic model. This model used GPU( generalized Pólya urn) model to add word-word and document-topic semantic distribution similarity to guide topic modeling under the framework of EM( expectation maximization) algorithm,which weakened the effect of bag-of-words hypothesis on topics from the semantic association level. Experiments on four public datasets show that the semantic distribution similarity based topic model is superior to the currently popular topic modeling algorithms in terms of topic semantic coherence and text classification accuracy,and the model improves the convergence speed and topic accuracy.
关 键 词:潜在狄利克雷分布 语义分布相似度 主题模型 GPU模型
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.16