检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:赵林静 ZHAO Lin-jing(School of Computer,Civil Aviation Flight University of China,Guanghan 618307,China)
机构地区:[1]中国民航飞行学院计算机学院
出 处:《计算机工程与设计》2019年第12期3514-3519,共6页Computer Engineering and Design
基 金:国家自然科学基金民航联合基金重点项目(U1233202/F01)
摘 要:为对评论文本进行准确的主题分类,提出一种结合HowNet语义相似度和隐含狄利克雷分配(LDA)模型的主题聚类方法。不同于传统LDA模型,该方法通过HowNet常识知识库计算输入单词与当前主题聚类中单词间的语义相似度,以此调整LDA模型中的超参数β。为不同的单词分配不同的β值,以此监督聚类过程,在主题分析中实现从语法到语义的转变。实验结果表明,该方法能够有效提高主题聚类的准确性。To classify comment texts accurately,a topic clustering method based on HowNet semantic similarity and implicit Dirichlet distribution(LDA)model was proposed.Different from the traditional LDA model,the semantic similarity between the input words and the words in the current topic clustering was calculated through HowNet common sense knowledge base,and the hyper-parameterβin LDA model was adjusted.Differentβvalues were assigned to different words to supervise the clustering process,thus realizing the transformation from grammar to semantics in thematic analysis.Experimental results show that the proposed method can effectively improve the accuracy of topic clustering.
关 键 词:评论短文本 主题分析 HowNet语义相似度 LDA模型 超参数β
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.223.97.137