基于LDA主题模型的文本相似度计算  被引量:99

Text Similarity Computing Based on Topic Model LDA

在线阅读下载全文

作  者:王振振[1] 何明[1] 杜永萍[1] 

机构地区:[1]北京工业大学计算机学院,北京100124

出  处:《计算机科学》2013年第12期229-232,共4页Computer Science

基  金:国家自然科学基金(60803086);北京市自然科学基金(4123091);北京市教委科研计划(KM20110005013;KM200910005009)资助

摘  要:LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果。实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果。Latent Dirichlet Allocation (LDA) is an unsupervised model which exhibits superiority on latent topic mode- ling of text data in the research of recent years. This paper presented a method which improves text similarity calcula- tion by using LDA model. This method models corpus and text with LDA. Parameters are estimated with Gibbs sam- pling of MCMC and the word probability is represented. It can mine the hidden relationship between the different topics and the words from texts,get the topic distribution,and compute the similarity between the text. Finally, the text simi- larity matrix clustering experiments are carrieel out to assess the effect of clustering. Experimental results show that the method can improve the text similarity accurate rate and clustering quality effectively.

关 键 词:主题模型 LDA 文本相似度 GIBBS抽样 

分 类 号:TP301[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象