一种基于SA_LDA模型的文本相似度计算方法  被引量:4

Text Similarity Calculation Algorithm Based on SA_LDA Model

在线阅读下载全文

作  者:邱先标 陈笑蓉[1] QIU Xian- biao, CHEN Xiao -tong(College of Computer Science and Technology ,Guizhou University ,Guiyang ,550025, Chin)

机构地区:[1]贵州大学计算机科学与技术学院,贵阳550025

出  处:《计算机科学》2018年第B06期106-109,139,共5页Computer Science

基  金:国家自然科学基金(61363028)资助

摘  要:计算文本的相似度是许多文本信息处理技术的基础。然而,常用的基于向量空间模型(VSM)的相似度计算方法存在着高维稀疏和语义敏感度较差等问题,因此相似度计算的效果并不理想。在传统的LDA(Latent Dirichlet Allocation)模型的基础上,针对其需要人工确定主题数目的问题,提出了一种能通过模型自身迭代确定主题个数的自适应LDA(SA_LDA)模型。然后,将其引入文本的相似度计算中,在一定程度上解决了高维稀疏等问题。通过实验表明,该方法能自动确定模型主题的个数,并且利用该模型计算文本相似度时取得了比VSM模型更高的准确度。Many information processing techniques are based on computing the similarity of text.However,the traditional method of similarity calculation based on vector space model has the problems of high dimension and poor semantic sensitivity,so the performance is not very satisfactory.This paper proposed a self-adaptive LDA(SA_LDA)model based on traditional LDA model.It can manually determine the number of topic.Applying it in text similarity calculation,it can solve the high dimensional and sparse problem.Experiments show that this method improves the accuracy of similarity calculation and the effect of text clustering compared with VSM.

关 键 词:文本相似度 SA_LDA模型 主题模型 文本挖掘 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象