主题模型在检索结果聚类中的应用  被引量:2

Research on Application of Topic Model in Clustering Search Results

在线阅读下载全文

作  者:蒋宗礼 赵思露 JIANG Zong-li;ZHAO Si-lu(Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China)

机构地区:[1]北京工业大学信息学部,北京100124

出  处:《软件导刊》2018年第12期177-181,共5页Software Guide

摘  要:检索结果聚类能够有效帮助提高获取信息的效率和质量。针对传统文本聚类模型存在数据维数过高、缺乏语义理解等问题,提出一种面向检索结果聚类的融合共现分析主题建模算法。基于改进的LDA模型,对得到的"文档-主题"概率分布进行聚类分析,采用K-means算法完成聚类过程,最后提出根据聚类中心提取主题词作为类簇标签。实验结果表明,改进的LDA算法在检索结果聚类应用上不仅获得了很好的聚类效果,类簇标签也有良好的可读性。The clustering of search results can effectively help improve the efficiency and quality of information retrieval.Aiming at the problems of traditional data clustering models such as high data dimension and lack of semantic understanding,this paper proposes a fusion co-occurrence analysis topic modeling algorithm oriented to the retrieval of results clustering.Based on the improved LDA model,the obtained“document-subject”probability distribution is clustered,the K-means algorithm is used to complete the clustering process,and finally the clustering center is used to extract topic words as cluster-like tags.The experimental results show that the improved LDA algorithm not only has a good clustering effect on the clustering of search results,but also has a good readability of cluster labels.

关 键 词:LDA 共现分析 检索结果聚类 类簇标签 

分 类 号:TP319[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象