基于主题模型的检索结果聚类应用研究  被引量:14

Retrieval Results Clustering Application Research Based on LDA

在线阅读下载全文

作  者:阮光册[1] 夏磊[2] 

机构地区:[1]华东师范大学经济与管理学部信息管理系,上海200241 [2]上海图书馆会展中心,上海200031

出  处:《情报杂志》2017年第3期179-184,共6页Journal of Intelligence

基  金:上海哲学社会科学一般项目"基于主题模型的学科交叉知识发现研究"(编号:2016BTQ002)的研究成果之一

摘  要:[目的/意义]检索结果聚类能够帮助用户快速地浏览系统返回的检索结果。传统的基于向量空间的检索结果聚类缺乏对文本深层次的语义联系的挖掘,使得聚类结果的可读性、可理解性存在不足。因此,对检索结果进行语义层面的分析,并实现基于语义的检索结果聚类研究,具有重要的理论和实践意义。[方法/过程]将LDA主题模型与K-means算法相结合,利用LDA模型实现文本潜在语义的识别,将"文本-潜在主题"概率分布作为Kmeans聚类依据进行聚类分析,最后提取与聚类中心最近的主题的描述词作为检索结果聚类的标签。[结果/结论]实验表明,该方法在检索结果聚类以及聚类标签识别上具有很好的效果。[ Purpose/Significance ] Retrieval results clustering can help users to browse the retrieval results quickly. Traditional search results clustering based on vector space is lack of the dccp semantic relations of the text, which leads to the poor readability and comprehension of clustering result. Therefore, the semantic level of retrieval results analysis and the research of semantic search results clustering have important theoretical and practical significance. [ Method/Process ] In this paper, the author combines LDA topic model and K-means. Firstly, we use LDA model to identify the latent semantic text. Secondly, wc use the K-means clustering algorithm for clustering analysis of LDA results. Finally, wc extract the description for the theme nearest to clustering center as the search result clustering label. [ Result/ Conclusion] Experiments show that this method has a good effect on the retrieval results clustering and clustering tag identification.

关 键 词:LDA 检索结果聚类 聚类标签 概率分布 语义挖掘 K-MEANS 

分 类 号:G353[文化科学—情报学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象