检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]华东师范大学经济与管理学部信息管理系,上海200241 [2]上海图书馆会展中心,上海200031
出 处:《情报杂志》2017年第3期179-184,共6页Journal of Intelligence
基 金:上海哲学社会科学一般项目"基于主题模型的学科交叉知识发现研究"(编号:2016BTQ002)的研究成果之一
摘 要:[目的/意义]检索结果聚类能够帮助用户快速地浏览系统返回的检索结果。传统的基于向量空间的检索结果聚类缺乏对文本深层次的语义联系的挖掘,使得聚类结果的可读性、可理解性存在不足。因此,对检索结果进行语义层面的分析,并实现基于语义的检索结果聚类研究,具有重要的理论和实践意义。[方法/过程]将LDA主题模型与K-means算法相结合,利用LDA模型实现文本潜在语义的识别,将"文本-潜在主题"概率分布作为Kmeans聚类依据进行聚类分析,最后提取与聚类中心最近的主题的描述词作为检索结果聚类的标签。[结果/结论]实验表明,该方法在检索结果聚类以及聚类标签识别上具有很好的效果。[ Purpose/Significance ] Retrieval results clustering can help users to browse the retrieval results quickly. Traditional search results clustering based on vector space is lack of the dccp semantic relations of the text, which leads to the poor readability and comprehension of clustering result. Therefore, the semantic level of retrieval results analysis and the research of semantic search results clustering have important theoretical and practical significance. [ Method/Process ] In this paper, the author combines LDA topic model and K-means. Firstly, we use LDA model to identify the latent semantic text. Secondly, wc use the K-means clustering algorithm for clustering analysis of LDA results. Finally, wc extract the description for the theme nearest to clustering center as the search result clustering label. [ Result/ Conclusion] Experiments show that this method has a good effect on the retrieval results clustering and clustering tag identification.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222