检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]武汉大学信息资源研究中心,湖北武汉430072
出 处:《情报理论与实践》2013年第8期85-90,共6页Information Studies:Theory & Application
基 金:国家自然科学基金项目"社会化媒体集成检索与语义分析方法研究"的成果;项目编号:71273194
摘 要:伴随着微博的日趋流行,对微博信息的检索逐渐成为人们获取第一消息的手段。其中文本聚类和主题发现是信息检索领域的有效方法,采用适当的方法是影响微博短文本信息检索质量的关键因素。文章针对文本聚类和LDA主题模型的互补特征,综合考虑了微博特殊文体和短文本聚类效率问题,提出了基于频繁词集的文本聚类和基于类簇的LDA主题挖掘相融合的微博检索方法,给出了针对微博文体的一种新的主题检索模型。实验表明,该方法不仅能有效地划分微博文本,并且能清晰地挖掘类簇中潜在主题。With the daily popularity of microblog, the search of microblog information has gradually become the method of people to obtain the firsthand news. Text clustering and topic discovery are the effective methods in the information retrieval field. Using the appropriate method is the key factor affecting the information retrieval quality of microblog short text. Based on the com plementary characteristics of text clustering and LDA topic model, and considering the special style of microblog and the clustering efficiency of short text comprehensively, this paper proposes a microblog retrieval method integrating the text clustering based on frequent word set with the LDA topic excavation based on class cluster, and gives a new topic retrieval model for microblog style. The experiment shows that this method can not only divide microblog text effectively, but also excavate the latent topic in the class cluster clearly.
分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249