检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:周新民[1,2] 陈晓红[1,2] 钟敏娟[3,4] 赵文军[1,2]
机构地区:[1]湖南商学院新零售虚拟现实技术湖南省重点实验室,湖南长沙410205 [2]湖南商学院湖南省移动电子商务协同创新中心,湖南长沙410205 [3]江西财经大学信息管理学院,江西南昌330013 [4]江西财经大学数据与知识工程江西省高校重点实验室,江西南昌330013
出 处:《系统工程》2017年第7期40-46,共7页Systems Engineering
基 金:国家社会科学基金资助项目(13CJY007);湖南省高等学校科学研究重点项目(17A113);湖南省哲学社会科学基金资助项目(16YBA228)
摘 要:面对海量的互联网信息,如何快速有效地提取到用户关心的话题成为网络信息处理的一项基本任务。话题发现实质是无指导的聚类研究,本文引入主题标签概念,针对在线社区数据,提出了主题标签的话题发现算法。该算法以词项为粒度,基于词项的权重和上下文信息获取论坛帖子线索文档的核心词汇,作为文档的主题标签,在向量空间模型的基础上结合主题标签间的相似性进行相关话题的聚类。该方法的提出,一方面获得的主题词项不仅准确,而且具有较强的语义关联性,有效的避免了向量空间模型中容易丢失特征词间语义信息的缺陷;另一方面,与潜在语义模型相比,本文在向量空间模型基础上的话题发现具有更高的效率和更好的聚类质量。With huge volumes of information on Internet, how to extract user--concerned topics quickly and effectively has become a fundamental task for information processing on Internet. Technically, topic detection belongs to unsuper- vised clustering. By introducing topic label, this paper proposes a strategy of topic detection from online community data. It can be explained as follows- firstly based on term-s weight and context, keywords are extracted, as topic label, from forum thread documents; then, clustering is performed by combining vector space model with similarity computation among labels. The experimental results demonstrate the efficiency of proposed method in two ways; the extracted key- words are accurate and have strong semantic association among them, which overcomes the defects of semantic informa- tion losing in vector space model. In the other way, compared to latent semantic indexing model, the proposed method shows higher efficiency and higher clustering quality.
关 键 词:话题发现 主题标签 大数据 上下文分析 向量空间模型
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.66