基于主题标签的在线社区话题发现  被引量:2

Online Community Topic Detection Based on Label

在线阅读下载全文

作  者:周新民[1,2] 陈晓红[1,2] 钟敏娟[3,4] 赵文军[1,2] 

机构地区:[1]湖南商学院新零售虚拟现实技术湖南省重点实验室,湖南长沙410205 [2]湖南商学院湖南省移动电子商务协同创新中心,湖南长沙410205 [3]江西财经大学信息管理学院,江西南昌330013 [4]江西财经大学数据与知识工程江西省高校重点实验室,江西南昌330013

出  处:《系统工程》2017年第7期40-46,共7页Systems Engineering

基  金:国家社会科学基金资助项目(13CJY007);湖南省高等学校科学研究重点项目(17A113);湖南省哲学社会科学基金资助项目(16YBA228)

摘  要:面对海量的互联网信息,如何快速有效地提取到用户关心的话题成为网络信息处理的一项基本任务。话题发现实质是无指导的聚类研究,本文引入主题标签概念,针对在线社区数据,提出了主题标签的话题发现算法。该算法以词项为粒度,基于词项的权重和上下文信息获取论坛帖子线索文档的核心词汇,作为文档的主题标签,在向量空间模型的基础上结合主题标签间的相似性进行相关话题的聚类。该方法的提出,一方面获得的主题词项不仅准确,而且具有较强的语义关联性,有效的避免了向量空间模型中容易丢失特征词间语义信息的缺陷;另一方面,与潜在语义模型相比,本文在向量空间模型基础上的话题发现具有更高的效率和更好的聚类质量。With huge volumes of information on Internet, how to extract user--concerned topics quickly and effectively has become a fundamental task for information processing on Internet. Technically, topic detection belongs to unsuper- vised clustering. By introducing topic label, this paper proposes a strategy of topic detection from online community data. It can be explained as follows- firstly based on term-s weight and context, keywords are extracted, as topic label, from forum thread documents; then, clustering is performed by combining vector space model with similarity computation among labels. The experimental results demonstrate the efficiency of proposed method in two ways; the extracted key- words are accurate and have strong semantic association among them, which overcomes the defects of semantic informa- tion losing in vector space model. In the other way, compared to latent semantic indexing model, the proposed method shows higher efficiency and higher clustering quality.

关 键 词:话题发现 主题标签 大数据 上下文分析 向量空间模型 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象