基于吸收马尔可夫链的子话题发现方法  被引量:5

An Algorithm for Subtopic Detecting Based on Absorbing Markov Chain

在线阅读下载全文

作  者:魏明川 朱俊杰[1,2] 张瑾[1] 张凯[1] 程学旗[1] 任彦 

机构地区:[1]中国科学院计算技术研究所,北京100190 [2]中国科学院研究生院,北京100190 [3]国家计算机网络应急技术处理协调中心,北京100190

出  处:《中文信息学报》2014年第1期41-46,55,共7页Journal of Chinese Information Processing

基  金:国家自然科学基金(60903139);国家242专项(2011F45;2011A001;2012G129)

摘  要:受互联网文本信息话题内容多元性,演化性等特点的影响,传统的话题检测模型对子话题粒度的选取和检测质量很难保证。针对该问题,该文提出一种基于吸收马尔可夫链的子话题划分算法,该算法对基于网页聚类生成的话题关键词进行组合生成子话题,并以吸收马尔可夫链对子话题进行吸收衍化,进行重排序生成结果子话题。实验结果表明,该算法能同时保证生成子话题的重要性和多样性。Due to such natures as content diversity, dynamic evolution ,and so on, it's difficult to get high qua]ity subtopics for web texts and topics by traditional topic detection and tracking models. An algorithm of subtopic parti- tion based on absorbing Markov chain is proposed to address this issue. The algorithm firstly gathers the topic key- words clustered by the web pages to generate subtopics, then derived subtopics based on the absorbing Markov chain. The experimental results show that the algorithm performs well in terms of both significance and diversity.

关 键 词:子话题划分 话题关键词 吸收马尔可夫链 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象