检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:魏明川 朱俊杰[1,2] 张瑾[1] 张凯[1] 程学旗[1] 任彦
机构地区:[1]中国科学院计算技术研究所,北京100190 [2]中国科学院研究生院,北京100190 [3]国家计算机网络应急技术处理协调中心,北京100190
出 处:《中文信息学报》2014年第1期41-46,55,共7页Journal of Chinese Information Processing
基 金:国家自然科学基金(60903139);国家242专项(2011F45;2011A001;2012G129)
摘 要:受互联网文本信息话题内容多元性,演化性等特点的影响,传统的话题检测模型对子话题粒度的选取和检测质量很难保证。针对该问题,该文提出一种基于吸收马尔可夫链的子话题划分算法,该算法对基于网页聚类生成的话题关键词进行组合生成子话题,并以吸收马尔可夫链对子话题进行吸收衍化,进行重排序生成结果子话题。实验结果表明,该算法能同时保证生成子话题的重要性和多样性。Due to such natures as content diversity, dynamic evolution ,and so on, it's difficult to get high qua]ity subtopics for web texts and topics by traditional topic detection and tracking models. An algorithm of subtopic parti- tion based on absorbing Markov chain is proposed to address this issue. The algorithm firstly gathers the topic key- words clustered by the web pages to generate subtopics, then derived subtopics based on the absorbing Markov chain. The experimental results show that the algorithm performs well in terms of both significance and diversity.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222