基于藏文新闻文本话题检测的聚类算法研究  被引量:2

The research of clustering algorithm for topic detection based on Tibetan news texts

在线阅读下载全文

作  者:曹晖[1] 孟祥和[1] 

机构地区:[1]西北民族大学中国民族语言文字信息技术国家民委教育部重点实验室,兰州730030

出  处:《华中师范大学学报(自然科学版)》2014年第1期37-41,共5页Journal of Central China Normal University:Natural Sciences

基  金:甘肃省自然科学基金项目(1107RJZA157)

摘  要:话题检测的提出是为了帮助人们从海量的新闻报道中发现未知的新话题,其中文本聚类算法的研究,是实现藏文新闻文本的话题检测技术的核心.本文提出一种聚类算法,是基于简易聚类算法的改进,首先改进了文本顺序对聚类结果产生的影响,其次通过确定种子话题,来确定话题的类别.本研究的聚类算法在较小规模的语料中比改进前源算法有一定程度的提高.本文的研究对象是藏文网站中的新闻文本.Topic detection was raised in order to help people find an unknown news topic from vast amounts of news reports,and the research of clustering algorithm is the core content to realize topic detection technology based on Tibetan news text.This paper proposes a clustering algorithm is based on simple clustering algorithm.First of all,this algorithm improves the impact that the different text order causes the difference of the clustering results.Secondly,introducing the concept of seed topic,this algorithm determines the subject category through the number of seed topic.The new clustering algorithm of this study has a certain degree of increase,compared with the previous algorithm,in a smaller corpus.The research object of this paper is the text of Tibetan news website news.

关 键 词:聚类算法 种子话题 藏文新闻文本 话题检测 

分 类 号:TP391.43[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象