基于主题提取与兼类噪声消除新方法的自动分类系统  

The Implementation of Automatic Classification System Based on New Subject Extraction&Noise Reduction Method

在线阅读下载全文

作  者:蔡巍[1,2] 王英林[1] 尹中航[1] 

机构地区:[1]上海交通大学计算机科学与工程系,上海200030 [2]上海第二工业大学,上海201209

出  处:《情报科学》2009年第10期1551-1554,1558,共5页Information Science

基  金:国家自然科学基金项目(60374071)

摘  要:本文作者在长期研究、开发文本自动分类系统的基础上,提出了一个新的使用混合分类算法的分类器框架。针对网上新闻特点,作为"词典+匹配"方法的补充,提出了利用串匹配无词典新闻主题提取方法;降噪一直是困扰自动分类精度提高的难点之一,在开发过程中发现了兼类噪声,提出了一种借助于统计特性修正概念类频来降噪的方法。综合上述方法开发了一个网上新闻自动分类系统,使用中国资讯行网上新闻语料10万篇进行测试,分类结果很好,接近实用水平。Based on research&develop text automatic classification system a lot of years, authors present a new classifier scheme using hybrid algorithms. According to Intemet news's character, we present a new method to extract subject from Internet news by string match without thesaurus, as a supplement for "thesaurus+match" mode; noise reduction is one of hardest problem to improve classifica- tion accuracy, we find multi-category noise while we develop this system, and present an algorithm to remove multi-category noise based on statistics of frequency. We develop an Intemet news automatic classification system using all methods mentioned above, and tested it using 10,0000 piece of Intemet news corpus provided by ChinaInforBank. Classification result is well, close to practical level.

关 键 词:自动分类 主题提取 降噪 混合方法 

分 类 号:TP31[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象