检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]上海交通大学计算机科学与工程系,上海200030 [2]上海第二工业大学,上海201209
出 处:《情报科学》2009年第10期1551-1554,1558,共5页Information Science
基 金:国家自然科学基金项目(60374071)
摘 要:本文作者在长期研究、开发文本自动分类系统的基础上,提出了一个新的使用混合分类算法的分类器框架。针对网上新闻特点,作为"词典+匹配"方法的补充,提出了利用串匹配无词典新闻主题提取方法;降噪一直是困扰自动分类精度提高的难点之一,在开发过程中发现了兼类噪声,提出了一种借助于统计特性修正概念类频来降噪的方法。综合上述方法开发了一个网上新闻自动分类系统,使用中国资讯行网上新闻语料10万篇进行测试,分类结果很好,接近实用水平。Based on research&develop text automatic classification system a lot of years, authors present a new classifier scheme using hybrid algorithms. According to Intemet news's character, we present a new method to extract subject from Internet news by string match without thesaurus, as a supplement for "thesaurus+match" mode; noise reduction is one of hardest problem to improve classifica- tion accuracy, we find multi-category noise while we develop this system, and present an algorithm to remove multi-category noise based on statistics of frequency. We develop an Intemet news automatic classification system using all methods mentioned above, and tested it using 10,0000 piece of Intemet news corpus provided by ChinaInforBank. Classification result is well, close to practical level.
分 类 号:TP31[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.217.95.146