基于类信息的文本特征选择与加权算法研究被引量：8

Research on algorithm of text feature selection and weighting based on category

作　　者：吕震宇[1] 林永民[1] 赵爽[1] 陈景年[2] 朱卫东[2]

机构地区：[1]河北理工大学经济管理学院,河北唐山063009 [2]北京交通大学计算机与信息技术学院,北京100044

出　　处：《计算机工程与应用》2008年第20期145-147,158,共4页Computer Engineering and Applications

基　　金：国家自然科学基金(the National Natural Science Foundation of China under Grant No.60503017);唐山市重点实验室项目(No.06360307A-6)

摘　　要：文本自动分类中特征选择和加权的目的是为了降低文本特征空间维数、去除噪音和提高分类精度。传统的特征选择方案筛选出的特征往往偏爱类分布不均匀文档集中的大类,而常用的TF·IDF特征加权方案仅考虑了特征与文档的关系,缺乏对特征与类别关系的考虑。针对上述问题,提出了基于类别信息的特征选择与加权方法,在两个不同的语料集上进行比较和分析实验,结果显示基于类别信息的特征选择与加权方法比传统方法在处理类分布不均匀的文档集时能有效提高分类精度,并且降维程度有所提高。The aim of feature selection and weighting in automatic text categorization is to reduce the dimension of feature space,remove noise features and improve classification precision.The features selected by traditional feature selection methods always bias common category,and the commonly used weighting method TF＊IDF only considers the relationship between features and documents and ignores the relationship between features and categories.According to the above problem,this paper presents a text feature selection and weighting method based on category.Experiments on skewed category distribution corpus of two different languages show that the method can improve categorization precision effectively,and comparing with traditional method,the feature space dimension is also reduced to a certain degree.

关键词：文本分类特征选择特征加权基尼指数

分类号：TP391[自动化与计算机技术—计算机应用技术] TP18[自动化与计算机技术—计算机科学与技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于类信息的文本特征选择与加权算法研究被引量：8

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于类信息的文本特征选择与加权算法研究 被引量：8

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于类信息的文本特征选择与加权算法研究被引量：8