检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘海峰[1] 王元元[1] 姚泽清[1] 陈琦[1]
机构地区:[1]解放军理工大学,南京210007
出 处:《情报学报》2009年第1期23-27,共5页Journal of the China Society for Scientific and Technical Information
基 金:国家自然科学基金资助项目(编号:70571087).
摘 要:特征选择和特征抽取是文本分类中特征降维的主要方法。目前各种特征选择方法主要致力于度量特征与文本类别的相关性,却很少考虑特征之间的冗余性问题,从而影响特征降维的效果。本文提出一种基于选择的两步特征选择方法,既考虑一些类别信息较强的特征的选取,又减少一些类别判定方面的冗余特征,在尽量减少信息损失的前提下达到有效缩减特征维数的目的。对中文文本的分类实验结果表明,本文提出的特征降维方法在文本分类的准确率方面效果较好。Feature selection and feature extraction are the primary method of reducing features in text classification. At present, the existed feature selection methods mainly focus on finding relevant features to the sorts but rarely take into account the feature redundancy, so it is the main reason of lower effect in reducing dimensionality. In this paper we bring forward a method based on feature selection twice. This method no/ only calculates the features that have more class information, but also reduce some redundancy. In precondition of the information loss least, we complete the text feature decrease smart. The test shows that this method has a better precision in the text categorization
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.21.122.130