检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京师范大学教育科学学院机器学习与认知实验室,南京210097
出 处:《计算机工程与应用》2009年第36期129-130,240,共3页Computer Engineering and Applications
基 金:全国教育科学"十五"规划教育部重点基金项目(NoDCA050056);江苏省教育科学"十一五"规划项目(NoD/2006/01/096)
摘 要:文本分类中特征空间的高维问题是文本分类的主要障碍之一。特征选择(Feature Selection)是一种有效的特征降维方法。现有的特征选择函数主要有文档频率(DF),信息增益(IG),互信息(MI)等。基于特征的基本约束条件以及高性能特征选择方法的设计步骤,提出了一种改进的特征选择方法SIG。该特征选择方法在保证分类效果的同时,提高了对中低频特征的偏向。在语料集Reuters-21578上的实验证明,该方法能够获得较好的分类效果,同时有效提高了对具有强分类能力的中低频特征的利用。High dimensionality is one of the main problems in text categorization.Feature selection methods can be regarded as an effective way.Main feature selection methods are document frequency,information gain,mutual information,and so on.This paper improves a new feature selection method SIG based on TTC and a universal method for developing feature selection functions. This method emphasizes the terms with middle and low frequencies and gets a good classification performance.Experiments on Reuters-21578 collection imply that this method is effective and can make better use of the terms with middle and low frequencies.
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249