检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《计算机应用》2009年第7期1755-1757,共3页journal of Computer Applications
基 金:中国博士后科学基金资助项目(20070420711);重庆市科委自然科学基金计划资助项目(2007BB2372)
摘 要:对高维的特征集进行降维是文本分类过程中的一个重要环节。在研究了现有的特征降维技术的基础上,对部分常用的特征提取方法做了简要的分析,之后结合类间集中度、类内分散度和类内平均频度,提出了一个新的特征提取方法,即CDF方法。实验采用K-最近邻分类算法(KNN)来考查CDF方法的有效性。结果表明该方法简单有效,能够取得比传统特征提取方法更优的降维效果。Reducing the high dimension of feature vectors is an essential part of text categorization. After studying current dimension reduction technique and analyzing some normal methods of feature selection, a new approach, named CDF, for feature selection was proposed by comprehensively taking account of concentration among classes, distribution in class and average frequency in class. Experiment takes K-Nearest Neighbor (KNN) as the evaluation classifier. Experimental results prove that CDF approach is simple and effective, and has better performance than conventional feature selection methods in dimension reduction.
关 键 词:文本分类 降维 特征提取 K-最近邻分类算法 评价函数
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.188.132.192