检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]太原师范学院计算机系,山西太原030012 [2]山西大学数学科学学院,山西太原030006
出 处:《计算机工程与设计》2007年第17期4249-4251,4265,共4页Computer Engineering and Design
基 金:山西省青年科技基金项目(20031027)
摘 要:随着计算机技术和WWW的飞速发展,文本分类已经成为信息检索的关键技术之一,而特征选择对分类效果起着至关重要的作用。对文本分类的4种常用特征选择方法进行了介绍和分析,提出了一种基于类内频率的特征选择方法。选用kNN法和支持向量机作为分类器,利用以上5种文本特征选择方法在平衡语料和非平衡语料上进行了测试。实验结果表明,该方法能够有效选出真正对分类有意义的特征,分类效果较好,尤其适合支持向量机分类器。With the development at full speed of the technology of the computer and WWW, text categorization had become one of the key technologies of information retrieval, and feature selection played a very important role to categorization result. Four common feature selection methods in text categorization are introduced and analyzed. And a feature selection method based on frequency in kind is proposed. Then combined with the kNN and the support vector machine, the test of five methods is carried out on the balance language material and non-balance language material. The experiment result indicates that the method can select meaningful features and has a better classification result, especially is suitable for SVM.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222