检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张振浩[1] 周奇年[1] 杨继慧[2] 徐登彩[1]
机构地区:[1]浙江理工大学信息学院,浙江杭州310018 [2]浙江理工大学图书馆,浙江杭州310018
出 处:《工业控制计算机》2012年第11期89-90,92,共3页Industrial Control Computer
摘 要:特征选择是中文文本分类过程中的一个关键环节,文本特征项选择的优劣将直接影响文本分类的准确率。针对传统的特征选择算法没有考虑到特征项的类别区分度在特征选择中的作用而丧失了一些优秀的特征项的问题,文中通过引入特征项的类别区分度对传统的特征选择算法进行改进。实验结果表明,改进方法的分类效果要好于传统方法,从而验证了改进方法的有效性和可行性。Feature selection is a key part of the Chinese text classification,which directly affect the accuracy of text categorization. Due to the problem that traditional feature selection algorithms might ignore some important features because they did not consider the class discriminating degree of the features,the paper proposes the improved feature selection algorithms by taking the class discriminating degree of the features into account during the process of the feature selection.
关 键 词:中文文本自动分类 特征选择 类别区分度 互信息 期望交叉熵
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.33