检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:朱文峰 于舒娟 何伟 ZHU Wenfeng;YU Shujuan;HE Wei(College of Electronic and Optical Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210000,China)
机构地区:[1]南京邮电大学电子与光学工程学院
出 处:《计算机工程》2019年第9期183-187,193,共6页Computer Engineering
基 金:国家自然科学基金(61302155,61276429)
摘 要:为提高特征提取方法的文本分类精确度,结合信息增益(IG)和改进的最大相关最小冗余(mRMR),提出一种IG_CDmRMR二阶段文本特征选择方法。通过IG提取与类别相关性较强的特征集合,利用类差分度动态改变mRMR中特征与类别之间的互信息值权重,并筛选最优特征子集,从而得到文本分类结果。实验结果表明,与IG方法、IG_mRMR方法相比,在特征数量相同的情况下,该方法可使准确率提升约2 %。In order to improve the text classification accuracy of feature extraction method,combining with Information Gain (IG) and improved minimal Redundancy Maximal Relevance(mRMR),an IG_CDmRMR two-stage text feature selection method is proposed.The IG is used to extract the feature set with strong correlation with the category.The class difference degree is used to dynamically change the weight of the mutual information value between the feature and the category in the mRMR,and the optimal feature subset is filtered to obtain the text categorization result.Experimental results show that compared with the IG method and the IG_mRMR method,the accuracy of the proposed method is improved by about 2 % with the same number of features.
关 键 词:信息增益 最大相关最小冗余 类差分度 特征选择 文本分类
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.217.203.108