检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《计算机工程》2014年第7期179-182,共4页Computer Engineering
基 金:国家自然科学基金资助项目(71071161;61273209);江苏省自然科学基金资助项目(BK2012511)
摘 要:互信息(MI)是一种常用的文本特征选择方法,经典MI方法未考虑同一个特征项在不同类别内频数的差异性,也未考虑同一个特征在同一类别内的不同文本之间分布上的差异性。针对上述不足,以特征项的频数为依据,分别从特征项的类内分布、类间分布上的差异以及类内不同文本之间分布上的差异等角度,通过引入特征项的类内频数因子、类内位置分布因子以及类间分布因子,提出一种改进的MI文本特征选择方法,使得特征项的频数信息在MI模型中得到有效利用,合理改善互信息模型在文本特征选择方面的不足。文本分类实验结果表明,改进MI文本特征选择方法的平均准确率、召回率分别提高约5.2%及4.6%,平均综合评价指标值提高约4.9%,有效提高了模型的文本分类效率。Mutual Information(MI) is a kind of text feature selection method commonly used. The classical mutual information method does not consider the same characteristic frequency in different categories of difference. And more, MI does not take into account the difference that the same feature in the same sort between different texts. Aiming at the shortcomings of MI model, the frequency feature as the basis, from the perspective of internal distribution calegory feature and from the point of the distribution among different types of feature, the model is optimized. Through the frequency factor and the factor distribution within class and the factor distribution between classes are introduced, the feature frequency information is used in the MI. This paper improves the MI efficiency in the text feature selection. Text classification experimental results show that the average accuracy rate, recall rate of the improved MI model are improved by about 5.2% and 4.6%. And more, the average F1 value increases by about 4.9%.
关 键 词:文本分类 特征选择 互信息 特征频率 特征降维 类内分布
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.195