检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]湖南大学计算机与通信学院,湖南长沙410082
出 处:《湖南大学学报(自然科学版)》2005年第1期104-107,共4页Journal of Hunan University:Natural Sciences
基 金:湖南省自然科学基金资助项目(01JJY1007)
摘 要:讨论了基于互信息的特征选取算法在文本分类中的性能问题,分析了利用这种特征选取算法存在分类精度不高的原因,认为互信息为负值的特征在分类中具有很重要的作用.在此基础上提出了一种基于互信息特征选取的改进算法,该算法加强了互信息为负值的特征在分类中的作用.实验结果表明,改进后的算法可以有效地提高文本分类精度.This paper discussed the performance of the feature selection method based on mutual information (MI) in text classification and analyzed the contribution of some features to text classification. When mutual information is negative, the importance of features is weakened. As a result, some useful features are omitted and the performance of classification is seriously affected. So a new method based on improved mutual information(IMI) was presented, which strengthened the mutual information through reversing those features whose mutual information was negative. Experimental results showed that our algorithm outperformed the traditional methods in classification precision.
分 类 号:TP391.4[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.30