检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国民用航空飞行学院计算机学院,四川广汉618307 [2]成都工业学院信息与计算科学系,四川成都610041
出 处:《数学的实践与认识》2016年第12期125-129,共5页Mathematics in Practice and Theory
基 金:国家自然科研基金联合基金项目(U1233105)
摘 要:特征提取是中文文本分类中的关键,传统的互信息算法没有考虑特征存在负值时,互信息量对分类的影响,因此削弱了这些特征在分类中的作用.首先提出一种改进的互信息算法,对特征和类的互信息量取绝对值的方法来克服这个缺点.然后实现了基于传统互信息KNN算法和改进互信息FV-KNN算法的两种中文文本自动分类系统.最后实验结果表明改进互信息FV-KNN算法在分类准确率、分类招回率和分类速度上都有较大的提高.Feature extraction is the key to Chinese text classification, because, on the condi- tion of negative feature, traditional mutual information algorithm does not cover the influence of mutual information for classification, whi-ch weakens the role of feature on classification. This paper first presents an improved mutual information algorith-m, which firstly overcomes the defect by getting absolute value from the mutual information of feature and class, and then realizes two kinds of Chinese text classification systems based on traditional mutual in- formation KNN al-gorithm and improved mutual information FV-KNN algorithm. The final experimental results show that the impr-oved mutual information FV-KNN algorithm has largely increased the classification accuracy rate, classification r-ecall rate and classification speed.
关 键 词:特征提取 互信息 改进互信息 KNN FV-KNN
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.191.149.30