一种新的中文文本分类特征提取的研究  被引量:2

A New Research on Feature Extraction from Chinese Text Clasification

在线阅读下载全文

作  者:郭飞[1] 张永锋[2] 

机构地区:[1]中国民用航空飞行学院计算机学院,四川广汉618307 [2]成都工业学院信息与计算科学系,四川成都610041

出  处:《数学的实践与认识》2016年第12期125-129,共5页Mathematics in Practice and Theory

基  金:国家自然科研基金联合基金项目(U1233105)

摘  要:特征提取是中文文本分类中的关键,传统的互信息算法没有考虑特征存在负值时,互信息量对分类的影响,因此削弱了这些特征在分类中的作用.首先提出一种改进的互信息算法,对特征和类的互信息量取绝对值的方法来克服这个缺点.然后实现了基于传统互信息KNN算法和改进互信息FV-KNN算法的两种中文文本自动分类系统.最后实验结果表明改进互信息FV-KNN算法在分类准确率、分类招回率和分类速度上都有较大的提高.Feature extraction is the key to Chinese text classification, because, on the condi- tion of negative feature, traditional mutual information algorithm does not cover the influence of mutual information for classification, whi-ch weakens the role of feature on classification. This paper first presents an improved mutual information algorith-m, which firstly overcomes the defect by getting absolute value from the mutual information of feature and class, and then realizes two kinds of Chinese text classification systems based on traditional mutual in- formation KNN al-gorithm and improved mutual information FV-KNN algorithm. The final experimental results show that the impr-oved mutual information FV-KNN algorithm has largely increased the classification accuracy rate, classification r-ecall rate and classification speed.

关 键 词:特征提取 互信息 改进互信息 KNN FV-KNN 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象