最大判别特征选择算法在文本分类的优化研究  被引量:8

Bayesian classifier-based maximum discriminant feature selection algorithm for text classification

在线阅读下载全文

作  者:刘云[1] 黄荣乘 LIU Yun;HUANG Rong-Cheng(School of Information Engineering and Automation,Kunming University of Science and Technology, Kunming 650500,China)

机构地区:[1]昆明理工大学信息工程与自动化学院,昆明650500

出  处:《四川大学学报(自然科学版)》2019年第1期65-70,共6页Journal of Sichuan University(Natural Science Edition)

基  金:国家自然科学基金(61262040)

摘  要:采用朴素贝叶斯分类器进行文本分类时,特征选择方法的好坏直接影响到分类器的性能.本文提出一种最大判别(MD)特征选择算法,由训练得到N个类的概率分布后,通过对样本进行测试并得到其特征向量d中每个特征词区分类别的能力,并构造出了一个新的特征向量ε用于分类,使得从中选取的部分特征词具有最大的类别区分能力.仿真结果表明,与cMFD,CSFS和CMFS三种特征选择算法相比,MD特征选择算法能在选取较少特征词情况下,获得更高的分类精度.When using Naive Bayes classifier to classify texts,the feature selection method has a direct impact on the performance of the classifier.In this paper,a maximum discrimination(MD)feature selection algorithm is proposed.After N types of probability distributions are obtained through training,the ability to distinguish the categories of each feature in its feature vector d is acquiredby testing the sample,and a new feature vectorεis constructed for classification,the selected features from the feature selection have the maximum discrimination capacity for text categorization.Simulation results show that compared with cMFD,CSFS and CMFS feature selection algorithms,MD feature selection algorithm can obtain higher classification accuracy when fewer features are selected.

关 键 词:相对熵 杰弗里斯散度 多项式朴素贝叶斯分类器 特征选择 

分 类 号:TN929.5[电子电信—通信与信息系统]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象