检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘云[1] 黄荣乘 LIU Yun;HUANG Rong-Cheng(School of Information Engineering and Automation,Kunming University of Science and Technology, Kunming 650500,China)
机构地区:[1]昆明理工大学信息工程与自动化学院,昆明650500
出 处:《四川大学学报(自然科学版)》2019年第1期65-70,共6页Journal of Sichuan University(Natural Science Edition)
基 金:国家自然科学基金(61262040)
摘 要:采用朴素贝叶斯分类器进行文本分类时,特征选择方法的好坏直接影响到分类器的性能.本文提出一种最大判别(MD)特征选择算法,由训练得到N个类的概率分布后,通过对样本进行测试并得到其特征向量d中每个特征词区分类别的能力,并构造出了一个新的特征向量ε用于分类,使得从中选取的部分特征词具有最大的类别区分能力.仿真结果表明,与cMFD,CSFS和CMFS三种特征选择算法相比,MD特征选择算法能在选取较少特征词情况下,获得更高的分类精度.When using Naive Bayes classifier to classify texts,the feature selection method has a direct impact on the performance of the classifier.In this paper,a maximum discrimination(MD)feature selection algorithm is proposed.After N types of probability distributions are obtained through training,the ability to distinguish the categories of each feature in its feature vector d is acquiredby testing the sample,and a new feature vectorεis constructed for classification,the selected features from the feature selection have the maximum discrimination capacity for text categorization.Simulation results show that compared with cMFD,CSFS and CMFS feature selection algorithms,MD feature selection algorithm can obtain higher classification accuracy when fewer features are selected.
关 键 词:相对熵 杰弗里斯散度 多项式朴素贝叶斯分类器 特征选择
分 类 号:TN929.5[电子电信—通信与信息系统]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:52.15.197.192