检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王大志[1] 季焱晶 陈彦桦 王洪峰[1] 黄敏[1] Wang Dazhi;Ji Yanjing;Chen Yanhua;Wang Hongfeng;Huang Min(College of Information Science&Engineering,Northeastern University,Shenyang 110819,China)
机构地区:[1]东北大学信息科学与工程学院,沈阳110819
出 处:《计算机应用研究》2023年第3期725-730,共6页Application Research of Computers
基 金:国家重点研发计划资助项目(2020YFB1708202)。
摘 要:随着信息技术的快速发展,数据中的高维特征极大地增加了产生冗余特征的可能性,冗余特征不仅导致搜索空间增大,而且影响了分类的准确率。针对现有的特征选择算法难以解决高维特征选择问题,提出了基于样本重叠与近似马尔可夫毯的特征选择算法(samples overlapping based modified Markov blanket, SOMMB)。该算法首先融合最大信息系数与改进强近似马尔可夫毯去除冗余特征;其次采用样本重叠策略指导前向搜索的过程,选取相关特征。该算法在10个公开数据集上与目前流行的PGVNS、FCBF-MIC、CFS、mRMR、RF、CBFS、ReliefF以及FFSG算法进行对比实验,SOMMB算法的平均准确率为82.519%,对比FFSG获得的最高准确率提升了4.214%,表明SOMMB算法可以提高分类精度。With the rapid development of information technology, the high-dimensional features in data greatly increase the possibility of producing redundant features, these redundant features not only cause the expansion of search space, but also affect the classification accuracy. Aiming at the difficulty of existing feature selection algorithms for high-dimensional features, this paper proposed a samples overlapping based modified Markov blanket(SOMMB) algorithm. Firstly, this algorithm combined the maximum information coefficient and the modified strong approximate Markov blanket to remove redundant features. Secondly, it used samples overlapping to guide forward search and select relevant features. This paper compared SOMMB algorithm with PGVNS、FCBF-MIC、CFS、mRMR、RF、CBFS、ReliefF and FFSG algorithms on 10 public datasets. SOMMB can reach an average accuracy of 82.519%, 4.214% higher than the highest accuracy of FFSG. It shows superiority in feature selection regarding to classification accuracy.
关 键 词:特征选择 最大信息系数 改进强近似马尔可夫毯 样本重叠 前向搜索
分 类 号:TP393.04[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.188.250.166