非一致分类数据集的一致化与特征选择与算法  

Unifying and feature selection of inconsistent classification data set

在线阅读下载全文

作  者:吴新玲[1,2] 何东风[1,2] 周国强[3,2] 

机构地区:[1]广东技术师范学院计算机科学学院,广东广州510262 [2]武汉大学软件工程国家重点实验室,湖北武汉430072 [3]广东技术师范学院教育技术与传播学院,广东广州510262

出  处:《计算机工程与设计》2009年第9期2208-2210,共3页Computer Engineering and Design

基  金:武汉大学软件工程国家重点实验室开放基金项目(SKLSE05-09)

摘  要:采用不一致性或含有冗余特征的样本数据集往往会降低分类的质量和效率。提出了一种将分类数据集一致化,并在此基础上选择最小特征变量集的方法。该方法首先根据贝叶斯公式,将非一致数据归为最可能的一类,使数据集一致化,然后在一致数据集上,定义类别区分矩阵,选择最小特征变量集,并给出了在类别区分矩阵上搜索最小特征变量集的启发式搜索策略。采用UCI标准数据集的实验结果表明,提出的方法可有效地删除数据集的不一致性,选择的最小特征变量集可准确区分各类数据并降低数据的维数。The quality and efficiency of classification often be descreased utilizing a sample dataset that contain inconsistency and the redundancy.The method that can make the classification data set consistency and selecting a least feature variable set is proposed.According to the Bayesian formula,this method group together the inconsistent datum of the best possible category and make the data set uniform.Then a category distinguish matrix is defined and the least feature variable subset is obtained upon the consistent data set.A heuristic search strategy that can get the least feature variable subsets through the category distinguish matrix are given.The experimental results using the UCI standard datasets shows the proposed method eliminate the inconsistency of the sample dataset effectively,and the least feature variables distinguish the classification accurately and drop the dimension of the data.

关 键 词:数据挖掘 分类 特征选择 数据约简 数据一致化 贝叶斯公式 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象