检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:吴新玲[1,2] 何东风[1,2] 周国强[3,2]
机构地区:[1]广东技术师范学院计算机科学学院,广东广州510262 [2]武汉大学软件工程国家重点实验室,湖北武汉430072 [3]广东技术师范学院教育技术与传播学院,广东广州510262
出 处:《计算机工程与设计》2009年第9期2208-2210,共3页Computer Engineering and Design
基 金:武汉大学软件工程国家重点实验室开放基金项目(SKLSE05-09)
摘 要:采用不一致性或含有冗余特征的样本数据集往往会降低分类的质量和效率。提出了一种将分类数据集一致化,并在此基础上选择最小特征变量集的方法。该方法首先根据贝叶斯公式,将非一致数据归为最可能的一类,使数据集一致化,然后在一致数据集上,定义类别区分矩阵,选择最小特征变量集,并给出了在类别区分矩阵上搜索最小特征变量集的启发式搜索策略。采用UCI标准数据集的实验结果表明,提出的方法可有效地删除数据集的不一致性,选择的最小特征变量集可准确区分各类数据并降低数据的维数。The quality and efficiency of classification often be descreased utilizing a sample dataset that contain inconsistency and the redundancy.The method that can make the classification data set consistency and selecting a least feature variable set is proposed.According to the Bayesian formula,this method group together the inconsistent datum of the best possible category and make the data set uniform.Then a category distinguish matrix is defined and the least feature variable subset is obtained upon the consistent data set.A heuristic search strategy that can get the least feature variable subsets through the category distinguish matrix are given.The experimental results using the UCI standard datasets shows the proposed method eliminate the inconsistency of the sample dataset effectively,and the least feature variables distinguish the classification accurately and drop the dimension of the data.
关 键 词:数据挖掘 分类 特征选择 数据约简 数据一致化 贝叶斯公式
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.118.32.150