基于位差的属性选择算法  

Feature Selection Algorithm based on Potential Difference

在线阅读下载全文

作  者:刘光远[1] 董立岩[2] 苑森淼[2] 李永丽[3] 刘辉[2] 

机构地区:[1]吉林大学通信工程学院,长春130025 [2]吉林大学计算机科学与技术学院,长春130012 [3]东北师范大学计算机学院,长春130024

出  处:《吉林大学学报(信息科学版)》2007年第1期50-56,共7页Journal of Jilin University(Information Science Edition)

基  金:国家自然科学基金资助项目(60275026)

摘  要:针对高维数据的数据分析或数据挖掘算法的时间复杂度随着维数增长,时间开销呈指数上升的问题,采用恰当的特征选择方法可以降低数据的维数,并且可以保持原有的数据分辨能力。使用卡方统计量为属性相关性的量化结果,根据卡方表查出独立性置信水平α。对于某属性子集,根据α给出两个有序序列,一个序列是所有属性与分类属性的α有序序列,另一个序列是所有属性与参照属性的α有序序列。利用各个属性在两个序列中位差(位置差异)选择属性。最后给出算法的理论分析,并且给出实验结果和分析。To avoid exponentially increased time expenses in data analysis and data mining for high degree-offreedom of dimension of data and keep the same accuracy for the data analysis. Feature selection can decrease the dimensions of data. Chi2 statistic is used as quantity result of correlation in this paper. Based on the Chi2 statistic table, obtain the independent Confidence Level a. Two lists are provided based on a for a specific feature subset. One a list is a descendent list of correlation between class and all features. The other a list is a descendent list of correlation between reference feature and all features. Based on the different positions in two lists for each feature to accomplish the feature selection. At last paper provides the theoretical analysis and experiment results and analysis based on a sample data. The algorithm keeps the same accuracy of data analysis with less degree-of-freedom of dimensions of data.

关 键 词:数据挖掘 属性选择 卡方算法 相关性概率 位差 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象