检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘光远[1] 董立岩[2] 苑森淼[2] 李永丽[3] 刘辉[2]
机构地区:[1]吉林大学通信工程学院,长春130025 [2]吉林大学计算机科学与技术学院,长春130012 [3]东北师范大学计算机学院,长春130024
出 处:《吉林大学学报(信息科学版)》2007年第1期50-56,共7页Journal of Jilin University(Information Science Edition)
基 金:国家自然科学基金资助项目(60275026)
摘 要:针对高维数据的数据分析或数据挖掘算法的时间复杂度随着维数增长,时间开销呈指数上升的问题,采用恰当的特征选择方法可以降低数据的维数,并且可以保持原有的数据分辨能力。使用卡方统计量为属性相关性的量化结果,根据卡方表查出独立性置信水平α。对于某属性子集,根据α给出两个有序序列,一个序列是所有属性与分类属性的α有序序列,另一个序列是所有属性与参照属性的α有序序列。利用各个属性在两个序列中位差(位置差异)选择属性。最后给出算法的理论分析,并且给出实验结果和分析。To avoid exponentially increased time expenses in data analysis and data mining for high degree-offreedom of dimension of data and keep the same accuracy for the data analysis. Feature selection can decrease the dimensions of data. Chi2 statistic is used as quantity result of correlation in this paper. Based on the Chi2 statistic table, obtain the independent Confidence Level a. Two lists are provided based on a for a specific feature subset. One a list is a descendent list of correlation between class and all features. The other a list is a descendent list of correlation between reference feature and all features. Based on the different positions in two lists for each feature to accomplish the feature selection. At last paper provides the theoretical analysis and experiment results and analysis based on a sample data. The algorithm keeps the same accuracy of data analysis with less degree-of-freedom of dimensions of data.
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.30