检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王妍[1,2] 王凤桐[1] 王俊陆[1] 宋宝燕[1] 石展[1]
机构地区:[1]辽宁大学信息学院,沈阳110036 [2]东北大学计算机科学与工程学院,沈阳110819
出 处:《小型微型计算机系统》2017年第9期2017-2021,共5页Journal of Chinese Computer Systems
基 金:国家自然科学基金项目(61472169;61472072)资助;国家科技支撑计划项目(2012BAF13B08)资助;国家"九七三"重点基础研究发展计划前期研究专项项目(2014CB360509)资助;辽宁省科学事业公益研究基金项目(2015003003)资助
摘 要:随着信息技术、云计算、互联网以及社交网络等技术的不断发展,数据规模呈爆炸态势增长.在海量数据带来丰富信息的同时,如何对海量信息进行高效的预处理成为研究的热点.其中,对于缺失数据的处理就是数据预处理技术中一项重要的挑战.传统的缺失数据的填补方法大部分都只考虑不完备集中数据完全缺失情况下的填补,然而,在海量数据集中,由于人为或者机械等原因会对数据造成一定程度的损坏,有些数据会完全缺失,而有些数据只是部分缺失,传统的填补方法未对不同程度上损坏的数据进行划分,全部按照完全缺失数据进行填补分析,忽略了部分缺失数据对数据填补结果的影响.因此,提出一种基于泛化中心聚类的填补方法(GCF),采用泛化中心聚类思想对数据进行分簇,并对随机损坏数据与聚类结果一起进行缺失数据的填补,以提高填补后数据集的正确率.实验表明,针对不同缺失度的数据集样本,提出的GCF策略在填补正确率方面都具有良好的表现.With the development of information technology,cloud technology,internet and social network,The scale of the data has grown explosively.Althouth mass data can provide wealthy information,and at the same time,how to preprocess the information efficiently has become a research focus.Among them,preprocessing the missing data is an important challenge in the pretreatment,Mosttraditional filling method for missing data only consider filling incomplete centralized data in the completely missing cases.However,due to artificial or mechanical and other reasons in mass data,this will cause a certain degree of damage to the data.Some data will be completely missing,and some missing is only partially,the traditional filling method didn't divide the data in different degrees of damage.They all analysis completely missing ,but ignore the influence of partially missing data.In this paper,a kind of method based on generalized center-clustering fill (GCF) has been proposed,thispaperadoptsthe idea of generalization center clustering to cluster the data,and fill the missing databetween the random damage data and clustering results in order to improve the accuracy of the dataset filled.Experimental results show that the proposed GCF strategy in the accuracy of filling missing datasets that has different degree have good performance.
关 键 词:海量数据 不完备数据集 泛化中心聚类 数据损坏度
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.145