检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王琛[1]
机构地区:[1]江苏建筑职业技术学院信息传媒与艺术学院,江苏徐州221116
出 处:《计算机时代》2014年第12期42-44,共3页Computer Era
基 金:江苏建筑职业技术学院科研项目"Web数据集成中数据清洗关键问题研究"(JYA13-05)
摘 要:数据清洗是提高数据质量的有效手段。分析了从Web上抽取的数据存在的质量问题或错误,针对错误类型,给出属性错误(包括不完整数据和异常数据)和重复与相似重复记录的描述,并提出相应的清洗方法;设计了一个数据清洗系统框架,该框架由数据预处理、数据清洗引擎和质量评估三大部分组成,可以针对不同的错误类型,完成不同的清洗任务。实验表明,该框架具有通用性和可扩展性。Data cleaning is an effective means to improve the quality of data. The quality problems and the errors appearing when extracting data from Web are analyzed. According to the error type, the attribute (including incomplete data and abnormal data) and records on repeat, similar repeat are described. The corresponding cleaning method is given. A framework of data cleaning is constructed, including data preprocessing, data cleaning engines and quality assessment. When being faced with different types of errors, it can complete the task of cleaning differently. The experiment results show that the framework has great generality and extensibility.
关 键 词:数据质量 数据清洗 属性错误 重复记录 质量评估
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.3