检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]总参第63研究所,南京210007
出 处:《现代军事通信》2012年第3期54-58,共5页
基 金:中国博士后科学基金特别资助项目(201003797);中国博士后科学基金资助项目(20090461425);江苏省博士后科研资助计划项目(0901014B);解放军理工大学预研基金项目(20110604).
摘 要:从数据产品与传统的有形产品、软件产品相类比的视角,研究数据清洗及其系统框架。对数据清洗做了10点说明,进一步澄清了其基本内涵;将数据清洗与数据集成进行了比较分析,指出二者是同等的数据质量概念。提出了数据清洗的一般性系统框架,框架由准备、检测、定位、修正、验证五部分组成,可适应各种不同的数据清洗任务,是一个柔性的、可扩展的、交互性好的、松耦合的框架。Data cleaning and its system framework are researched from the perspective of comparing data product with physical product and software product. 10 items of explanation for data cleaning are given, and its basic meaning is roundly elucidated. We compared data cleaning and data integration, and point out that they are two coequal concepts of data quality. A general system framework of data cleaning is con- structed, which consists of five phases, that is, preparation, detection, location, modification and validation. It could apply to different data cleaning tasks, and features good flexibility, extensibility, interactivity and loose coupling.
关 键 词:数据质量 数据清洗 相似重复记录 不完整记录 框架
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.171