检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:郭文龙[1]
机构地区:[1]福建江夏学院电子信息科学学院,福建福州350108
出 处:《宜春学院学报》2014年第3期37-39,共3页Journal of Yichun University
基 金:福建省教育厅A类科技项目(No.JA12335);福建江夏学院青年科研人才培育基金项目(No.JXZ20130010)
摘 要:异构数据库集成中产生了相似重复记录,如何消除这些记录进而提高数据质量是集成时必须解决的问题之一。提出在源数据库中进行第一次清洗,然后将所需数据抽取到临时数据库中,在临时数据库中进行格式等转换,再把数据导入数据仓库,最后在数据仓库中进行二次清洗。该清洗方案既可以提高源数据库数据质量,还可以减少数据仓库中的相似重复记录数量并提高二次清洗的效率。Heterogeneous database integration produces approximately duplicate records. How to eliminate these records so as to improve the data quality is one of the problems which must be solved. The article proposes a cleaning approach, by which the approximately duplicate records are firstly cleaned in the source database, the required data are extracted into the temporary database to convert the format, and lastly, the data are put into the data warehouse and cleaned again in data warehouse. The cleaning solution can not only improve the quality of source data, but also reduce the number of duplicate records and improve the efficiency of the second cleaning.
关 键 词:异构数据库 数据集成 数据仓库 相似重复记录 清洗
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222