异构数据库集成中相似重复记录清洗方法  被引量:2

Cleaning Approach to Approximately Duplicate Records in Heterogeneous Database Integration

在线阅读下载全文

作  者:郭文龙[1] 

机构地区:[1]福建江夏学院电子信息科学学院,福建福州350108

出  处:《宜春学院学报》2014年第3期37-39,共3页Journal of Yichun University

基  金:福建省教育厅A类科技项目(No.JA12335);福建江夏学院青年科研人才培育基金项目(No.JXZ20130010)

摘  要:异构数据库集成中产生了相似重复记录,如何消除这些记录进而提高数据质量是集成时必须解决的问题之一。提出在源数据库中进行第一次清洗,然后将所需数据抽取到临时数据库中,在临时数据库中进行格式等转换,再把数据导入数据仓库,最后在数据仓库中进行二次清洗。该清洗方案既可以提高源数据库数据质量,还可以减少数据仓库中的相似重复记录数量并提高二次清洗的效率。Heterogeneous database integration produces approximately duplicate records. How to eliminate these records so as to improve the data quality is one of the problems which must be solved. The article proposes a cleaning approach, by which the approximately duplicate records are firstly cleaned in the source database, the required data are extracted into the temporary database to convert the format, and lastly, the data are put into the data warehouse and cleaned again in data warehouse. The cleaning solution can not only improve the quality of source data, but also reduce the number of duplicate records and improve the efficiency of the second cleaning.

关 键 词:异构数据库 数据集成 数据仓库 相似重复记录 清洗 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象