聚类反馈学习的数据清洗研究  被引量:6

Research of data cleaning based on clustering feedback

在线阅读下载全文

作  者:石彦华[1] 李蜀瑜[1] 

机构地区:[1]陕西师范大学计算机科学学院,西安710062

出  处:《计算机工程与应用》2011年第30期127-131,共5页Computer Engineering and Applications

基  金:国家自然科学基金No.60671063;中央高校基本科研业务费专项资金(No.GK201002011);教育部科学研究重点项目(No.107106)~~

摘  要:重复记录的清除是数据清洗领域的核心问题,但如何实施有效的清除一直是研究的难点。提出了一种通过建立聚类反馈模式规约来验证重复记录的有效性方法。依据经过聚类后各个类别间的关联性关系分析,首先提出了聚类模式和反馈模式的概念和实现方法;然后给出了数据清洗中聚类反馈模式规约;最后应用项目案例验证了它的有效性。Cleaning Approximately Duplicate Records(CADR) is a core and important issue in data cleaning domain,but how to implement valid and practical CADR is still a research difficulty.Based on those,this paper proposes a Clustering Feedback Pattern Specification(CFPS) to verify the validity of CADR.The concept of cluster pattern and feedback pattern and its algorithms are given based on the analysis of function-to-function relation of the subclass category clustered.And then CFPS is proposed in data cleaning domain.An example resulted in the process of credit data exchange system is given to test the validity of CFPS by using clustering feedback pattern specification.

关 键 词:数据清洗 重复记录 模式规约 聚类学习 反馈学习 

分 类 号:TP393.01[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象