检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]陕西师范大学计算机科学学院,西安710062
出 处:《计算机工程与应用》2011年第30期127-131,共5页Computer Engineering and Applications
基 金:国家自然科学基金No.60671063;中央高校基本科研业务费专项资金(No.GK201002011);教育部科学研究重点项目(No.107106)~~
摘 要:重复记录的清除是数据清洗领域的核心问题,但如何实施有效的清除一直是研究的难点。提出了一种通过建立聚类反馈模式规约来验证重复记录的有效性方法。依据经过聚类后各个类别间的关联性关系分析,首先提出了聚类模式和反馈模式的概念和实现方法;然后给出了数据清洗中聚类反馈模式规约;最后应用项目案例验证了它的有效性。Cleaning Approximately Duplicate Records(CADR) is a core and important issue in data cleaning domain,but how to implement valid and practical CADR is still a research difficulty.Based on those,this paper proposes a Clustering Feedback Pattern Specification(CFPS) to verify the validity of CADR.The concept of cluster pattern and feedback pattern and its algorithms are given based on the analysis of function-to-function relation of the subclass category clustered.And then CFPS is proposed in data cleaning domain.An example resulted in the process of credit data exchange system is given to test the validity of CFPS by using clustering feedback pattern specification.
关 键 词:数据清洗 重复记录 模式规约 聚类学习 反馈学习
分 类 号:TP393.01[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222