一种基于属性权值分组聚类的相似重复记录检测方法

Approach for Approximately Duplicate Records Detecting Based on a Grouping and Clustering of Attribute Weights

作　　者：王琛[1]

机构地区：[1]江苏建筑职业技术学院信息传媒与艺术学院,江苏徐州221116

出　　处：《宁波职业技术学院学报》2015年第2期72-75,共4页Journal of Ningbo Polytechnic

摘　　要：为了提高数据集中相似重复记录的检测效率,提出一种基于属性权值的分组聚类算法。该方法在记录集中选取特征属性,通过设定的权值对记录进行聚类,在形成的数据子集中进行字段匹配和记录匹配,来识别相似重复记录,并给出了相关算法。实验表明,该方法能减少字段的匹配次数和记录的匹配范围,节省运行时间,具有较高的查全率和查准率。In order to improve the efficiency of detection of approximately duplicated records in the Data collection, a clustering algorithm based on the attribute weights grouping is presented. This method selects attributes in a recordset,clusters records through the set of weights and then completes field matching and records matching in the generated data subsets. The correlation algorithms are gived. Experimental results show this method can reduce the number of field matching, reduce the range of record matching, save the running time and achieve high recall and precision.

关键词：相似重复记录聚类特征属性字段匹配记录匹配

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于属性权值分组聚类的相似重复记录检测方法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于属性权值分组聚类的相似重复记录检测方法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索