一种基于属性权值分组聚类的相似重复记录检测方法  

Approach for Approximately Duplicate Records Detecting Based on a Grouping and Clustering of Attribute Weights

在线阅读下载全文

作  者:王琛[1] 

机构地区:[1]江苏建筑职业技术学院信息传媒与艺术学院,江苏徐州221116

出  处:《宁波职业技术学院学报》2015年第2期72-75,共4页Journal of Ningbo Polytechnic

摘  要:为了提高数据集中相似重复记录的检测效率,提出一种基于属性权值的分组聚类算法。该方法在记录集中选取特征属性,通过设定的权值对记录进行聚类,在形成的数据子集中进行字段匹配和记录匹配,来识别相似重复记录,并给出了相关算法。实验表明,该方法能减少字段的匹配次数和记录的匹配范围,节省运行时间,具有较高的查全率和查准率。In order to improve the efficiency of detection of approximately duplicated records in the Data collection, a clustering algorithm based on the attribute weights grouping is presented. This method selects attributes in a recordset,clusters records through the set of weights and then completes field matching and records matching in the generated data subsets. The correlation algorithms are gived. Experimental results show this method can reduce the number of field matching, reduce the range of record matching, save the running time and achieve high recall and precision.

关 键 词:相似重复记录 聚类 特征属性 字段匹配 记录匹配 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象