多数据源冲突的主数据真值发现算法  被引量:8

Master data discovery algorithm of multiple source conflict

在线阅读下载全文

作  者:王继奎[1,2,3] 李少波[1,2] 

机构地区:[1]中国科学院成都计算机应用研究所,四川成都610041 [2]贵州I大学现代制造技术教育部重点实验室,贵州贵阳550003 [3]兰州商学院信息工程学院,甘肃兰州730020

出  处:《计算机工程与设计》2014年第1期177-182,共6页Computer Engineering and Design

基  金:国家科技支撑计划课题基金项目(2012BAF12B14)

摘  要:为了解决多数据源冲突的主数据真值发现问题,基于对冲突数据值之间的支持度往往是非对称的直观认识,提出了一种非对称的数据值支持度计算算法;该算法改进了目前真值发现算法中以数据值之间的相似度代替支持度的对称算法。在考虑了数据值的可信度取决于数据源权威度和数据值支持度的基础上,提出了TRFinder迭代算法,并在TRFinder算法的基础上给出了主数据生成算法。通过对典型的books_authors数据集和模拟数据进行实验,实验结果表明,TRFinder算法比Vote算法与TruthFinder算法具有更高的准确率并保留了更多的真值信息,验证了算法的有效性。In order to find the true values of master data with conflicting multiple data resources, an asymmetric algorithm calcu lating data value supporting degree is proposed based on the experience that the supporting degree of conflicting data values are usually asymmetric. In conventional true value finding algorithms, supporting degrees are usually defined as similarity degrees between values. Considering the credibility of data values are often decided by authority of data resources and its supporting de gree, a TRFinder iterative algorithm is put up, as well as a master data generating algorithm. After an experiment using the books-authors data set and other simulate data, we find that the TRFinder algorithm we proposed is capable of finding more true values than the Vote algorithm and the traditional TrustFinder algorithm, and it can preserve more information in the mean time.

关 键 词:多数据源 真值发现 主数据集成 数据值支持度 数据冲突 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象