检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王继奎[1,2,3] 李少波[1,2]
机构地区:[1]中国科学院成都计算机应用研究所,四川成都610041 [2]贵州I大学现代制造技术教育部重点实验室,贵州贵阳550003 [3]兰州商学院信息工程学院,甘肃兰州730020
出 处:《计算机工程与设计》2014年第1期177-182,共6页Computer Engineering and Design
基 金:国家科技支撑计划课题基金项目(2012BAF12B14)
摘 要:为了解决多数据源冲突的主数据真值发现问题,基于对冲突数据值之间的支持度往往是非对称的直观认识,提出了一种非对称的数据值支持度计算算法;该算法改进了目前真值发现算法中以数据值之间的相似度代替支持度的对称算法。在考虑了数据值的可信度取决于数据源权威度和数据值支持度的基础上,提出了TRFinder迭代算法,并在TRFinder算法的基础上给出了主数据生成算法。通过对典型的books_authors数据集和模拟数据进行实验,实验结果表明,TRFinder算法比Vote算法与TruthFinder算法具有更高的准确率并保留了更多的真值信息,验证了算法的有效性。In order to find the true values of master data with conflicting multiple data resources, an asymmetric algorithm calcu lating data value supporting degree is proposed based on the experience that the supporting degree of conflicting data values are usually asymmetric. In conventional true value finding algorithms, supporting degrees are usually defined as similarity degrees between values. Considering the credibility of data values are often decided by authority of data resources and its supporting de gree, a TRFinder iterative algorithm is put up, as well as a master data generating algorithm. After an experiment using the books-authors data set and other simulate data, we find that the TRFinder algorithm we proposed is capable of finding more true values than the Vote algorithm and the traditional TrustFinder algorithm, and it can preserve more information in the mean time.
关 键 词:多数据源 真值发现 主数据集成 数据值支持度 数据冲突
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.62