基于数据源依赖性的Deep Web数据融合方法  被引量:2

Algorithm for Deep Web Data Fusion Based on Source Dependence

在线阅读下载全文

作  者:陆姗姗[1] 时玉杰[1] 赵朋朋[1] 崔志明[1] 

机构地区:[1]苏州大学智能信息处理及应用研究所,江苏苏州215006

出  处:《小型微型计算机系统》2014年第2期210-216,共7页Journal of Chinese Computer Systems

基  金:国家自然科学基金项目(60970015;61003054;61170020)资助;江苏省高校自然科学研究项目(10KJB520018)资助;苏州市科技支撑计划项目(SG201257)资助

摘  要:在Deep Web数据挖掘中,不同数据源之间往往会出现数据冲突,如何解决冲突从而获得正确值(这一过程称为数据融合)是数据集成中的一个关键问题.提出一种考虑数据源之间依赖关系的数据融合方法.该方法利用贝叶斯分析确定数据源之间的依赖性,设计出检测依赖性和融合数据的迭代算法;并通过考虑数据源的准确度和属性值之间的相似性等条件扩展模型.使用该方法,对网上爬取的真实数据进行了实验,结果表明它能够显著提高数据融合的准确度,而且在大量数据源存在的情况下具有可扩展性.In Deep Web data mining, different sources can often provide conflicting data. It is important that data integration systems can resolve conflicts and obtain correct values, which is called data fusion. We propose an algorithm that considers dependence be- tween sources in data fusion. The algorithm uses Bayesian analysis to decide source dependence and iteratively detects dependence and fuses data. Moreover, we extend our model by considering accuracy of data sources and similarity between values. Our experiments on real data show that our algorithm can notably imorove accuracv of data fusion and is scalable when there is a large of data sources.

关 键 词:数据集成 数据融合 数据源依赖性 数据源准确度 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象