检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:陆姗姗[1] 时玉杰[1] 赵朋朋[1] 崔志明[1]
机构地区:[1]苏州大学智能信息处理及应用研究所,江苏苏州215006
出 处:《小型微型计算机系统》2014年第2期210-216,共7页Journal of Chinese Computer Systems
基 金:国家自然科学基金项目(60970015;61003054;61170020)资助;江苏省高校自然科学研究项目(10KJB520018)资助;苏州市科技支撑计划项目(SG201257)资助
摘 要:在Deep Web数据挖掘中,不同数据源之间往往会出现数据冲突,如何解决冲突从而获得正确值(这一过程称为数据融合)是数据集成中的一个关键问题.提出一种考虑数据源之间依赖关系的数据融合方法.该方法利用贝叶斯分析确定数据源之间的依赖性,设计出检测依赖性和融合数据的迭代算法;并通过考虑数据源的准确度和属性值之间的相似性等条件扩展模型.使用该方法,对网上爬取的真实数据进行了实验,结果表明它能够显著提高数据融合的准确度,而且在大量数据源存在的情况下具有可扩展性.In Deep Web data mining, different sources can often provide conflicting data. It is important that data integration systems can resolve conflicts and obtain correct values, which is called data fusion. We propose an algorithm that considers dependence be- tween sources in data fusion. The algorithm uses Bayesian analysis to decide source dependence and iteratively detects dependence and fuses data. Moreover, we extend our model by considering accuracy of data sources and similarity between values. Our experiments on real data show that our algorithm can notably imorove accuracv of data fusion and is scalable when there is a large of data sources.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.28