基于数据质量的Deep Web数据源排序  被引量:6

Ranking of Deep Web Sources Dased on Data Quality

在线阅读下载全文

作  者:余伟[1] 李石君[1] 文利娟[2] 田建伟[1] 

机构地区:[1]武汉大学计算机学院,湖北武汉430079 [2]武汉理工大学理学院,湖北武汉430072

出  处:《小型微型计算机系统》2010年第4期641-646,共6页Journal of Chinese Computer Systems

基  金:国家自然科学基金项目(60970018)资助

摘  要:Deep Web技术使得大量隐藏在接口背后的有用信息更容易被用户查找到.然而,随着数据源的增多,如何从众多的数据源中快速地找到合适的结果这一问题变得越来越重要.通过传统的链接分析方法和相关性评估方法来对数据源进行排序,已经不能满足高精度的要求.提出一种通过抽样方法和数据质量评估来判断数据源的优劣性的算法.本文提出的抽样方法,改进了分层抽样和雪球抽样,使得在较少的样本点时,能够准确的反映整体特征.定义了能基本反映数据源的优劣程度的6个主要质量标准,并给出计算方法;通过质量标准,结合权重向量来量化数据源的质量.实验通过对数据源进行抽样分析,求解数据源得分的期望值,并根据该期望值对数据源进行了整体排序.结果表明,利用抽样对数据源的数据质量进行估计和评分,具有很好的准确性和可操作性.Deep Web technology makes a large number of useful information which hidden behind the interface easier to be found by users.However,with the increase of data source,how to find a suitable result quickly from a number of sources is becoming more and more important.In this paper,we start discussing from the quality of the data,setting 6 quality standards for the data source and giving the method of calculation.Meanwhile,we solve corresponding weight vector of quality standards by the feeling of the users;and based on this quality standards,we calculate a random data source according to weight vector to gain a general score.Then this paper discusses the sampling theory and proposes a reasonable sampling method for the experiment.The experiment result shows that it is of good veracity and operability to evaluate and score the data quality of data source according to sampling analysis.

关 键 词:抽样估计 数据质量 质量向量 数据源排序 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象