检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:余伟[1] 李石君[1] 文利娟[2] 田建伟[1]
机构地区:[1]武汉大学计算机学院,湖北武汉430079 [2]武汉理工大学理学院,湖北武汉430072
出 处:《小型微型计算机系统》2010年第4期641-646,共6页Journal of Chinese Computer Systems
基 金:国家自然科学基金项目(60970018)资助
摘 要:Deep Web技术使得大量隐藏在接口背后的有用信息更容易被用户查找到.然而,随着数据源的增多,如何从众多的数据源中快速地找到合适的结果这一问题变得越来越重要.通过传统的链接分析方法和相关性评估方法来对数据源进行排序,已经不能满足高精度的要求.提出一种通过抽样方法和数据质量评估来判断数据源的优劣性的算法.本文提出的抽样方法,改进了分层抽样和雪球抽样,使得在较少的样本点时,能够准确的反映整体特征.定义了能基本反映数据源的优劣程度的6个主要质量标准,并给出计算方法;通过质量标准,结合权重向量来量化数据源的质量.实验通过对数据源进行抽样分析,求解数据源得分的期望值,并根据该期望值对数据源进行了整体排序.结果表明,利用抽样对数据源的数据质量进行估计和评分,具有很好的准确性和可操作性.Deep Web technology makes a large number of useful information which hidden behind the interface easier to be found by users.However,with the increase of data source,how to find a suitable result quickly from a number of sources is becoming more and more important.In this paper,we start discussing from the quality of the data,setting 6 quality standards for the data source and giving the method of calculation.Meanwhile,we solve corresponding weight vector of quality standards by the feeling of the users;and based on this quality standards,we calculate a random data source according to weight vector to gain a general score.Then this paper discusses the sampling theory and proposes a reasonable sampling method for the experiment.The experiment result shows that it is of good veracity and operability to evaluate and score the data quality of data source according to sampling analysis.
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229