用Capture-Recapture方法估计Web数据库大小  

Using Capture-Recapture approach estimate size of Web databases

在线阅读下载全文

作  者:苗忠义[1] 胡鹏昱[1] 崔志明[1] 

机构地区:[1]苏州大学智能信息处理研究所,江苏苏州215006

出  处:《计算机应用研究》2009年第5期1754-1756,1759,共4页Application Research of Computers

基  金:国家自然科学基金资助项目(60673092);2005年度国家教育部科研重点项目(205059);2006年江苏省"六大人才高峰"项目(06-E-037);2006年度江苏省软件和集成电路业专项经费资助项目([2006]221-41)

摘  要:为了估计网络数据库的大小,提出了基于Capture-Recapture过滤二字亲密、二字排斥的方法。通过在接口文本框提交属性高频字,利用返回的结果集,在两两之间作交集,根据交集中的两字分布分析采样的独立性,过滤掉其中不独立的情况,再利用Capture-Recapture方法估计网络数据库的大小。在模拟和真实的环境下进行了实验,该方法偏差度和波动度均较小。In order to estimate the size of Web database, this paper proposed the Capture-Recapture based estimation methods that filtered out two words intimate and rejection cases. Submitting attributed high-frequency words in the text box of query interface, using the returned result, in the intersection of two results analyzing the independence of two sampling, filtering the dependent couples, and then using Capture-Recapture method estimated the size of Web database. In the simulated and real environment for the experiment, the bias and the volatility of the method are smaller.

关 键 词:大小估计 深网 网络数据库 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象