检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]苏州大学智能信息处理及应用研究所,江苏苏州215006
出 处:《小型微型计算机系统》2007年第10期1799-1802,共4页Journal of Chinese Computer Systems
基 金:2005年度教育部科研重点项目(205059)资助;教育部"高校博士学科点科研基金项目"(20040285016)资助;江苏省高技术研究计划项目(BG2005019)资助.
摘 要:随着Web数据库的广泛应用,Web正在加速的"深化",大量的高质量的信息隐藏在Deep Web中.基于IP采样的方法,对1,000,000个IP样本进行了分析统计,揭示了2006年初中国Deep Web的规模、分布和结构.主要结论包括有:1中国Deep Web查询接口往往位于站点浅层,94.6%的Deep Web查询接口出现在站点的前3层;2中国Deep Web大约有24,000个站点,28,000个Web数据库和74,000个查询接口;3中国Deep Web大部分是非结构化的,其中64%是非结构化的Web数据库;4中国Deep Web分布于多种不同的主题领域;5目前主要的中文搜索引擎已覆盖国内Deep Web大约二分之一的页面.The Web has been rapidly "Deepened" by the prevalence of databases online. Unlimited information with high quality is hidden in the Deep Web. We present a comprehensive report on the scale,distribution and structure of Chinese Deep Web as of dawn of the year 2006,adopting the random IP-sampling approach,with one million samples. The prominent results include: ①Query interfaces tend to locate shallowly in their sites, the vast majority of 94.6% can be found at the top-3 levels. ②It is of a large scale of 24,000 sites, 28,000 databases ,and 74,000 interfaces ;③Data sources on the Chinese Deep Web are mostly unstructured,64% web databases are unstructured sources; ④It is diversely distributed across all subject areas;⑤Major Chinese search engines cover about one-second of the data.
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.63