检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:吴丽辉[1,2] 白硕[1] 张刚[1,2] 张凯[1]
机构地区:[1]中国科学院计算技术研究所软件研究室,北京100080 [2]中国科学院研究生院,北京100039
出 处:《小型微型计算机系统》2006年第4期673-676,共4页Journal of Chinese Computer Systems
基 金:国家"九七三"项目基金(2004CB3181096)资助
摘 要:在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突率.实验结果表明,Strhash和Tianlhash的性能较佳,值得推荐.并且,ELFhash的测试性能要优于HfIp和hf采用二阶哈希后的天罗Web信息采集系统,占用几兆的内存空间,大大提高了采集速度,并降低了数据库的负荷.During the course of Web crawling, it is needed to judge if the coming URLs are in the collection of crawled pages. In order to achieve fast crawling, hashing is adopted. Through a large scale experiment, five hash functions are compared in this paper. The finding is that Strhash and Tianlhash functions are better and thus recommended. And, ELFhash function is better than HfIp and hr. The crawling speed is fast advanced after using second-hash in Tianluo Web crawling system, and the database load is depressed.
分 类 号:TP314[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.226.166.121