Web信息采集中的哈希函数比较  被引量:8

Hashing Comparison in Web Crawling

在线阅读下载全文

作  者:吴丽辉[1,2] 白硕[1] 张刚[1,2] 张凯[1] 

机构地区:[1]中国科学院计算技术研究所软件研究室,北京100080 [2]中国科学院研究生院,北京100039

出  处:《小型微型计算机系统》2006年第4期673-676,共4页Journal of Chinese Computer Systems

基  金:国家"九七三"项目基金(2004CB3181096)资助

摘  要:在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突率.实验结果表明,Strhash和Tianlhash的性能较佳,值得推荐.并且,ELFhash的测试性能要优于HfIp和hf采用二阶哈希后的天罗Web信息采集系统,占用几兆的内存空间,大大提高了采集速度,并降低了数据库的负荷.During the course of Web crawling, it is needed to judge if the coming URLs are in the collection of crawled pages. In order to achieve fast crawling, hashing is adopted. Through a large scale experiment, five hash functions are compared in this paper. The finding is that Strhash and Tianlhash functions are better and thus recommended. And, ELFhash function is better than HfIp and hr. The crawling speed is fast advanced after using second-hash in Tianluo Web crawling system, and the database load is depressed.

关 键 词:WEB信息采集 哈希函数 URL 

分 类 号:TP314[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象