一种去除重复URL的算法  被引量:5

An Algorithm of Removing Duplicate URL

在线阅读下载全文

作  者:苏国荣[1] 杨岳湘[1] 邓劲生[2] 

机构地区:[1]国防科学技术大学计算机学院,湖南长沙410073 [2]国防科学技术大学信息中心,湖南长沙410073

出  处:《广西师范大学学报(自然科学版)》2010年第1期122-126,共5页Journal of Guangxi Normal University:Natural Science Edition

基  金:国家863计划资助项目(2008AA02407);湖南省自然科学基金项目(07555084);广东省科技计划项目资助(2009B080701031)

摘  要:通过对Bloom Filter算法及其改进型在Web信息采集时的去重策略进行分析,结合Dynamic Bloom Filter算法,采用动态数组对集合元素进行表示,提出了一种去重应用策略,实现了对集合中重复URL的频度查询和删除操作支持,最后使用该去重策略进行了实验并和其他策略进行了比较,实验证明该应用策略能够在误判率较低的情况下取得较好的去重效果。Based on the analysis of removing duplicate strategies in collecting Web information ,which are used by the Bloom Filter algorithm and its improved versions and combining with Dynamic Bloom Filter algorithm,this adopts dynamic array to represent the elements of aggregate,and then proposes a removing duplicate strategy,which supports frequently querying and deletes operation of repeated URL. Finally,an experiment is carried out by using the proposed strategy,and comparing it with other strategies, which shows that the strategy gets better effect in removing duplicate in the case of lower error rates.

关 键 词:布隆过滤器 散列函数 URL 网页去重 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象