检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]国防科学技术大学计算机学院,湖南长沙410073 [2]国防科学技术大学信息中心,湖南长沙410073
出 处:《广西师范大学学报(自然科学版)》2010年第1期122-126,共5页Journal of Guangxi Normal University:Natural Science Edition
基 金:国家863计划资助项目(2008AA02407);湖南省自然科学基金项目(07555084);广东省科技计划项目资助(2009B080701031)
摘 要:通过对Bloom Filter算法及其改进型在Web信息采集时的去重策略进行分析,结合Dynamic Bloom Filter算法,采用动态数组对集合元素进行表示,提出了一种去重应用策略,实现了对集合中重复URL的频度查询和删除操作支持,最后使用该去重策略进行了实验并和其他策略进行了比较,实验证明该应用策略能够在误判率较低的情况下取得较好的去重效果。Based on the analysis of removing duplicate strategies in collecting Web information ,which are used by the Bloom Filter algorithm and its improved versions and combining with Dynamic Bloom Filter algorithm,this adopts dynamic array to represent the elements of aggregate,and then proposes a removing duplicate strategy,which supports frequently querying and deletes operation of repeated URL. Finally,an experiment is carried out by using the proposed strategy,and comparing it with other strategies, which shows that the strategy gets better effect in removing duplicate in the case of lower error rates.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.112