检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李学凯[1] 许笑[1] 孙春奇[1] 张伟哲[1] 李斌[1]
机构地区:[1]哈尔滨工业大学计算机学院,哈尔滨150001
出 处:《计算机工程》2010年第8期275-277,共3页Computer Engineering
基 金:国家自然科学基金资助项目(60703014);国家"973"计划基金资助项目(G2005CB321806);高等学校博士学科点专项科研基金资助项目(20070213044);哈尔滨工业大学优秀青年教师培养计划基金资助项目(HITQNJS2007034)
摘 要:分析传统搜索引擎分配任务的方式及存在的问题,根据垂直搜索引擎的特点,提出一种比传统方法粒度更细的任务分配方式——网站划分。该分配方式将较大规模的网站切分为若干较小规模的子集,并将子集交给若干爬虫节点并行抓取,以加快爬虫系统的整体获取速率,作为对传统方法的有效优化。将网站划分算法应用于样本数据集,验证其有效性。In allusion to the problem of traditional search engines' task allocating methods,a new fine-grained method called Web site partition is presented,which is as an effective optimization of the traditional method adopted by vertical search engines.This method divides large-scale Web sites into a number of smaller subsets,so that several crawlers can parallel crawl each subset in order to accelerate the overall downloading progress.The proposed algorithm is proved to be effective against the sample data sets.
分 类 号:N945[自然科学总论—系统科学]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.15.203.168