检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:许笑[1] 张伟哲[1] 张宏莉[1] 方滨兴[1]
机构地区:[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001
出 处:《高技术通讯》2010年第3期239-245,共7页Chinese High Technology Letters
基 金:863计划(2009AA01Z437);973计划(G2005CB321806);国家自然科学基金(60703014);高等学校博士学科点专项科研基金(20070213044);哈尔滨工业大学优秀青年教师培养计划(HITQNJS.2007.034)资助项目
摘 要:针对广域网环境下分布式Web爬虫的Agent协同和Web划分两个核心问题进行深入研究,提出了基于顾问服务的分布式Web爬虫系统模型,给出了详细的系统设计方案及Agent协同算法框架,并通过推导证明了顾问服务参与Agent协同能够使分布式爬虫系统承受相对较小的网络负载。提出了分布式Web爬虫Web划分的概念,围绕Web划分单元选取及Web划分策略,对Web划分的分类和实现进行了详细的讨论,并通过实验对多种Web划分方法进行了对比和评价,验证了广域网系统相对于局域网系统的优势,并发现运营商互连因素对爬虫系统性能的影响大于地理位置因素的影响。This paper focuses on agent collaboration and Web partition, the two core issues in WAN-based distributed crawling. First, a new consultant-service-based agent collaboration method and the corresponding system model are proposed. The new method has a lower communication overhead than the central-coordinator-based crawling systems and exploits location proximity better than the ones based on Distributed Hash Table (DHT). Second, the detailed definitions of Web partition are presented. The selection of Web partition unit and the Web partition strategy are discussed. The experiment under the real Interact environment shows that WAN-based distributed Web crawling systems have better performance than the LAN-based ones. The experiment also shows that the impact of Interact service providers interconnectivity on the system performance is greater than that of the geographical locality.
关 键 词:分布式Web爬虫 AGENT协同 Web划分 顾问服务
分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.227.107.69