检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:许笑[1] 张伟哲[1] 张宏莉[1] 方滨兴[1]
机构地区:[1]哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨150001
出 处:《软件学报》2010年第5期1067-1082,共16页Journal of Software
基 金:国家自然科学基金No.60703014;国家重点基础研究发展计划(973)No.G2005CB321806;国家高技术研究发展计划(863)No.2009AA01Z437;高等学校博士学科点专项科研基金No.20070213044;中国博士后科学基金No.20070410263;黑龙江省博士后资助No.LBH-Z07108;哈尔滨工业大学优秀青年教师培养计划No.HITQNJS.2007.034~~
摘 要:分析了广域网分布式Web爬虫相对于局域网爬虫的诸多优势,提出了广域网分布式Web爬虫的3个核心问题:Web划分、Agent协同和Agent部署.围绕这3个问题,对目前学术界和商业界出现的多种实现方案和策略进行了全面的综述,深入讨论了研究中遇到的问题与挑战,并论述了广域网分布式Web爬虫的评价模型.最后,对未来的研究方向进行了总结.There are three core issues recognized for WAN-based distributed Web crawling systems: Web Partition, Agent collaboration and Agent deployment. Centering around these issues, this paper presents a comprehensive overview of the current strategies adopted by academic and business communities. The experiences, problems and challenges encountered by the WAN-based distributed Web crawlers are classified and discussed in depth. A summary of the current evaluation indicators is also given. Finally, conclusion and some suggestions for future research are put forward.
关 键 词:搜索引擎 广域网分布式爬虫 Web划分 AGENT协同 Agent部署
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.145.82.96