广域网分布式Web爬虫  被引量:25

WAN-Based Distributed Web Crawling

在线阅读下载全文

作  者:许笑[1] 张伟哲[1] 张宏莉[1] 方滨兴[1] 

机构地区:[1]哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨150001

出  处:《软件学报》2010年第5期1067-1082,共16页Journal of Software

基  金:国家自然科学基金No.60703014;国家重点基础研究发展计划(973)No.G2005CB321806;国家高技术研究发展计划(863)No.2009AA01Z437;高等学校博士学科点专项科研基金No.20070213044;中国博士后科学基金No.20070410263;黑龙江省博士后资助No.LBH-Z07108;哈尔滨工业大学优秀青年教师培养计划No.HITQNJS.2007.034~~

摘  要:分析了广域网分布式Web爬虫相对于局域网爬虫的诸多优势,提出了广域网分布式Web爬虫的3个核心问题:Web划分、Agent协同和Agent部署.围绕这3个问题,对目前学术界和商业界出现的多种实现方案和策略进行了全面的综述,深入讨论了研究中遇到的问题与挑战,并论述了广域网分布式Web爬虫的评价模型.最后,对未来的研究方向进行了总结.There are three core issues recognized for WAN-based distributed Web crawling systems: Web Partition, Agent collaboration and Agent deployment. Centering around these issues, this paper presents a comprehensive overview of the current strategies adopted by academic and business communities. The experiences, problems and challenges encountered by the WAN-based distributed Web crawlers are classified and discussed in depth. A summary of the current evaluation indicators is also given. Finally, conclusion and some suggestions for future research are put forward.

关 键 词:搜索引擎 广域网分布式爬虫 Web划分 AGENT协同 Agent部署 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象