网络机器人多线程爬行的研究与实现被引量：1

RESEARCH AND IMPLEMENTATION OF CRAWLER'S MULTI-THREAD CRAWLING

出　　处：《计算机应用与软件》2010年第1期117-120,共4页Computer Applications and Software

基　　金：江西省自然科学基金项目(0311046);江西省教育厅基金项目(赣教技字[2006]177号);华东交通大学校立科研基金(08XX05)

摘　　要：多线程爬行是高效率网络机器人实现的关键。分析在单个计算机节点上网络机器人多线程爬行的关键流程,并借鉴硬件指令流水线的执行过程研究不同多线程并发调度策略下系统的性能特点。最后,给出实现网络机器人多线程爬行的关键数据结构、并发调度方法及URL消重策略。实验数据表明:有效地控制并发和有选择地消除重复URL可以提高网络机器人的爬行速度。Multi-thread crawling is the key in implementing a high efficient crawler.Core working flow of crawler＇s multi-thread crawling at a single computer node is analyzed in the paper.It focuses on the system performances in different multi-thread concurrent controlling policies with the reference of the execution process of hardware instruction pipelining.Finally,a key data structure for the implementation of crawler＇s multi-thread crawling,the concurrent controlling approach and the duplicated URLs elimination policy are given.The experimental data show that to effectively control the concurrent and to selectively eliminate the repeated URLs could accelerate the crawler＇s working speed.

关键词：网络机器人多线程爬行并发调度 URL消重

分类号：TP242[自动化与计算机技术—检测技术与自动化装置] TU857[自动化与计算机技术—控制科学与工程]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

网络机器人多线程爬行的研究与实现被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

网络机器人多线程爬行的研究与实现 被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

网络机器人多线程爬行的研究与实现被引量：1