一种爬虫监控系统的设计与实现  被引量:2

Design and implement of crawler monitoring system

在线阅读下载全文

作  者:张军强[1,2] 李炜[1,2] 沈奇威[1,2] 

机构地区:[1]北京邮电大学网络与交换技术国家重点实验室,北京100876 [2]东信北邮信息技术有限公司,北京100191

出  处:《电信工程技术与标准化》2014年第12期74-78,共5页Telecom Engineering Technics and Standardization

基  金:国家973计划项目(编号:2013CB329102);国家自然科学基金资助项目(No.61372120;61271019;61101119;61121001);长江学者和创新团队发展计划资助(编号:IRT1049);教育部科学技术研究重点(重大)项目资助(编号:MCM20130310);北京高等学校青年英才计划项目(编号:YETP0473)

摘  要:随着互联网爆炸式的发展,网络爬虫的重要性越来越重要。一个搜索引擎搜索结果的数量以及质量在一定程度上取决于网络爬虫爬取结果的质量,而如何能更好的组织这些爬虫也成了一件能影响爬虫效率的事情。随着在服务器上部署爬虫的增加,对一个能够有效管理爬虫监控系统的需求也就越来越紧迫。本文对爬虫监控系统的设计和实现将会给爬虫的管理带来很大的方便。With the explosive growth of Internet, the importance of web crawler is becoming increasingly important.The quantity and quality of search results of a search engine is depends to some extent on the quality ofweb crawler's crawling results, and how to organize these crawlers better have become a things can affectthe effi ciency of crawler. With the increase of crawlers deployed on the server, the need for an effectivemanagement of monitoring system is more and more urgent. In this paper, the design and implementationof reptile monitoring system will bring great convenience to the crawler's management.

关 键 词:网络爬虫 监控系统 HERITRIX 

分 类 号:TP277[自动化与计算机技术—检测技术与自动化装置]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象