采用多种策略的分布式Web Spider  

New Distributed Web Spider by Applying Many Optimization Strategies

在线阅读下载全文

作  者:陈炎龙[1] 段红玉[1] 

机构地区:[1]郑州牧业工程高等专科学校信息工程系,郑州450011

出  处:《计算机与数字工程》2012年第9期63-65,共3页Computer & Digital Engineering

摘  要:针对日益突出的网页访问问题,设计了一种新型分布式Web Spider。该分布式Web Spider采用中央控制节点来协调各个web spider的行为,利用宽度优先搜索来获得高质量的网页,通过对DNS缓存来提高访问web server的速度,以增加并行线程数量的方式来增加网页下载速度,并能动态地加入web spider节点和子中央控制节点,具有很强的灵活性和扩张能力。实验结果表明该分布式WebSpider作为搜索引擎的前端能够快速有效地下载网页,具有较好的性能。For the increasingly prominent web access problems, A New Distributed Web Spider (NDWS) was proposed. NDWS uses central control node to coordinate actions of all web spiders,employs Breadth First search to obtain high-quality web pages, caches DNS to improve speed of access to web server, increases number of concurrent threads to increase download speed of web pages. Meanwhile, NDWS also can dynamically add web spider node and sub-central-control-node so that NI)WS has strong flexibility and expansion capability. Experimental results show that as a front end of search engine, NDWS can quickly and efficiently download web pages, and has better performance.

关 键 词:中央控制节点 宽度优先搜索 线程 搜索引擎 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象