一种基于WatiJ的Deep Web蜘蛛研究  

Research on WatiJ-based Spider for Deep Web

在线阅读下载全文

作  者:刘邵斌[1] 张祖平[1] 龙军[1] 

机构地区:[1]中南大学信息科学与工程学院,长沙410083

出  处:《计算机工程》2011年第4期264-266,共3页Computer Engineering

基  金:国家自然科学基金资助项目(60873081;60970095;M0921005);湖南省自然科学基金资助项目(07JJ6122)

摘  要:Deep Web中相当一部分内容因为动态网页存在而不能进行有效抓取。为此,设计并实现一种基于Web自动化测试工具——WatiJ的Deep Web网络蜘蛛。阐述利用WatiJ实现用户提交查询表单、循环点击翻页按钮等拟人交互方式的原理,通过实例给出动态网页抓取的关键步骤。实验结果表明,该蜘蛛是针对授权数据源进行动态网页抓取的一种有效解决方案。As to the problems that a significant part of information can not be crawled effectively because of the dynamic Webs, a Web spider for the deep Web based on automated test tools called WatiJ is designed. The principle of using WatiJ to imitate users to submit query forms, continued nexl page is described, key steps of the crawling for the dynamic Webs are introduced by examples. Proved by the experiments, this spider is an effective one for crawling dynamic Webs in authorized data source.

关 键 词:动态网页 自动化测试 网络蜘蛛 

分 类 号:N945[自然科学总论—系统科学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象