基于Java的网络爬虫系统研究与设计  被引量:3

在线阅读下载全文

作  者:李尚林 陈宫[1] 雷勇 

机构地区:[1]桂林理工大学信息科学与工程学院,广西桂林541004

出  处:《新型工业化》2021年第4期74-77,80,共5页The Journal of New Industrialization

基  金:国家自然科学基金项目(批准号:61762031);广西高等教育本科教学改革工程项目(批准号:2020JGB211)。

摘  要:随着网络技术的不断发展,人们从网络中获取资源信息已经是生活中不可或缺的一部分。如何高效的提取和利用网络资源成为困扰人们的难题,在这样的背景下诞生了爬虫技术。本文利用HttpClient、Jsoup、正则表达式以及Java多线程技术,研究分析了静态网页爬虫和动态网页爬虫的设计过程。最后,实现了静态网页的广泛爬取以及以百度图片、百度文库为例的动态网页特定爬取。

关 键 词:网络爬虫 JAVA HTTPCLIENT Jsoup 多线程爬取 

分 类 号:TP393.09[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象