检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]桂林理工大学信息科学与工程学院,广西桂林541004
出 处:《新型工业化》2021年第4期74-77,80,共5页The Journal of New Industrialization
基 金:国家自然科学基金项目(批准号:61762031);广西高等教育本科教学改革工程项目(批准号:2020JGB211)。
摘 要:随着网络技术的不断发展,人们从网络中获取资源信息已经是生活中不可或缺的一部分。如何高效的提取和利用网络资源成为困扰人们的难题,在这样的背景下诞生了爬虫技术。本文利用HttpClient、Jsoup、正则表达式以及Java多线程技术,研究分析了静态网页爬虫和动态网页爬虫的设计过程。最后,实现了静态网页的广泛爬取以及以百度图片、百度文库为例的动态网页特定爬取。
关 键 词:网络爬虫 JAVA HTTPCLIENT Jsoup 多线程爬取
分 类 号:TP393.09[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.147