一种基于web爬虫的网页信息获取系统  被引量:1

在线阅读下载全文

作  者:张洪豪 赵泽宁 姚世春 

机构地区:[1]天津理工大学计算机科学与工程学院 [2]安态诚科技(天津)有限公司

出  处:《中国科技信息》2020年第6期90-91,共2页China Science and Technology Information

基  金:天津市教育信息化战略研究课题“天津高校无线联盟安全机制研究”

摘  要:本设计实现了一种基于web爬虫的网页信息获取系统,通过构造虚拟HTTP请求头部,模拟浏览器行为发送虚拟请求获取需要的web页面,实现了流量包抓取、微信公众号内容抓取。通过实验结果和原网址信息进行比对,表明了网页信息获取系统的正确性。urllib2与BeautifulSoup简介urllib2在python3中即为urllib.request。由于urllib2默认的User-Agent即Python-urllib/2.7,容易被检查误判为爬虫,因此需要构造一个请求对象,即需要使用Request方法。

关 键 词:信息获取系统 爬虫 Python 微信公众号 网址 浏览器 网页 REQUEST 

分 类 号:TP393.09[自动化与计算机技术—计算机应用技术] TP391.3[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象