一种基于web爬虫的网页信息获取系统被引量：1

机构地区：[1]天津理工大学计算机科学与工程学院 [2]安态诚科技(天津)有限公司

出　　处：《中国科技信息》2020年第6期90-91,共2页China Science and Technology Information

基　　金：天津市教育信息化战略研究课题“天津高校无线联盟安全机制研究”

摘　　要：本设计实现了一种基于web爬虫的网页信息获取系统,通过构造虚拟HTTP请求头部,模拟浏览器行为发送虚拟请求获取需要的web页面,实现了流量包抓取、微信公众号内容抓取。通过实验结果和原网址信息进行比对,表明了网页信息获取系统的正确性。urllib2与BeautifulSoup简介urllib2在python3中即为urllib.request。由于urllib2默认的User-Agent即Python-urllib/2.7,容易被检查误判为爬虫,因此需要构造一个请求对象,即需要使用Request方法。

关键词：信息获取系统爬虫 Python 微信公众号网址浏览器网页 REQUEST

分类号：TP393.09[自动化与计算机技术—计算机应用技术] TP391.3[自动化与计算机技术—计算机科学与技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于web爬虫的网页信息获取系统被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于web爬虫的网页信息获取系统 被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

一种基于web爬虫的网页信息获取系统被引量：1