检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]天津理工大学计算机科学与工程学院 [2]安态诚科技(天津)有限公司
出 处:《中国科技信息》2020年第6期90-91,共2页China Science and Technology Information
基 金:天津市教育信息化战略研究课题“天津高校无线联盟安全机制研究”
摘 要:本设计实现了一种基于web爬虫的网页信息获取系统,通过构造虚拟HTTP请求头部,模拟浏览器行为发送虚拟请求获取需要的web页面,实现了流量包抓取、微信公众号内容抓取。通过实验结果和原网址信息进行比对,表明了网页信息获取系统的正确性。urllib2与BeautifulSoup简介urllib2在python3中即为urllib.request。由于urllib2默认的User-Agent即Python-urllib/2.7,容易被检查误判为爬虫,因此需要构造一个请求对象,即需要使用Request方法。
关 键 词:信息获取系统 爬虫 Python 微信公众号 网址 浏览器 网页 REQUEST
分 类 号:TP393.09[自动化与计算机技术—计算机应用技术] TP391.3[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.221.139.13