检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:时春波 李卫东[1] 秦丹阳 张海啸 吴峥嵘 SHI Chunbo;LI Weidong;QIN Danyang;ZHANG Haixiao;WU Zhengrong(College of Information Science and Engineering,Henan University of Technology,Zhengzhou 450001,China)
机构地区:[1]河南工业大学信息科学与工程学院,河南郑州450001
出 处:《河南科技》2022年第10期20-23,共4页Henan Science and Technology
基 金:国家级大学生创新创业训练计划项目(202110463069S、202110463066S);省级大学生创新创业训练计划项目(S202110463070、S202110463076)。
摘 要:针对使用调试检测、数据加密等技术的网站,解析工具Beautiful Soup难以对网页进行解析爬取数据。本研究基于Python环境,结合JavaScript逆向技术、Beautiful Soup网页解析等网络爬虫技术,利用中间人攻击工具Mitmproxy(man-in-the-middle attack proxy)在本地指定设备端口开启本地代理,拦截并修改网页响应。同时,运用Web自动化工具Selenium来启动浏览器,设置使用代理服务器,连接到本地Mitmproxy代理,访问被修改的响应网页进行网页调试和解析,并对加密数据进行还原,解决网络爬虫中调试检测和数据加密难题,从而爬取数据。For websites that use debugging detection,data encryption and other technologies,the parsing tool beautiful soup is difficult to parse web pages and crawl data Based on the python environment,combined with JavaScript reverse technology,beautiful soup web page parsing and other web crawler technologies,this study uses the man in the middle attack proxy(mitmproxy)to open the local proxy at the local designated device port,intercept and modify the web page response,and uses the web automation tool selenium to start the browser,set up the proxy server and connect to the local mitmproxy proxy.Visit the modified middle note to debug and analyze the web page,restore the encrypted data,solve the problem of debugging and data encryption in web crawler,and then crawl data.
关 键 词:网络爬虫 JavaScript逆向技术 网络代理 SELENIUM
分 类 号:TP393.092[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.191.136.109