Python环境下利用Selenium与JavaScript逆向技术爬虫研究  被引量:8

Research on Crawler Using Selenium and JavaScript Reverse Technology in Python Environment

在线阅读下载全文

作  者:时春波 李卫东[1] 秦丹阳 张海啸 吴峥嵘 SHI Chunbo;LI Weidong;QIN Danyang;ZHANG Haixiao;WU Zhengrong(College of Information Science and Engineering,Henan University of Technology,Zhengzhou 450001,China)

机构地区:[1]河南工业大学信息科学与工程学院,河南郑州450001

出  处:《河南科技》2022年第10期20-23,共4页Henan Science and Technology

基  金:国家级大学生创新创业训练计划项目(202110463069S、202110463066S);省级大学生创新创业训练计划项目(S202110463070、S202110463076)。

摘  要:针对使用调试检测、数据加密等技术的网站,解析工具Beautiful Soup难以对网页进行解析爬取数据。本研究基于Python环境,结合JavaScript逆向技术、Beautiful Soup网页解析等网络爬虫技术,利用中间人攻击工具Mitmproxy(man-in-the-middle attack proxy)在本地指定设备端口开启本地代理,拦截并修改网页响应。同时,运用Web自动化工具Selenium来启动浏览器,设置使用代理服务器,连接到本地Mitmproxy代理,访问被修改的响应网页进行网页调试和解析,并对加密数据进行还原,解决网络爬虫中调试检测和数据加密难题,从而爬取数据。For websites that use debugging detection,data encryption and other technologies,the parsing tool beautiful soup is difficult to parse web pages and crawl data Based on the python environment,combined with JavaScript reverse technology,beautiful soup web page parsing and other web crawler technologies,this study uses the man in the middle attack proxy(mitmproxy)to open the local proxy at the local designated device port,intercept and modify the web page response,and uses the web automation tool selenium to start the browser,set up the proxy server and connect to the local mitmproxy proxy.Visit the modified middle note to debug and analyze the web page,restore the encrypted data,solve the problem of debugging and data encryption in web crawler,and then crawl data.

关 键 词:网络爬虫 JavaScript逆向技术 网络代理 SELENIUM 

分 类 号:TP393.092[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象