基于Python爬虫技术的网页解析与数据获取研究被引量：16

Research on Web Page Analysis and Data Acquisition Based on Python Crawler Technology

作　　者：温娅娜袁梓梁何咏宸黄猛[1] WEN Yana;YUAN Ziliang;HE Yongchen;HUANG Meng(Institute of Disaster Prevention,Sanhe065201,China)

机构地区：[1]防灾科技学院,河北三河065201

出　　处：《现代信息科技》2020年第1期12-13,16,共3页Modern Information Technology

基　　金：地震震害防御专项项目;中央高校基本科研业务费专项项目(ZY20180124)。

摘　　要：网络的发展,大数据、人工智能的崛起使数据变得尤为重要,各行各业的发展都需要数据的支持,任何一种深度学习以及算法中都需要大量的数据作为模型来训练才能得出较为准确的结论。文中讨论了网络爬虫实现过程中的主要问题:了解网页基本结构、使用直观的网页分析工具对网页进行抓包分析、如何使用正则表达式获取准确的字符串信息、利用Python实现简单的页面数据获取。With the development of network,the rise of big data and artificial intelligence,data becomes more and more important.The development of all walks of life needs the support of data.Any kind of deep learning and algorithm needs a lot of data as a model for training to get a more accurate conclusion.This paper discusses the main problems in the implementation of web crawler:understanding the basic structure of web page,using the intuitive web page analysis tool to analyze the web page,how to use regular expression to obtain accurate string information,and using Python to achieve simple page data acquisition.

关键词：网络爬虫 PYTHON 正则表达式抓包分析

分类号：TP391.3[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于Python爬虫技术的网页解析与数据获取研究被引量：16

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于Python爬虫技术的网页解析与数据获取研究 被引量：16

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于Python爬虫技术的网页解析与数据获取研究被引量：16