基于Python爬虫技术的网页解析与数据获取研究  被引量:16

Research on Web Page Analysis and Data Acquisition Based on Python Crawler Technology

在线阅读下载全文

作  者:温娅娜 袁梓梁 何咏宸 黄猛[1] WEN Yana;YUAN Ziliang;HE Yongchen;HUANG Meng(Institute of Disaster Prevention,Sanhe065201,China)

机构地区:[1]防灾科技学院,河北三河065201

出  处:《现代信息科技》2020年第1期12-13,16,共3页Modern Information Technology

基  金:地震震害防御专项项目;中央高校基本科研业务费专项项目(ZY20180124)。

摘  要:网络的发展,大数据、人工智能的崛起使数据变得尤为重要,各行各业的发展都需要数据的支持,任何一种深度学习以及算法中都需要大量的数据作为模型来训练才能得出较为准确的结论。文中讨论了网络爬虫实现过程中的主要问题:了解网页基本结构、使用直观的网页分析工具对网页进行抓包分析、如何使用正则表达式获取准确的字符串信息、利用Python实现简单的页面数据获取。With the development of network,the rise of big data and artificial intelligence,data becomes more and more important.The development of all walks of life needs the support of data.Any kind of deep learning and algorithm needs a lot of data as a model for training to get a more accurate conclusion.This paper discusses the main problems in the implementation of web crawler:understanding the basic structure of web page,using the intuitive web page analysis tool to analyze the web page,how to use regular expression to obtain accurate string information,and using Python to achieve simple page data acquisition.

关 键 词:网络爬虫 PYTHON 正则表达式 抓包分析 

分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象