基于Python的Web数据采集技术  被引量:33

Research on Python-based Web Scraping Technology

在线阅读下载全文

作  者:齐鹏[1] 李隐峰[1] 宋玉伟[1] 

机构地区:[1]西安电子科技大学电子工程学院,陕西西安710126

出  处:《电子科技》2012年第11期118-120,共3页Electronic Science and Technology

摘  要:针对Web数据采集技术进行了介绍,分析了Web数据采集技术在将非结构化数据转换为结构化数据方面的优势:速度快、准确性高。从HTTP协议层分析了Web数据抓取的原理,并重点介绍了如何实现基于Python的Web数据采集方案。Web数据采集系统可以分为:HTTP交互和数据解析两个模块。In this paper web scraping technologies are discussed.The advantages of Web data collection technology for high speed and accuracy conversion of unstructured data into structured data are pointed out.The principles of the web scraping at HTTP level are introduced with emphasis on the technical solutions to Python-based web scraping.Web scraping system consists of two modules:HTTP interaction module and data analysis module.

关 键 词:Web数据抓取 屏幕抓取 HTTP协议 PYTHON 正则表达式 XPATH 

分 类 号:TP274.2[自动化与计算机技术—检测技术与自动化装置]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象