基于Python的网络爬虫技术的关键性问题探索  被引量:6

在线阅读下载全文

作  者:唐琳[1] 董依萌 何天宇 

机构地区:[1]大连理工大学城市学院

出  处:《电子世界》2018年第14期32-33,共2页Electronics World

基  金:辽宁省大学生创新创业训练计划项目基于网络大数据的大学生旅游网(项目编号:201713198000006);大连理工大学城市学院院级课题"新课程‘Python语言程序设计’在软件专业转型试点中实验;实践教学研究与应用"(JXYJ12017003);辽宁省教育科学规划项目"辽宁省应用型大数据人才培养目标及实现路径探究"(JG17DB083);辽宁省普通高等学校转型发展试点专业--大连理工大学城市学院计算机工程分院软件工程专业(辽教发[2016]23号)研究成果

摘  要:0引言随着网络的不断发展,大量数据以文本形式、图片甚至视频的形式存储,通过网络爬虫(Crawler)获取网络数据是一种非常流行的方法。本文将基于Python的网络爬虫技术的关键性问题以及一些相应的解决方法进行讨论。1相关性问题介绍数据爬取任务通常是基于Robots协议进行,再分析网站DOM树爬取所需要的数据。在解析过程中主要使用正则表达式进行筛选和匹配,针对网站的反爬取机制采取一些措施和手段。下面分别针对这些具体知识点和解决方案进行介绍:1.1 Robots协议Robots协议的全称是网络爬虫排除标准(即Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。它是Web站点和搜索引擎爬虫交互的一种方式,并不是一个规范,所以并不能保证网站隐私。在互联网世界中,每天都有不计其数的爬虫在日夜不息地爬取数据,其中恶意爬虫的数量甚至高于非恶意爬虫。遵守Robots协议的爬虫才是好爬虫,但是并不是每个爬虫都会主动遵守Robots协议。1.2分析网站DOM树爬取数据网站结构分析是进行数据采集的必备技能,在编写爬虫之前我们需要知道数据所在的位置,之后才能通过遍历节点树或查找子节点找到目标数据。Google浏览器的开发者模式就是分析网站结构的强力工具,利用好这个工具就可以轻松分析出目标数据的位置,还能获取渲染内容、cookies等信息。

关 键 词:PYTHON 网络爬虫 技术 网站结构 CRAWLER COOKIES Google DOM树 

分 类 号:TP311.1[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象