基于Python爬虫技术的PDF文件提取与定位系统研究  

在线阅读下载全文

作  者:陈旭东 张水锋[1] 王润泽 杨洪启 王晨宇 

机构地区:[1]南京森林警察学院,江苏南京210000

出  处:《通讯世界》2022年第11期193-195,共3页Telecom World

基  金:江苏省大学生创新创业训练计划创新训练省级重点项目“基于Python的PDF文件目标内容爬取技术研究”(202212213037Z)。

摘  要:PDF文件是大多数信息的标准化载体文件,而相对高效、准确率高的PDF文件批量获取与内容爬取的技术尚欠缺,并且缺乏PDF文件提取与关键词定位等功能有效集成的系统。为此,致力于研究通过Python语言中爬虫技术爬取PDF文件内容的核心方法,分析PDF文件提取的研究背景与意义、国内外研究现状、研究内容和系统构建对策等,探讨基于Python爬虫技术的PDF文件提取与定位系统的构建。

关 键 词:PDF文件 PYTHON语言 爬虫技术 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象