PDF文件的表格抽取研究综述  被引量:8

SURVEY OF TABLE EXTRACTION IN PDF DOCUMENTS

在线阅读下载全文

作  者:唐锐 邓建新[1,2] 叶志兴 张海平 Tang Rui;Deng Jianxin;Ye Zhixing;Zhang Haiping(Guangxi Key Lab of Manufacturing System and Advanced Manufacturing Technology,Guangxi University,Nanning 530000,Guangxi,China;College of Mechanical Engineering,Guangxi University,Nanning 530000,Guangxi,China)

机构地区:[1]广西大学广西制造系统与先进制造技术重点实验室,广西南宁530000 [2]广西大学机械工程学院,广西南宁530000

出  处:《计算机应用与软件》2021年第7期1-7,22,共8页Computer Applications and Software

基  金:国家自然科学基金项目(51965006);广西自然科学基金项目(2018GXNSFAA050111);广西研究生教育创新计划项目(YCSW2019035)。

摘  要:针对PDF文件进行表格抽取研究是获取期刊文献中的表格数据并实现数据管理和共享的基础。通过分析近二十多年的有关PDF表格抽取技术的学术文献,总结出PDF表格抽取的三种思路。从算法构建的特征的角度对主要的表格抽取算法进行分类,并分析算法各自的特点和优劣;介绍表格抽取算法性能评估的研究现状,在此基础上总结和提出未来表格抽取技术的研究和发展方向。The study of table extraction for PDF documents is the basis of obtaining tabular data in literature and realizing data management and sharing.This paper proposes three ideas of PDF table extraction by analyzing the academic literature on PDF table extraction technology for more than 20 years.It classified the main table extraction algorithms from the perspective of the characteristics of algorithm construction,and it analyzed their respective advantages and disadvantages of algorithms.Then it introduced the research status of the performance evaluation of table extraction algorithm.Finally,it summarized the research and development direction of table extraction technology in the future.

关 键 词:PDF文件 表格检测 表格定位 表格抽取 性能评估 

分 类 号:TP391.13[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象