检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:唐锐 邓建新[1,2] 叶志兴 张海平 Tang Rui;Deng Jianxin;Ye Zhixing;Zhang Haiping(Guangxi Key Lab of Manufacturing System and Advanced Manufacturing Technology,Guangxi University,Nanning 530000,Guangxi,China;College of Mechanical Engineering,Guangxi University,Nanning 530000,Guangxi,China)
机构地区:[1]广西大学广西制造系统与先进制造技术重点实验室,广西南宁530000 [2]广西大学机械工程学院,广西南宁530000
出 处:《计算机应用与软件》2021年第7期1-7,22,共8页Computer Applications and Software
基 金:国家自然科学基金项目(51965006);广西自然科学基金项目(2018GXNSFAA050111);广西研究生教育创新计划项目(YCSW2019035)。
摘 要:针对PDF文件进行表格抽取研究是获取期刊文献中的表格数据并实现数据管理和共享的基础。通过分析近二十多年的有关PDF表格抽取技术的学术文献,总结出PDF表格抽取的三种思路。从算法构建的特征的角度对主要的表格抽取算法进行分类,并分析算法各自的特点和优劣;介绍表格抽取算法性能评估的研究现状,在此基础上总结和提出未来表格抽取技术的研究和发展方向。The study of table extraction for PDF documents is the basis of obtaining tabular data in literature and realizing data management and sharing.This paper proposes three ideas of PDF table extraction by analyzing the academic literature on PDF table extraction technology for more than 20 years.It classified the main table extraction algorithms from the perspective of the characteristics of algorithm construction,and it analyzed their respective advantages and disadvantages of algorithms.Then it introduced the research status of the performance evaluation of table extraction algorithm.Finally,it summarized the research and development direction of table extraction technology in the future.
关 键 词:PDF文件 表格检测 表格定位 表格抽取 性能评估
分 类 号:TP391.13[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222