基于OCR技术的档案智能化收集方法研究  被引量:1

Research on intelligent collection method of archives based on OCR technology

在线阅读下载全文

作  者:张婷琳 陈祥本 丁晔 张勇[2] ZHANG Tinglin;CHEN Xiangben;DING Ye;ZHANG Yong(Yancheng Institute of Technology,Yancheng 224051,China;Yancheng Institute of Science and Technology Information,Yancheng 224002,China)

机构地区:[1]盐城工学院,江苏盐城224051 [2]盐城市科学技术情报研究所,江苏盐城224002

出  处:《无线互联科技》2024年第19期32-36,共5页Wireless Internet Science and Technology

基  金:2023年盐城市科技计划项目(基础研究计划),项目名称:基于深度预训练模型的档案智能化收集技术的研究,项目编号:YCBK2023025;盐城工学院引进人才科研项目,项目名称:面向深度学习的多模态编码器在癫痫早期预测的研究,项目编号:XJR2023014;2024年江苏省大学生创新创业项目,项目名称:基于OCR技术的档案智能化收集方法的研究。

摘  要:为实现档案信息的智能化管理,文章提出了一种轻量化的端到端档案智能化收集系统。首先采用轻量化的目标检测神经网络PP-PicoDet作为布局检测器,用于对档案材料的版面分析;然后采用SLANet深度学习神经网络进行表格的结构化识别;最后使用开源的Paddle OCR引擎进行文本识别。系统对表格识别的准确度达到75.8%,印刷体文本识别准确度达到98.3%,总推理时间少于0.85 s。该系统为实现端到端的档案资料智能化收集,提高档案资料整理的效率提出了一种有效解决方案。In order to realize the intelligent management of file information,a lightweight end-to-end intelligent file collection system is proposed.Firstly,a lightweight object detection neural network PP-PicoDet is used as a layout detector to analyze the layout of archival materials.Then,SLANet deep learning neural network is used for structural recognition of the tables.Finally,the open source Paddle OCR engine is used for text recognition.The accuracy of the system for table recognition is 75.8%,the accuracy of printed text recognition is 98.3%,and the total reasoning time is less than 0.85s.This system brings forward an effective solution to realize the intelligent collection of file data from end to end and improve the efficiency of file data sorting.

关 键 词:档案智能化收集 深度学习 光学字符识别 中文表格 手写体识别 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象