检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张婷琳 陈祥本 丁晔 张勇[2] ZHANG Tinglin;CHEN Xiangben;DING Ye;ZHANG Yong(Yancheng Institute of Technology,Yancheng 224051,China;Yancheng Institute of Science and Technology Information,Yancheng 224002,China)
机构地区:[1]盐城工学院,江苏盐城224051 [2]盐城市科学技术情报研究所,江苏盐城224002
出 处:《无线互联科技》2024年第19期32-36,共5页Wireless Internet Science and Technology
基 金:2023年盐城市科技计划项目(基础研究计划),项目名称:基于深度预训练模型的档案智能化收集技术的研究,项目编号:YCBK2023025;盐城工学院引进人才科研项目,项目名称:面向深度学习的多模态编码器在癫痫早期预测的研究,项目编号:XJR2023014;2024年江苏省大学生创新创业项目,项目名称:基于OCR技术的档案智能化收集方法的研究。
摘 要:为实现档案信息的智能化管理,文章提出了一种轻量化的端到端档案智能化收集系统。首先采用轻量化的目标检测神经网络PP-PicoDet作为布局检测器,用于对档案材料的版面分析;然后采用SLANet深度学习神经网络进行表格的结构化识别;最后使用开源的Paddle OCR引擎进行文本识别。系统对表格识别的准确度达到75.8%,印刷体文本识别准确度达到98.3%,总推理时间少于0.85 s。该系统为实现端到端的档案资料智能化收集,提高档案资料整理的效率提出了一种有效解决方案。In order to realize the intelligent management of file information,a lightweight end-to-end intelligent file collection system is proposed.Firstly,a lightweight object detection neural network PP-PicoDet is used as a layout detector to analyze the layout of archival materials.Then,SLANet deep learning neural network is used for structural recognition of the tables.Finally,the open source Paddle OCR engine is used for text recognition.The accuracy of the system for table recognition is 75.8%,the accuracy of printed text recognition is 98.3%,and the total reasoning time is less than 0.85s.This system brings forward an effective solution to realize the intelligent collection of file data from end to end and improve the efficiency of file data sorting.
关 键 词:档案智能化收集 深度学习 光学字符识别 中文表格 手写体识别
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.135.190.40