基于深度学习的纸质档案智能检索研究  

在线阅读下载全文

作  者:易黎 邹彬 

机构地区:[1]南京烽火星空通信发展有限公司 [2]深圳市档案馆

出  处:《机电兵船档案》2022年第6期99-103,共5页

基  金:国家档案局科技项目“AI技术驱动下档案信息知识服务模式研究”(项目编号:2019-X-31)的阶段性研究成果。

摘  要:本文针对智慧档案馆的建设,提出一种基于深度学习的纸质档案智能检索模型。该模型由数据采集、图像预处理、OCR识别、信息抽取和信息检索5个模块组成。在采用OCR识别前增加了一些预处理手段,以此来提升模型识别的准确性。在Paddle OCR(OCR toolkits based on Paddle,基于飞桨深度学习平台的OCR模型库)集成的各模型中尝试采用一种适合我国档案文件信息识别的模型组合。探索采用一种除常用规则抽取外的字段推算信息抽取方式,并以N版本程序策略的方式提高各字段抽取的覆盖率和准确性,同时设计了一种智能信息检索系统,方便各类档案文件的全文检索。

关 键 词:信息抽取 智能检索 规则抽取 全文检索 信息检索 模型识别 OCR 数据采集 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程] TP391.41[自动化与计算机技术—控制科学与工程] G273[文化科学—档案学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象