检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京烽火星空通信发展有限公司 [2]深圳市档案馆
出 处:《机电兵船档案》2022年第6期99-103,共5页
基 金:国家档案局科技项目“AI技术驱动下档案信息知识服务模式研究”(项目编号:2019-X-31)的阶段性研究成果。
摘 要:本文针对智慧档案馆的建设,提出一种基于深度学习的纸质档案智能检索模型。该模型由数据采集、图像预处理、OCR识别、信息抽取和信息检索5个模块组成。在采用OCR识别前增加了一些预处理手段,以此来提升模型识别的准确性。在Paddle OCR(OCR toolkits based on Paddle,基于飞桨深度学习平台的OCR模型库)集成的各模型中尝试采用一种适合我国档案文件信息识别的模型组合。探索采用一种除常用规则抽取外的字段推算信息抽取方式,并以N版本程序策略的方式提高各字段抽取的覆盖率和准确性,同时设计了一种智能信息检索系统,方便各类档案文件的全文检索。
关 键 词:信息抽取 智能检索 规则抽取 全文检索 信息检索 模型识别 OCR 数据采集
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程] TP391.41[自动化与计算机技术—控制科学与工程] G273[文化科学—档案学]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.222.21.218