中文多字体古籍数据集多任务融合识别  

Multi-task fusion recognition of Chinese multi-font ancient literature dataset

在线阅读下载全文

作  者:薛德军 师庆辉 毕琰虹 芦筱菲 陈婧 王海山 吴晨 XUE Dejun;SHI Qinghui;BI Yanhong;LU Xiaofei;CHEN Jing;WANG Haishan;WU Chen(Tongfang Knowledge Network Digital Publishing Technology Co.,Ltd.,Beijing 100192,China)

机构地区:[1]同方知网数字出版技术股份有限公司,北京100192

出  处:《广西科技大学学报》2024年第4期108-114,共7页Journal of Guangxi University of Science and Technology

基  金:国家重点研发计划(2020YFC0833003);国家卓越行动计划(WKZB1911BJM501173/02)资助。

摘  要:针对中文古籍数字化处理中大规模高质量数据集匮乏的问题,本文提出了一种新颖的2级古籍数据集建设方法:一是构建了包含119.5万张图片、覆盖6610个字符类别的多字体古籍单字数据集CACID;二是基于古籍文献内容合成了包含86667列古籍文字图片的古籍篇章数据集CASID,这是目前报道的最大中文古籍合成数据集。本文设计了古籍多任务融合识别模型,并基于所建数据集进行了实验。结果表明,模型的识别准确率从35.62%显著提升至85.52%,验证了涵盖多字体多朝代的中文合成数据在古籍文字识别中的核心作用和良好泛化能力。To address the scarcity of large-scale,high-quality datasets for digitizing Chinese ancient literature,this paper introduces a novel two-tiered approach for dataset construction.Firstly,we establish a multi-font Chinese ancient character image dataset(CACID),containing 1.195 million images across 6610 character categories.Secondly,we synthesize the Chinese ancient synthetic image dataset(CASID)which consists of 86667 columns of ancient text images,based on authentic ancient literature content.This is currently the largest synthetic dataset for Chinese ancient literature reported.Then,we design a multi-task recognition model tailored for ancient literature and experimentally verify its effectiveness using our constructed datasets.The experimental results show a remarkable enhancement in recognition accuracy,with the model,s recognition rate soaring from 35.62%to 85.52%.This significant improvement verifies the excellent generalization capability of the synthetic data,encompassing diverse fonts and dynasties,in practical applications.

关 键 词:古籍 训练数据集 自动构建 深度学习模型 融合建模 

分 类 号:TP391.43[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象