汉字计算机字库笔画标注数据集  

A Chinese Font Stroke Annotation Dataset

作  者:廖丹青 王存睿 战国栋 LIAO Danqing;WANG Cunrui;ZHAN Guodong(School of Computer Science and Engineering,Dalian Minzu University,Dalian Liaoning 116605,China;School of Design,Dalian Minzu University,Dalian Liaoning 116605,China;Dalian Chinese Character Font Design Technology Innovation Center,Dalian Minzu University,Dalian Liaoning 116605,China)

机构地区:[1]大连民族大学计算机科学与工程学院,辽宁大连116605 [2]大连民族大学设计学院,辽宁大连116605 [3]大连民族大学大连市汉字计算机字库设计技术创新中心,辽宁大连116605

出  处:《大连民族大学学报》2025年第1期53-58,共6页Journal of Dalian Minzu University

基  金:辽宁省技术攻关计划项目(2024JH2/102600108);大连市科技创新基金项目(2023JJGX026)。

摘  要:在使用深度学习辅助计算机字库生成汉字的过程中,常面临笔画黏连、笔画错误和风格细节不足等问题。为了提高生成模型的质量,结合字体设计行业的实际需求,构建了包含71种笔画、1 960个汉字字符的笔画标注数据集。该数据集涵盖了不同结构和复杂度的汉字,71种笔画是在GB13000.1标准的32类笔画基础上结合行业实际扩展出来的类别。使用Labelme工具对数据集进行人工标注,并将标注的汉字图像生成的JSON数据转换为VOC格式,最终得到8位笔画图像数据集。通过使用FCN、U-Net和Seg Net对数据集进行测试,并将原始图像与预测结果进行对比,结果显示预测效果良好,且评价指标MPA、MIoU及FWIoU所得数值均良好,证明了该数据集的有效性。In the process of using deep learning to assist computer character libraries in generating Chinese characters,there are often problems such as stroke sticking,stroke errors,and insufficient style details.To improve the quality of the generated model,this article combines the actual needs of the font design industry to construct a stroke annotation dataset containing 71 strokes and 1960 Chinese characters.This dataset covers Chinese characters with different structures and complexities,and 71 strokes are categories extended based on the 32 stroke categories in GB13000.1 standard and industry practice.This article uses the Labelme tool to manually annotate the dataset,and converts the JSON data generated from annotated Chinese character images into VOC format,ultimately obtaining an 8-bit stroke image dataset.This dataset is tested by FCN,U-Net,and SegNet.Compared the original images with the predicted results,it shows good prediction performance.And the values obtained from the evaluation indicators MPA,MIoU,and FWIoU are all good,which also proves the effectiveness of the dataset.

关 键 词:自定义数据集 字体风格迁移 笔画分割 深度学习 

分 类 号:TP391.14[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象