基于Transformer的汉字到盲文端到端自动转换  

End-to-End Chinese-Braille Automatic Conversion Based on Transformer

在线阅读下载全文

作  者:蒋琪 苏伟[1] 谢莹 周弘安平 张久文[1] 蔡川[1] JIANG Qi;SU Wei;XIE Ying;ZHOUHONG An-ping;ZHANG Jiu-wen;CAI Chuan(School of Information Science&Engineering,Lanzhou University,Lanzhou 730000,China;China Braille Press,Beijing 100142,China)

机构地区:[1]兰州大学信息科学与工程学院,兰州730000 [2]中国盲文出版社,北京100142

出  处:《计算机科学》2021年第S02期136-141,共6页Computer Science

基  金:国家自然科学基金项目(61772006);中国残联-中国盲人协会专项项目((14)0218);广西科技项目(桂科AA17204096,桂科AB17129012);广西“八桂学者”专项资助。

摘  要:汉字到盲文自动转换是改善我国1700万视障人群生活学习和贯彻落实国家信息无障碍建设的重要问题。现有汉盲转换方法均采用多步转换方法,先对汉字文本进行盲文分词连写,再对汉字进行标调,最后结合分词和标调信息合成盲文文本。该文提出一种基于编码器-解码器模型Transformer的端到端汉盲转换方法,利用汉字-盲文对照语料库训练Transformer模型。基于《人民日报》六个月约1200万字中文语料,该文构建了国家通用盲文、现行盲文、双拼盲文三种对照汉盲语料库。实验结果表明,该文提出的方法可将汉字一步转换为盲文,并在国家通用盲文、现行盲文、双拼盲文分别有80.25%,79.08%和79.29%的BLEU值。相比现有汉盲转换方法,该方法所需语料库的建设难度较小,且工程复杂度较低。Chinese-Braille automatic conversion concerns the life and learning of 17 million visually impaired people in China and the national information accessibility construction.All existing Chinese-Braille conversion methods adopt multi-step process,which firstly segment Chinese text according to Braille word segmentation rules,then mark tone for Chinese characters.This paper studies end-to-end deep learning system that directly converts Chinese into Braille.The encoder-decoder model transformer is trained on Chinese-Braille corpus.Based on six-month data of People’s Daily,totaling about 12 million characters,this paper builds three Chinese-Braille corpora of Chinese common Braille,current Braille and Chinese double-phonic Braille systems.The experimental results show that the method proposed in this paper can convert Chinese into Braille in one step,and reaches BLEU score of 80.25%,79.08%and 79.29%in Chinese common Braille,current Braille and Chinese double-phonic Braille.Compared with the existing methods,this method requires a corpus which is less difficult to construct and the engineering complexity is lower.

关 键 词:汉盲转换 端到端深度学习 编码器-解码器模型 TRANSFORMER 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象