“细粒度英汉机器翻译错误分析语料库”的构建与思考  被引量:6

Construction of Fine-Grained Error Analysis Corpus of English-Chinese Machine Translation

在线阅读下载全文

作  者:裘白莲 王明文[1] 李茂西[1] 陈聪[1] 徐凡 QIU Bailian;WANG Mingwen;LI Maoxi;CHEN Cong;XU Fan(School of Computer and Information Engineering,Jiangxi Normal University,Nanchang,Jiangxi 330022,China;School of Foreign Languages,East China Jiaotong University,Nanchang,Jiangxi 330013,China)

机构地区:[1]江西师范大学计算机信息工程学院,江西南昌330022 [2]华东交通大学外国语学院,江西南昌330013

出  处:《中文信息学报》2022年第1期47-55,共9页Journal of Chinese Information Processing

基  金:国家自然科学基金(61876074,61662031,61772246);国家社会科学基金(19BYY121);教育部人文社科基金(21YJC740040)。

摘  要:机器翻译错误分析旨在找出机器译文中存在的错误,包括错误类型、错误分布等,它在机器翻译研究和应用中发挥着重要作用。该文将人工译后编辑与错误分析结合起来,对译后编辑操作进行错误标注,采用自动标注和人工标注相结合的方法,构建了一个细粒度英汉机器翻译错误分析语料库,其中每一个标注样本包括源语言句子、机器译文、人工参考译文、译后编辑译文、词错误率和错误类型标注;标注的错误类型包括增词、漏词、错词、词序错误、未译和命名实体翻译错误等。标注的一致性检验表明了标注的有效性;对标注语料的统计分析结果能有效地指导机器翻译系统的开发和人工译员的后编辑。Machine translation error analysis,including error classes and error distribution etc.Error analysis of machine translaution output,plays an important role in the research and application of machine translation.In this paper,post-editing is introduced into error analysis to annotate error labels.Automatic error annotation and manual annotation are applied to build a Fine-grained Error Analysis Corpus of English-Chinese Machine Translation(ErrAC),in which every annotated sample includes a source sentence,MT output,reference,post-edit,WER and error type.The annotated error types include addition,omission,lexical error,word order error,untranslated word,named entity translation error etc.Annotator agreement analysis shows the effectiveness of the annotation.The statistics and analysis based on the corpus provide effective guidance for the development of machine translation system and post-editing practice.

关 键 词:机器翻译 错误分析 错误标注 译后编辑 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象