译文语序的领域性思考:一种融合主题信息的领域自适应调序模型  

Domain Adaptation of Reordering Model via Topic Information:Word Order in Translated Text across Domains

在线阅读下载全文

作  者:刘梦眙 姚亮 洪宇[1] 刘昊[1] 姚建民[1] 

机构地区:[1]苏州大学计算机科学与技术学院,江苏苏州215006

出  处:《中文信息学报》2017年第5期50-58,共9页Journal of Chinese Information Processing

基  金:国家自然科学基金(61373097;61672368;61672367;61331011);江苏省科技计划(SBK2015022101);教育部-中国移动科研基金(MCM20150602)

摘  要:领域自适应研究的目标是建立一种动态调整翻译模型,使翻译模型对目标领域的语言特征具备较强的学习和处理能力,借以保证翻译系统在不同领域获得平衡可靠的翻译能力。现有翻译模型的自适应研究已经取得显著进展,但调序过程的领域适应性研究相对较少。在该文前期工作中通过对大规模源语言和目标语言的真实互译样本统计发现,在语义等价的短语级互译对子中,36.17%的样本在不同领域中的语序存在显著差异。针对这一问题,该文从主题角度出发,探索不同主题分布下的短语调序差异,提出一种融合主题信息的领域自适应调序模型。实验结果显示,嵌入调序适应性模型的翻译系统取得了较为明显的性能优势。The research on domain adaptation(DA)for statistical machine translation(SMT)aims at dynamically adjusting the translation model to ensure balanced and reliable translation quality in different domains.Existing researches on adaptation of translation model have made remarkable progress,but neglect the reordering issue.This paper investigates the translation samples in a large scale source bilingual corpus,revealing that 36.17% samples exhibits clear word order differences in phrase level translation pairs.Therefore,we propose a domain adaptive reordering model based on fusing topic information,to explore the reordering differences of phrases under different topic distribution.Experimental results show that translation systems with adaptive reordering model yield obvious performance improvements.

关 键 词:统计机器翻译 领域适应性 调序模型 主题模型 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象