融入翻译记忆库的法律领域神经机器翻译方法  被引量:2

Legal neural machine translation based on translation memory

在线阅读下载全文

作  者:曾文颢 张勇丙 余正涛[1,2] 赖华[1,2] Zeng Wenhao;Zhang Yongbing;Yu Zhengtao;Lai Hua(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China;Yunnan Key Laboratory of Artificial Intelligence,Kunming University of Science and Technology,Kunming 650500,China)

机构地区:[1]昆明理工大学信息工程与自动化学院,云南昆明650500 [2]昆明理工大学云南省人工智能重点实验室,云南昆明650500

出  处:《电子技术应用》2023年第9期39-45,共7页Application of Electronic Technique

基  金:国家自然科学基金(61732005,61972186,U21B2027);云南省重大科技专项(202103AA080015,202203AA080004,202002AD080001);云南省高新技术产业专项(201606)。

摘  要:面向法律领域的神经机器翻译对于合同文本翻译等应用场景具有重要价值。由于法律领域双语对齐语料稀缺,翻译效果还不理想。针对该问题,目前有效的方法是融入翻译记忆或翻译模版等外部信息,但法律领域的文本多具有固定的表达结构且用词准确规范,在翻译记忆库中同时利用翻译结构信息和语义信息能够进一步提升法律领域翻译性能。基于此,提出一种融入翻译记忆库的法律领域机器翻译方法。提出了一种新的法律领域翻译记忆库,首先基于语义和结构信息的相似性训练跨语言检索模型以充分利用单语数据,然后从翻译记忆库中检索与输入源句相关的一组翻译记忆和翻译模版,进而引导翻译模型生成目标句子。实验表明,在MHLAW数据集上,提出的方法可以使译文较基线模型提升1.28个BLEU点。Neural machine translation for the legal domain is of great value for application scenarios such as contract text translation.Due to the scarcity of bilingual corpora in the legal domain,the machine translation performance is still not satisfactory.A practical method to address this problem is to integrate prior knowledge such as translation memory(TM)or templates.However,texts in the legal domain mostly have fixed expression structures and precise wording specifications.The performance of translation in the legal field can be further improved by using both sentence structure information and semantic information in the translation memory.Based on this,this paper proposes a new framework that uses monolingual TM and performs learnable memory retrieval in a cross-language manner.Firstly,this monolingual translation memories contain translation memory and translation template,which can provide richer external knowledge to the model.Secondly,the retrieval model and the translation model can be jointly optimized.Experiments on the MHLAW dataset show that this model surpasses baseline models up to 1.28 BLEU points.

关 键 词:神经机器翻译 语义信息 结构信息 翻译记忆 翻译模版 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象