检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:陈林卿 李军辉 贡正仙 CHEN Linqing;LI Junhui;GONG Zhengxian(Natural Language Processing Lab,Soochow University,Suzhou,Jiangsu 215006,China)
机构地区:[1]苏州大学自然语言处理实验室,江苏苏州215006
出 处:《中文信息学报》2022年第9期67-75,共9页Journal of Chinese Information Processing
基 金:国家自然科学基金(61876120,61976148)。
摘 要:如何有效利用篇章上下文信息一直是篇章级神经机器翻译研究领域的一大挑战。该文提出利用来源于整个篇章的层次化全局上下文来提高篇章级神经机器翻译性能。为了实现该目标,该文提出的模型分别获取当前句内单词与篇章内所有句子及单词之间的依赖关系,结合不同层次的依赖关系以获取含有层次化篇章信息的全局上下文表示。最终源语言当前句子中的每个单词都能获取其独有的综合词和句级别依赖关系的上下文。为了充分利用平行句对语料在训练中的优势,该文使用两步训练法,在句子级语料训练模型的基础上使用含有篇章信息的语料进行二次训练以获得捕获全局上下文的能力。在若干基准语料数据集上的实验表明,该文提出的模型与若干强基准模型相比取得了有意义的翻译质量提升。实验进一步表明,结合层次化篇章信息的上下文比仅使用词级别上下文更具优势。除此之外,该文还尝试通过不同方式将全局上下文与翻译模型结合并观察其对模型性能的影响,并初步探究篇章翻译中全局上下文在篇章中的分布情况。How to effectively use textual context information is a challenge in the field of document-level neural machine translation(NMT).This paper proposes to use a hierarchical global context derived from the entire document to improve the document-level NMT models.The proposed model obtains the dependencies between the words in current sentence and all other sentences,as well as those between all words.Then the dependencies of different levels are combined as the global context containing the hierarchical contextual information.In order to take advantage of the parallel sentence in training,this paper employs a two-step training strategy:a sentence level model is first trained by the Transformer,and then fine-tuned on a document-level corpus.Experiments on several benchmark corpus data sets show that the proposed model significantly improves translation quality compared with other strong baseline models.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.145.48.156