检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张金超[1,2,3] 艾山.吾买尔 买合木提.买买提[4] 刘群 ZHANG Jinchao;Aishan Wumaier;Maihemuti Maimaiti;LIU Qun(Key Lhoratory of Intelligent Information Processing,Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100049,China;Tencent Technology(Beijing)CO.,Ltd.,Beijing 100080,China;School of Information Science and Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China;Dublin City University,Dublin,Ireland)
机构地区:[1]中国科学院计算技术研究所智能信息处理重点实验室,北京100190 [2]中国科学院大学,北京100049 [3]腾讯科技(北京)有限公司,北京100080 [4]新疆大学信息科学与工程学院,乌鲁木齐新疆830046 [5]都柏林城市大学
出 处:《中文信息学报》2018年第9期20-27,共8页Journal of Chinese Information Processing
基 金:国家自然科学基金(61331911;61262060);新疆多语种信息技术实验室开放课题(2016D03023);自治区青年科技创新人才培养工程青年博士项目(QN2015BS004)
摘 要:为提升维汉机器翻译模型的翻译能力,该文提出使用多编码器多解码器的结构,搭建大规模的维汉神经网络机器翻译模型。相比于单编码器单解码器的浅层的小模型,多编码器多解码器模型具有多个编码器,可以对源语言进行多层次、多视角的压缩表示;同时具有多个解码器,可以增强目标语言的生成能力。实验证明,在大规模的训练数据上,使用该方法搭建的大规模维汉神经网络机器翻译模型,译文质量可以大幅度地超过基于短语的统计机器翻译模型和基本的神经网络翻译模型。该文还针对维汉翻译源端语言和目标端语言的翻译单元粒度进行了实验,发现维吾尔语端使用字节对编码单元、汉语端使用字单元,可以消除对汉语分词器的依赖,做到和双端都使用字节对编码单元可比的效果。To enhance the translation ability of Uyghur-Chinese translation model,the paper proposes a large-scale Neural Machine Translation system based on multiple encoders and decoders.Compared with the encoder-decoder based shallow model,the proposed model consists of multiple encoders to represent the source sentence in multiple perspectives and has multiple decoders to extend the generation ability of the target sentence.The experiments on the big training corpus show that the translation quality of the proposed model surpasses phrase-based Statistical Machine Translation model and the basic Neural Machine Translation model.The paper also investigates the granularity of the translation unit and reveal that it is effective to employ the Byte Pair Encoding unit for Uyghur and character unit for Chinese to avoid the Chinese word segmentor and achieve comparable performance with BPE-BPE systems.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222