检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:史学文 黄河燕 鉴萍 唐翼琨 SHI Xuewen;HUANG Heyan;JIAN Ping;TANG Yikun(Beijing Engineering Research Center on High Volume Language Information Processing and Cloud Computing Applications,School of Computer Science &Technology,Beijing Institute of Technology,Beijing 100081,China)
机构地区:[1]北京理工大学计算机学院,北京市海量语言信息处理与云计算应用工程技术研究中心,北京100081
出 处:《厦门大学学报(自然科学版)》2021年第4期693-700,共8页Journal of Xiamen University:Natural Science
基 金:国家重点研发计划(2017YFB1002103);国家自然科学基金(61732005)。
摘 要:利用神经机器翻译进行维吾尔语到汉语的翻译时,维吾尔语中的代词不区分性别,给翻译模型在汉语端使用正确的代词带来了挑战.另外,由于训练数据集中不同性别的代词使用频率差异明显,神经机器翻译倾向于输出阳性代词而不是更恰当的代词.基于此,利用汉语单语语料构造伪平行数据以扩展原训练集,缓解训练集本身的代词不平衡问题;并分别引入性别标记和翻译、性别预测联合建模两种方法,将代词性别预测显式地融入神经机器翻译的训练过程.在多个维汉翻译测试集上进行实验验证,结果表明该方法相对于基线系统,在不影响翻译质量的情况下缓解了翻译输出结果的性别偏见问题,在代词性别预测的精度上也有显著提升.The gender insensitivity of pronouns in Uyghur faces a challenge for neural machine translation(NMT)models to translate Uyghur to Chinese accurately.Furthermore,significant bias of usage rate between pronouns exists in different genders in the training corpus,prompting NMT to generate pronouns in the male gender but proper gender.To circumvent these problems,we expand the original training corpus by constructing pseudo data with Chinese monolingual data.The gender bias in the new constructed training data becomes less obvious.We also introduce two branches of methods to incorporate gender prediction into NMT explicitly by adding a special gender token and modeling the gender prediction and NMT jointly.We conduct our experiments related to three Uyghur-to-Chinese translation test sets.Experimental results show that the proposed method performs with less gender bias without affecting the quality of translation and gains more satisfactory gender prediction results.
分 类 号:TP391.2[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222