检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘伍颖 王琳 LIU Wuying;WANG Lin(Center for Lingnistics and Applied Linguistics,Guangdong University of Foreign Studies,Guangzhou,Guangdong 510-120,China;Xianda College of Economics and Humanities,Shanghai International Studies University,Shanghai 200083,China)
机构地区:[1]广东外语外贸大学外国语言学及应用语言学研究中心,广东广州510420 [2]上海外国语大学贤达经济人文学院,上海200083
出 处:《中文信息学报》2023年第6期89-95,共7页Journal of Chinese Information Processing
基 金:教育部人文社会科学研究规划基金(20YJAZH069);上海市哲学社会科学“十三五”规划课题(2019BYY028);教育部人文社会科学研究青年基金(20YJC740062);广州市科技计划项目(202201010061)。
摘 要:双语句对资源稀缺导致一些基于深度学习的机器翻译算法无法在低资源机器翻译中取得更优的性能。因此该文针对低资源机器翻译中语言资源建设问题,提出语料循环推进思想,设计了多趟循环框架和半监督算法。这种框架是与具体机器翻译算法无关的元框架。而这种算法充分利用适当规模的双语种子资源和超大规模单语资源增量扩建双语句对资源,逐级训练机器翻译模型提高译文质量。多个语种的神经机器翻译实验结果证明,该文提出的语料循环推进能够利用源源不断的单语资源自我进化。其有效性不仅体现在易于实现高性能低资源机器翻译,更体现在是快速搭建精准领域机器翻译系统的实用选项。The scarcity of bilingual sentence pair resources prevents neural machine translation algorithms from better performance.To deal with the problem of language resource construction in low-resource machine translation,this paper proposes a corpus boosting strategy in a multi-loop framework and a semi-supervised algorithm.This framework is a meta-framework independent of specific machine translation algorithms.This algorithm makes full use of bilingual seed resources and large-scale monolingual resources to incrementally expand bilingual sentence pair resources.The experimental results of neural machine translation in multiple languages prove that our method can use a steady stream of monolingual resources to self-evolve.
关 键 词:语料循环推进 机器翻译 低资源语言 半监督学习 增量学习
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249