检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]西藏大学信息科学技术学院,西藏拉萨850000 [2]西藏自治区藏文信息技术人工智能重点实验室,西藏拉萨850000 [3]藏文信息技术教育部工程研究中心,西藏拉萨850000
出 处:《电脑知识与技术》2024年第12期4-7,11,共5页Computer Knowledge and Technology
基 金:西藏大学信息科学技术学院科技创新2030——“新一代人工智能”重大项目(2022ZD0116100)。
摘 要:不同的子词处理方式和数据规模对神经机器翻译的效果有重要影响。因此,在优化神经机器翻译时需要考虑语言和数据资源的差异性。选择合适的子词处理方式是一个具有挑战性的任务。文章采用Transformer模型,在不同的数据配置和子词处理方式下进行实验,旨在探究它们对汉-藏、汉-英翻译模型性能的影响,以找到在低资源情况下最有效、合适的机器翻译策略。实验结果表明,在相同的实验条件下,汉-英方向使用字节对编码的sentencepiece方法达到了最好的效果。而汉-藏方向则与之相反,subword-nmt方法效果最佳,sentencepiece方法效果最差,甚至不如不使用子词处理的模型。
关 键 词:低资源 机器翻译 藏语 TRANSFORMER 子词
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.195