不同子词处理方法对机器翻译的影响研究  被引量:2

在线阅读下载全文

作  者:唐超超 拥措 仁青卓玛 

机构地区:[1]西藏大学信息科学技术学院,西藏拉萨850000 [2]西藏自治区藏文信息技术人工智能重点实验室,西藏拉萨850000 [3]藏文信息技术教育部工程研究中心,西藏拉萨850000

出  处:《电脑知识与技术》2024年第12期4-7,11,共5页Computer Knowledge and Technology

基  金:西藏大学信息科学技术学院科技创新2030——“新一代人工智能”重大项目(2022ZD0116100)。

摘  要:不同的子词处理方式和数据规模对神经机器翻译的效果有重要影响。因此,在优化神经机器翻译时需要考虑语言和数据资源的差异性。选择合适的子词处理方式是一个具有挑战性的任务。文章采用Transformer模型,在不同的数据配置和子词处理方式下进行实验,旨在探究它们对汉-藏、汉-英翻译模型性能的影响,以找到在低资源情况下最有效、合适的机器翻译策略。实验结果表明,在相同的实验条件下,汉-英方向使用字节对编码的sentencepiece方法达到了最好的效果。而汉-藏方向则与之相反,subword-nmt方法效果最佳,sentencepiece方法效果最差,甚至不如不使用子词处理的模型。

关 键 词:低资源 机器翻译 藏语 TRANSFORMER 子词 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象