检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李泽宇 殷锋[1] 陈赛飞扬 王小雪 LI Ze-yu;YIN Feng;CHEN Sai-fei-yang;WANG Xiao-xue(School of Computer Science and Engineering,Southwest Minzu University,Chengdu 610041,China)
机构地区:[1]西南民族大学计算机科学与工程学院,四川成都610041
出 处:《西南民族大学学报(自然科学版)》2024年第4期436-440,共5页Journal of Southwest Minzu University(Natural Science Edition)
基 金:四川省教育信息技术研究资助项目(DSJ2022036);成都市哲学社会科学规划资助项目(2022BS027);西南民族大学中央高校基本科研业务费专项资金资助项目(2022SZL20)。
摘 要:神经机器翻译技术有助于突破语言障碍,加强文化交流.针对低资源型语言平行语料匮乏而导致的神经机器翻译质量不佳等问题,研究在无监督SimCSE对比学习框架基础上,通过组合随机字符扰动、词嵌入替换、句子顺序变换等三类数据增强方法来生成正样本,使通过该方法训练出的句子嵌入涵盖更丰富的语义信息;然后,使用该对比学习方法,混合单语语料预训练句子嵌入;最后用少量平行语料进行微调.实验证明,在神经机器翻译中,BLEU值提高了2.69.Neural machine translation technology can help to break through the language barrier and strengthen cultural commu-nication.Aiming at the problems such as lack of parallel corpus and poor quality of neural machine translation,this paper com-bined three kinds of data augmentation methods to generate positive samples on unsupervised SimCSE comparative learning framework,so that the sentence embedment trained by this method could cover more semantic information.Then,using the com-parative learning method,the sentence embedding was pre-trained by mixing mono-language corpus.Finally,a small amount of parallel corpus was used to fine-tune the model.The experimental results showed that BLEU value was increased by 2.69.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.171