检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]广西民族大学人工智能学院,广西南宁530000 [2]广西民族大学东南亚语言文化学院,广西南宁530000
出 处:《电脑知识与技术》2024年第11期22-28,共7页Computer Knowledge and Technology
摘 要:缅甸语属于低资源语言,收集大量缅语文本进行预训练是一项耗时耗力的工作。目前已存在一些在多种语言(包括缅甸语)上预训练的模型,例如bert-base-multilingual-cased和xlm-roberta-base。因此,文章提出了一种新方法,即在多语言(包括缅甸语)预训练模型的基础上,利用缅语文本进行再预训练,以提升模型的分词性能。首先,构建了缅语预训练语料库,并使用它制作了一个仅包含缅甸语的tokenizer。然后,重置了多语言预训练模型的词嵌入层和位置编码层,并在重置后的多语言预训练模型上使用自制的tokenizer加入缅语预训练语料库进行再预训练。最后,在自建的以及公开的分词标注数据集上进行了微调。与未进行再预训练的情况相比,模型在F1值上分别提高了2.23%和1.2%,且自建数据集的提升幅度高出公开数据集的1.34%。
关 键 词:缅甸语 自然语言处理 自动分词 Roberta 语料库
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.248