一种基于预训练模型的藏文分词方法

A Tibetan Word Segmentation Method Based on Pre-Training Model

作　　者：色差甲桑杰端珠才让加慈祯嘉措 SE Chajia;SANGJIE Duanzhu;CAI Rangjia;CIZHEN Jiacuo(The State Key Laboratory of Tibetan Intelligent Information Processing and Application,Xining,Qinghai 810008,China;Tibetan Information Processing Engineering Technology and Research Center of Qinghai Province,Xining,Qinghai 810008,China)

机构地区：[1]省部共建藏语智能信息处理及应用国家重点实验室,青海西宁810008 [2]青海省藏文信息处理工程研究中心,青海西宁810008

出　　处：《中文信息学报》2023年第12期70-75,共6页Journal of Chinese Information Processing

基　　金：青海省重点研发与转化计划项目(2022-GX-104);藏文智能信息处理及应用国家重点实验室自主课题(2024-SKL-006)。

摘　　要：藏文分词是藏语信息处理的基础与关键。虽然藏文分词技术得到了长足的进步,但在实际应用过程中仍面临着语料领域受限及未登录词问题。该文针对以上问题提出一种基于预训练语言模型的藏文分词方法,先在含有46.55亿字符的纯文本语料上进行预训练,然后利用人工标注的藏文分词语料进行进一步的微调。实验结果表明,该文所提出的藏文分词方法在MLIP2021语料上F_1值提高2.5个百分点,另外在新闻、语文、法律和自传等不同领域上分别提高4.6、6、4.2和2.3个百分点。Tibetan word segmentation is essential to Tibetan information processing.This paper proposes a Tibetan word segmentation method based on a pre-trained language model.The model is pre-trained on a plain text corpus containing 4.655 billion characters,and then fine-tuned by the manually annotated Tibetan word segmentation corpus.The proposed methodi improves the F1-score by 2.5%on the MLIP2021 corpus,and by 4.6%,6%,4.2%and 2.3%in news,literature,law and autobiography domains,respectively.

关键词：藏文分词藏文文本语料预训练模型

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于预训练模型的藏文分词方法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于预训练模型的藏文分词方法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索