一种基于预训练模型的藏文分词方法  

A Tibetan Word Segmentation Method Based on Pre-Training Model

在线阅读下载全文

作  者:色差甲 桑杰端珠 才让加 慈祯嘉措 SE Chajia;SANGJIE Duanzhu;CAI Rangjia;CIZHEN Jiacuo(The State Key Laboratory of Tibetan Intelligent Information Processing and Application,Xining,Qinghai 810008,China;Tibetan Information Processing Engineering Technology and Research Center of Qinghai Province,Xining,Qinghai 810008,China)

机构地区:[1]省部共建藏语智能信息处理及应用国家重点实验室,青海西宁810008 [2]青海省藏文信息处理工程研究中心,青海西宁810008

出  处:《中文信息学报》2023年第12期70-75,共6页Journal of Chinese Information Processing

基  金:青海省重点研发与转化计划项目(2022-GX-104);藏文智能信息处理及应用国家重点实验室自主课题(2024-SKL-006)。

摘  要:藏文分词是藏语信息处理的基础与关键。虽然藏文分词技术得到了长足的进步,但在实际应用过程中仍面临着语料领域受限及未登录词问题。该文针对以上问题提出一种基于预训练语言模型的藏文分词方法,先在含有46.55亿字符的纯文本语料上进行预训练,然后利用人工标注的藏文分词语料进行进一步的微调。实验结果表明,该文所提出的藏文分词方法在MLIP2021语料上F_1值提高2.5个百分点,另外在新闻、语文、法律和自传等不同领域上分别提高4.6、6、4.2和2.3个百分点。Tibetan word segmentation is essential to Tibetan information processing.This paper proposes a Tibetan word segmentation method based on a pre-trained language model.The model is pre-trained on a plain text corpus containing 4.655 billion characters,and then fine-tuned by the manually annotated Tibetan word segmentation corpus.The proposed methodi improves the F1-score by 2.5%on the MLIP2021 corpus,and by 4.6%,6%,4.2%and 2.3%in news,literature,law and autobiography domains,respectively.

关 键 词:藏文分词 藏文文本语料 预训练模型 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象