检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:色差甲 桑杰端珠 才让加 慈祯嘉措 SE Chajia;SANGJIE Duanzhu;CAI Rangjia;CIZHEN Jiacuo(The State Key Laboratory of Tibetan Intelligent Information Processing and Application,Xining,Qinghai 810008,China;Tibetan Information Processing Engineering Technology and Research Center of Qinghai Province,Xining,Qinghai 810008,China)
机构地区:[1]省部共建藏语智能信息处理及应用国家重点实验室,青海西宁810008 [2]青海省藏文信息处理工程研究中心,青海西宁810008
出 处:《中文信息学报》2023年第12期70-75,共6页Journal of Chinese Information Processing
基 金:青海省重点研发与转化计划项目(2022-GX-104);藏文智能信息处理及应用国家重点实验室自主课题(2024-SKL-006)。
摘 要:藏文分词是藏语信息处理的基础与关键。虽然藏文分词技术得到了长足的进步,但在实际应用过程中仍面临着语料领域受限及未登录词问题。该文针对以上问题提出一种基于预训练语言模型的藏文分词方法,先在含有46.55亿字符的纯文本语料上进行预训练,然后利用人工标注的藏文分词语料进行进一步的微调。实验结果表明,该文所提出的藏文分词方法在MLIP2021语料上F_1值提高2.5个百分点,另外在新闻、语文、法律和自传等不同领域上分别提高4.6、6、4.2和2.3个百分点。Tibetan word segmentation is essential to Tibetan information processing.This paper proposes a Tibetan word segmentation method based on a pre-trained language model.The model is pre-trained on a plain text corpus containing 4.655 billion characters,and then fine-tuned by the manually annotated Tibetan word segmentation corpus.The proposed methodi improves the F1-score by 2.5%on the MLIP2021 corpus,and by 4.6%,6%,4.2%and 2.3%in news,literature,law and autobiography domains,respectively.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.189.141.66