一种基于八词位标签的BiLSTM_CRF藏文分词方法被引量：1

An Eight-word-position Tag for Tibetan Word Segmentation via BiLSTM_CRF

作　　者：常芳玉才智杰[1,2] CHANG Fangyu;CAI Zhijie(College of Computer Science and Technology,Qinghai Normal University,Xining,Qinghai 810016,China;The State Key Laboratory of Tibetan Intelligent Information Processing and Application,Xining,Qinghai 810008,China)

机构地区：[1]青海师范大学计算机学院,青海西宁810016 [2]省部共建藏语智能信息处理及应用国家重点实验室,青海西宁810008

出　　处：《中文信息学报》2024年第10期64-70,79,共8页Journal of Chinese Information Processing

基　　金：国家自然科学基金(61966031,61866032);青海省科技厅资助项目(2019-SF-129,2021-ZJ-727);青海省藏文信息处理与机器翻译重点实验室(2020-ZJ-Y05);藏文信息处理教育部重点实验室(2013-Z-Y17,2014-Z-Y32,2015-Z-Y03)。

摘　　要：藏文分词是藏语自然语言处理的一项基础性任务,其性能影响藏文自动摘要、自动分类以及搜索引擎等多个方面。基于词位标注的藏文分词方法通常使用四词位标签集,为了更全面地提取特征信息和更深层次的语义信息,该文提出了一种八词位标签集,采用BiLSTM_CRF模型得到一种基于八词位标签的BiLSTM_CRF藏文分词方法。实验结果表明,该方法取得较好的分词效果,在测试数据集上的准确率、召回率和F1值分别达95.07%、95.57%和95.32%。Tibetan word segmentation is a fundamental task of Tibetan natural language processing affecting such tasks as Tibetan automatic summary,automatic classification,and search engines.Tibetan word segmentation at present uses the four-word-position tagging method.This paper proposes an eight-word-position tag approach to extract feature and deeper semantic information more comprehensively.The whole segmentation system adopts the BiLSTM_CRF framework.The experimental results demonstrate that the proposed method achieves 95.07%Tibetan word semination accuracy,95.57%recall and 95.32%F-measure,respectively.

关键词：自然语言处理藏文分词 BiLSTM_CRF 八词位标签

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于八词位标签的BiLSTM_CRF藏文分词方法被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于八词位标签的BiLSTM_CRF藏文分词方法 被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

一种基于八词位标签的BiLSTM_CRF藏文分词方法被引量：1