Bi⁃LSTM和CRF结合的藏文分词方法研究  被引量:2

Research on Tibetan Word Segmentation Method Combining Bi⁃LSTM and CRF

在线阅读下载全文

作  者:格桑加措 阿卜杜热西提·热合曼 尼玛扎西[1] 面加 肖桐 朱靖波 KALZANG Gyatso;REHEMAN Abudurexiti;MEN Gyal;NYIMA Tashi;XIAO Tong;ZHU Jingbo(Tibetan Language Information Technology Ministry of Education Engineering Research Center,Tibet University,Tibet 850000,China;NLP Lab,Northeastern University,Shenyang 110000,China;University of Tibetan Medicine,Tibet 850000,China)

机构地区:[1]西藏大学藏文信息技术教育部工程研究中心,西藏拉萨850000 [2]东北大学自然语言处理实验室,辽宁沈阳110000 [3]西藏藏医药大学,西藏拉萨850000

出  处:《中央民族大学学报(自然科学版)》2024年第3期40-46,共7页Journal of Minzu University of China(Natural Sciences Edition)

基  金:新一代人工智能国家科技重大专项(2022ZD0116101);国家自然科学基金(62276056);辽宁省自然科学基金(2022-KF-16-01);云南省科技厅科技计划项目(202103AA080015);中央高校基本科研业务费项目(N2216016、N2216001、N2216002);111引智基地(B16009)。

摘  要:本研究旨在探索基于双向长短时记忆网络(Bi⁃LSTM)和条件随机场(CRF)的藏语分词方法。研究评估了Bi⁃LSTM和Bi⁃LSTM结合CRF模型在藏文分词任务中的性能,针对未登录音节词进行了模型优化。研究还将分词系统应用到CCMT2023藏汉机器翻译任务中,并进行了评估。实验结果表明,本文提出的分词系统在藏语分词任务中具有良好的性能,并且在藏汉机器翻译任务上有效提升了性能。The goal of this study is to explore a Tibetan word segmentation method based on Bi⁃di⁃rectional Long⁃Short⁃Term Memory network(Bi⁃LSTM)and Conditional Random Field(CRF).Firstly,the performance of word segmentation efficiency of Bi⁃LSTM and Bi⁃LSTM fusion CRF model is evaluated,and then the model is optimized for out⁃of⁃vocabulary syllables.Then,the word seg⁃mentation system is applied to CCMT2023 Tibetan⁃Chinese machine translation task and evaluated its translation performance.Experimental results show that the proposed the word segmentation sys⁃tem performs well in Tibetan word segmentation task,and can effectively improve the performance of Tibetan⁃Chinese machine translation task.

关 键 词:藏语分词 LSTM CRF 未登录音节字 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象