融合依存句法的深度学习藏语句子分割研究  

Deep Learning Based Tibetan Sentence Segmentation Through Dependency Syntax

在线阅读下载全文

作  者:头旦才让[1,2] 仁青东主 尼玛扎西 完么扎西 才藏太[1,2] Thupten Tsering;Rinchen Dhondub;Nyima Tashi;Pema Tashi;CAI Zangtai(The State Key Laboratory of Tibetan Intelligent Information Processing and Application,Qinghai Normal University,Xining,Qinghai 810008,China;School of Computer,Qinghai Normal University,Xining,Qinghai 810008,China;Minority Normal College,Qinghai Normal University,Xining,Qinghai 810008,China;School of Information Science and Technology,Tibet University,Lhasa,Tibet 850000,China)

机构地区:[1]青海师范大学省部共建藏语智能信息处理及应用国家重点实验室,青海西宁810008 [2]青海师范大学计算机学院,青海西宁810008 [3]青海师范大学民族师范学院,青海西宁810008 [4]西藏大学信息科学技术学院,西藏拉萨850000

出  处:《中文信息学报》2022年第10期73-80,共8页Journal of Chinese Information Processing

基  金:国家社会科学基金(19XYY021);青海省科技厅项目(2020-ZJ-704);藏语智能信息处理及应用国家重点实验室自主课题项目(2022-SKL-017)。

摘  要:藏语句子分割是藏语自然语言处理中的一项重要且基础性的研究工作。该文根据藏语句子结构特征,在分析藏语句子分割规则与难点的基础上,提出一种融合依存句法的藏语句子分割模型。该模型首先通过词嵌入和藏语依存句法信息嵌入将输入序列映射成实值向量;然后构建融合藏语依存句法的双向LSTM,拼接词语和句法信息特征,提高上下文时序特征的学习能力;最后利用CRF预测出最佳句子分割点。通过对比实验,验证了该模型对藏语句子分割的有效性。实验结果表明,该模型的F_(1)值为99.4%。Sentence segmentation is an essential task in Tibetan processing.According to the structural characteristics of Tibetan sentences,this paper proposes a deep Tibetan sentence segmentation model that integrates Tibetan-dependent syntax.The model first encodes the input sequence into word embedding and Tibetan-dependent syntactic information embedding,respectively.Then the two embeddings are concatenated and fed into a bidirectional LSTM to capture the sequential context.The final CRF layer is employed to predict the segmentation.The experimental results show that the F_(1) value of this model is 99.4%.

关 键 词:藏语 依存句法 双向LSTM+CRF 句子分割 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象