检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:头旦才让[1,2] 仁青东主 尼玛扎西 完么扎西 才藏太[1,2] Thupten Tsering;Rinchen Dhondub;Nyima Tashi;Pema Tashi;CAI Zangtai(The State Key Laboratory of Tibetan Intelligent Information Processing and Application,Qinghai Normal University,Xining,Qinghai 810008,China;School of Computer,Qinghai Normal University,Xining,Qinghai 810008,China;Minority Normal College,Qinghai Normal University,Xining,Qinghai 810008,China;School of Information Science and Technology,Tibet University,Lhasa,Tibet 850000,China)
机构地区:[1]青海师范大学省部共建藏语智能信息处理及应用国家重点实验室,青海西宁810008 [2]青海师范大学计算机学院,青海西宁810008 [3]青海师范大学民族师范学院,青海西宁810008 [4]西藏大学信息科学技术学院,西藏拉萨850000
出 处:《中文信息学报》2022年第10期73-80,共8页Journal of Chinese Information Processing
基 金:国家社会科学基金(19XYY021);青海省科技厅项目(2020-ZJ-704);藏语智能信息处理及应用国家重点实验室自主课题项目(2022-SKL-017)。
摘 要:藏语句子分割是藏语自然语言处理中的一项重要且基础性的研究工作。该文根据藏语句子结构特征,在分析藏语句子分割规则与难点的基础上,提出一种融合依存句法的藏语句子分割模型。该模型首先通过词嵌入和藏语依存句法信息嵌入将输入序列映射成实值向量;然后构建融合藏语依存句法的双向LSTM,拼接词语和句法信息特征,提高上下文时序特征的学习能力;最后利用CRF预测出最佳句子分割点。通过对比实验,验证了该模型对藏语句子分割的有效性。实验结果表明,该模型的F_(1)值为99.4%。Sentence segmentation is an essential task in Tibetan processing.According to the structural characteristics of Tibetan sentences,this paper proposes a deep Tibetan sentence segmentation model that integrates Tibetan-dependent syntax.The model first encodes the input sequence into word embedding and Tibetan-dependent syntactic information embedding,respectively.Then the two embeddings are concatenated and fed into a bidirectional LSTM to capture the sequential context.The final CRF layer is employed to predict the segmentation.The experimental results show that the F_(1) value of this model is 99.4%.
关 键 词:藏语 依存句法 双向LSTM+CRF 句子分割
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.66