基于树库转换的藏语依存句法树库构建方法  被引量:2

Construction of the Tibetan Dependency Treebank Based on Treebank Conversion

在线阅读下载全文

作  者:周毛克 龙从军[3] 赵小兵 李林霞[1,2] ZHOU Maoke;LONG Congjun;ZHAO Xiaobing;LI Linxia(School of Chinese Ethnic Minority Languages and Literatures,Minzu University of China,Beijing 100081,China;National Language Resource Monitoring and Research Center of Minority Languages,Beijing 100081,China;Institute of Ethnology and Anthropology,Chinese Academy of Social Sciences,Beijing 100081,China;School of Information Engineering,Minzu University of China,Beijing 100081,China)

机构地区:[1]中央民族大学中国少数民族语言文学学院,北京100081 [2]国家语言资源监测与研究少数民族语言中心,北京100081 [3]中国社会科学院民族学与人类学研究所,北京100081 [4]中央民族大学信息工程学院,北京100081

出  处:《中文信息学报》2022年第7期77-85,97,共10页Journal of Chinese Information Processing

基  金:国家语委中心项目(ZDI135-98);中央民族大学研究生科研实践项目(BZKY2022073)。

摘  要:构建藏语依存树库是实现藏语句法分析的重要基础,对藏语本体研究和信息处理具有重要价值。基于此,该文提出了一种基于树库转换的藏语依存树库构建方法。该方法首先扩充了前期构建的藏语短语结构树库,然后根据藏语短语结构树和依存树的特征设计树库转换规则,实现藏语短语结构树到依存结构树的初步转换,最后对自动转换结果进行人工校验,得到了2.2万句藏语依存树。为了对转换结果做出量化评价,该文抽取了依存树库中5%的依存树,对其依存关系进行校验和统计,最终依存关系的准确率达到89.36%,中心词的准确率达到92.09%。此外,该文使用基于神经网络的句法分析模型验证了依存树库的有效性。在该模型上,UAS值和LAS值分别达到83.62%和81.90%。研究证明,使用半自动的树库转换方法能够有效地完成藏语依存树库构建工作。The construction of the Tibetan Dependency Treebank is a fundamental task for subsequent technology development.This paper proposes a method for constructing a Tibetan Dependency Treebank based on treebank conversion.First,the existing Tibetan Phrase Structure Treebank is expanded.Then,treebank conversion rules are designed based on the characteristics of the Tibetan phrase structure tree and the dependency tree.Finally,the automatic conversion result is proofread manually,achieving 22,000 Tibetan dependency trees.This paper extracts 5%of the sentences in the dependency treebank,and the accuracy rate of the dependency relationship of the final sample reached 89.36%,and the head word reached 92.09%.A neural network-based dependency parsing model trained by the treebank achieves 83.62%UAS and 81.90%LAS.

关 键 词:藏语 依存树库 树库转换 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象