一种细粒度的汉语语义角色标注数据集的构建方法  被引量:1

Construction of a Finely-Grained Training Dataset for Chinese Semantic-Role Labeling

在线阅读下载全文

作  者:宋衡 曹存根[1] 王亚 王石[1] SONG Heng;CAO Cungen;WANG Ya;WANG Shi(Key Laboratory of Intelligent Information Processing,Institute of Computer Technology,Chinese Academy of Sciences,Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100049,China)

机构地区:[1]中国科学院计算技术研究所智能信息处理重点实验室,北京100190 [2]中国科学院大学,北京100049

出  处:《中文信息学报》2022年第12期52-66,73,共16页Journal of Chinese Information Processing

基  金:国家重点研发计划(2017YFC1700302,2017YFB1002300);国家自然科学基金(61702234);北京市科技新星计划交叉学科合作课题(Z191100001119014)。

摘  要:语义角色对自然语言的语义理解和分析有着重要的作用,其自动标注技术依赖良好的语义角色标注训练数据集。目前已有的大部分语义角色数据集在语义角色的标注上都不够精确甚至粗糙,不利于语义解析和知识抽取等任务。为了满足细粒度的语义分析,该文通过对实际语料的考察,提出了一种改进的汉语语义角色分类体系。在此基础上,以只有一个中枢语义角色的语料作为研究对象,提出了一种基于半自动方法的细粒度的汉语语义角色数据集构建方法,并构建了一个实用的语义角色数据集。截至目前,该工程一共完成了9550条汉语语句的语义角色标注,其中含有9423个中枢语义角色,29142个主要周边语义角色,3745个辅助周边语义角色,172条语句被进行了双重语义角色标注,以及104条语句被进行了不确定语义事件的语义角色标注。我们采用Bi-LSTM+CRF的基线模型在构建好的汉语语义角色数据集和公开的Chinese Proposition Bank数据集进行了关于主要周边语义角色的基准实验。实验表明,这两个语义角色数据集在主要周边语义角色自动识别方面存在差异,并且为提高主要周边语义角色的识别准确率提供了依据。Semantic roles play an important role in the natural language understanding,but most of the existing semantic-role training datasets are relatively rough or even misleading in labeling semantic roles.In order to facilitate the fine-grained semantic analysis,an improved taxonomy of Chinese semantic roles is proposed by investigating a real-world corpus.Focusing on a corpus formed with sentences with only one pivotal semantic role,we propose a semi-automatic method for fine-grained Chinese semantic role dataset construction.A corpus of 9,550 sentences has been labeled with 9,423 pivot semantic roles,29,142 principal peripheral semantic roles and 3,745 auxiliary peripheral semantic roles.Among them,172 sentences are double-labeled with semantic roles and 104 sentences are labeled with semantic roles of uncertain semantic events.With a Bi-LSTM+CRF model,we compare the dataset against the Chinese Proposition Bank and reveal differences in the recognition of principal peripheral semantic roles,which provide clues for further improvement.

关 键 词:语义角色 细粒度语义标注 汉语语义角色标注 汉语语义分析 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象