汉语块依存语法与树库构建  被引量:1

Chinese Chunk-based Dependency Grammar and Its Treebank

在线阅读下载全文

作  者:钱青青 王诚文 荀恩东[1] 王贵荣 饶高琦[1,3] QIAN Qingqing;WANG Chengwen;XUN Endong;WANG Guirong;RAO Gaoqi(School of Information Science,Beijing Language and Culture University,Beijing 100083,China;MOE Key Laboratory of Computational Linguistics,Peking University,Beijing 100871,China;Research Institute of International Chinese Language Education,Beijing Language and Culture University,Beijing 100083,China)

机构地区:[1]北京语言大学信息科学学院,北京100083 [2]北京大学计算语言学教育部重点实验室,北京100871 [3]北京语言大学汉语国际教育研究院,北京100083

出  处:《中文信息学报》2022年第7期50-58,共9页Journal of Chinese Information Processing

基  金:国家语委项目(ZDI135-114)。

摘  要:该文提出了以谓词为核心的块依存语法,以谓词为核心,以组块为研究对象,在句内和句间寻找谓词所支配的组块,利用汉语中组块和组块间的依存关系补全缺省部分,明确谓词支配关系。根据块依存文法体系,目前共标注2199篇文本,涵盖百科、新闻两个领域,共约180万字语料。该文简述了块依存文法的原则,并对组块及其依存关系进行了定义。该文详细介绍了标注流程、标注一致率、数据分布等情况。基于现有的树库,该文发现汉语中有约25%的小句是非自足的,约有88%的核心谓词可支配1~3个从属成分。This paper presents a Chinese Chunk-Based Dependency Grammar(CCDG).With this grammar,predicate-dominated chunks can be found within and between sentences,and default parts of sentences can be completed by the relations between chunks.This paper describes the principles of CCDG and defines the chunks and relations.We have annotated 2199 texts,altogether 1800,000 words from encyclopedia and news texts based on the CCDG.The annotation procedure,label consistency,data distribution,and so on are described in detail.Based on current treebank,it is found that about 25%of clauses in Chinese are not self-sufficient,and about 88%of core predicates govern 1-3 subordinate components.

关 键 词:组块 块依存语法 树库 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象