基于中文AMR语料库的非投影结构研究  被引量:2

Research on Non-projective Structure Based on the Chinese Abstract Meaning Representation Corpus

在线阅读下载全文

作  者:闻媛[1] 宋丽[1] 吴泰中 李斌[1] 周俊生[2] 曲维光[2,3] WEN Yuan;SONG Li;WU Taizhong;LI Bin;ZHOU Junsheng;QU Weiguang(School of Chinese Language and Literature,Nanjing Normal University,Nanjing,Jiangsu 210097,China;School of Computer Science and Technology,Nanjing Normal University,Nanjing,Jiangsu 210023,China;Fujian Provincial Key Laboratory of Information Processing and Intelligent Control, Minjiang University,Fuzhou,Fujian 350121,China)

机构地区:[1]南京师范大学文学院,江苏南京210097 [2]南京师范大学计算机科学与技术学院,江苏南京210023 [3]闽江学院福建省信息处理与智能控制重点实验室,福建福州350121

出  处:《中文信息学报》2018年第12期31-40,共10页Journal of Chinese Information Processing

基  金:国家社会科学基金(18BYY127)

摘  要:非投影结构是指依存树上的词语节点与原句中的词语序列出现错位的现象,对于句法分析器的影响较大,在语言理论上也有较大研究价值。在世界多种语言的依存树或图库上,都发现了含有非投影结构的句子,并对比展开了相关研究。而汉语的非投影结构尚未得到重视,语料库构建过程中也因遵循了投影性原则而缺乏对非投影结构的标注。该文基于概念对齐版的中文AMR语料库,在10 149句语料上统计出带有非投影结构的句子比例为31.62%,其三种主要类型为模态词提升、话题化和成分分离,并提出了相应的自动分析方案,以提高中文AMR自动分析效果。The non-projective structure refers to the phenomenon that the word nodes on the dependency tree are misplaced with different word sequence in the original sentence.It has not been discussed in Chinese,following only the projection principle in the construction of Chinese dependency corpus.In this paper,we construct a Chinese abstract meaning representation(AMR)corpus of 10 149 sentences,in which 31.62% sentences have non-projective structures.Then we distinguish the three main types of the non-projective structures,modal words,topicalization and the component separation.Finally,we provide the solutions for the structures in the AMR parsing.

关 键 词:抽象语义表示 概念对齐 非投影 语义分析 中文信息处理 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象