BFS-CTC汉语句义结构标注语料库  被引量:5

BFS-CTC: A Chinese Corpus of Sentential Semantic Structure

在线阅读下载全文

作  者:刘盈盈[1] 罗森林[1] 冯扬[1] 韩磊[1] 陈功[1] 王倩[1] 

机构地区:[1]北京理工大学信息与电子学院信息安全与对抗技术实验室,北京100081

出  处:《中文信息学报》2013年第1期72-80,共9页Journal of Chinese Information Processing

基  金:国家242项目(2005C48);北京理工大学科技创新计划重大项目培育专项计划资助(2011CX01015)

摘  要:句义结构分析是汉语语义分析中不可逾越的重要环节,为了满足汉语句义结构分析的需要,基于现代汉语语义学理论构建了一种层次化的汉语句义结构模型,定义了标注规范和标记形式,建设了一个汉语句义结构标注语料库BFS-CTC(Beijing Forest Studio-Chinese Tagged Corpus)。标注内容方面,基于句义结构模型的定义标注了句义结构句型层、描述层、对象层和细节层中所包含的各个要素及其组合关系,包括句义类型、谓词及其时态、语义格类型等信息,并且提供了词法和短语结构句法信息,便于词法、句法、句义的对照分析研究;语料库组织结构方面,该语料库包括四个部分,即原始句子库、词法标注库、句法标注库和句义结构标注库,可根据研究的需要,在词法、句法、句义结构标注的基础上进行深加工,在核心标注库的基础上添加更多具有针对性的扩展标注库,利用句子的唯一ID号进行识别和使用;语料来源和规模方面,语料全部来自新闻语料,经过人工收集、整理,合理覆盖了主谓句、非主谓句、把字句等六种主要句式类型,规模已达到10 000句。同其他语义标注库相比,BFS-CTC基于现代汉语语义学,提供了多层次的句义结构标注信息,兼容进行了词法和语法标注,各类标注既可以单独使用也可综合使用进行横向分析,可用于自然语言处理多方面的研究,进一步推动汉语语义分析的研究和发展。Sentential semantic structure analysis is an important issue in Chinese semantic analysis. Based on the Modern Chinese Semantics, this paper establishes a hierarchical Chinese sentential semantic structure model, defines the standard and the tagset, and thus constructs a Chinese corpus of sentential senmantic structure: BFS-CTC (Bei- jing Forest Studio - Chinese Tagged Corpus). All sentences in this corpus are tagged on the lexical, the syntactic and the whole sentential semantic structure levels, and it is easy to analyze the relation between syntax and seman tics. The core of BFCTC is consists of four banks: the original sentence bank (OSB), the lexical tagged bank (LTB), the syntax tagged bank (STB) and the semantic structure tagged bank (SSTB). The more than 10,000 sentences in current version come from news texts, covering six major sentence types in Chinese.

关 键 词:自然语言处理 语义标注 句义结构 语料库 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象