基于语料库的明清小说人名与称谓研究  被引量:4

A Corpus-Based Study on Personal Names and Terms of Address in Chinese Classical Novels

在线阅读下载全文

作  者:熊丹[1] 陆勤[1] 罗凤珠 石定栩[3] 赵天成[1] 

机构地区:[1]香港理工大学电子计算学系 [2]台湾元智大学中国语文学系 [3]香港理工大学中文及双语学系

出  处:《中文信息学报》2015年第1期19-27,43,共10页Journal of Chinese Information Processing

基  金:2009年度蒋经国国际学术交流基金会"历代语言知识库建置计划"(RG013-D-09)

摘  要:在自然语言处理及其应用领域,人名和称谓作为重要的命名实体,是信息处理的关键部分之一。该文从命名实体识别和资讯提取的角度出发,在对4部明清古典小说的语料库进行标注的前提下,建构了姓名、字号和称谓作为命名实体的分类及标注系统。人名和称谓总体上分为单一型和复合型,根据复合型的内部组成元素和组合方式,将其进一步分为固定式、同位式、附属嵌套式、灵活嵌套式。结合语料库的完整数据统计,该文对各类型人名和称谓进行了比较分析,并分别展示了4部名著在人名、称谓使用上的特点。Personal names and terms of address are important parts of named entities. The recognition of personal names as well as terms of address is ans essential issue in natural language processing. This paper presents a classifi- cation and annotation scheme for personal names and terms of address from the perspective of named entity recogni- tion and information extraction on a corpus of four Chinese classical novels. Personal names and terms of address are categorized into simple types and compound types. And the compound-type is further categorized into four subtypes, fixed expressions, appositive constructions, subordinate constructions of affiliation, and other subordinate construc- tions. This paper also presents a comparative analysis on these types and the characteristics of the four novels based on full statistics of the annotated corpus.

关 键 词:命名实体标注 人名和称谓分类 语料库构建 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象