基于维基百科的中文嵌套命名实体识别语料库自动构建被引量：7

Automatic Construction of Chinese Nested Named Entity Recognition Corpus Based on Wikipedia

作　　者：李雁群何云琪钱龙华周国栋 LI Yanqun;HE Yunqi;QIAN Longhua;ZHOU Guodong(Natural Language Processing Laboratory,School of Computer Science and Technology, Soochow University,Suzhou,Jiangsu 215006,China)

机构地区：[1]苏州大学计算机科学与技术学院自然语言处理实验室,江苏苏州215006

出　　处：《计算机工程》2018年第11期76-82,共7页Computer Engineering

基　　金：国家自然科学基金(61373096;61331011;61673290)

摘　　要：传统的监督学习方法需要标注一定规模的领域内语料库,限制了其领域适应性。为此,提出一种从中文维基百科条目中自动构建中文嵌套命名实体识别语料库的方法。对中文维基百科的条目进行实体分类,利用实体条目构造实体的嵌套结构,从而自动生成大规模的中文嵌套命名实体识别语料库。在手工标注嵌套命名实体识别语料库上的实验结果表明,自动构建的语料库具有规模较大、领域广的特点,且能够适应宽泛领域上的中文嵌套命名实体识别任务。Traditional supervised learning method needs to label the corpus in a certain scale,which limits its domain adaptability.Therefore,a method of automatically constructing a Chinese nested named entity recognition corpus from Chinese Wikipedia entries is proposed.The Chinese Wikipedia entries are classified into entities entries,and the nested structure of the entities is constructed by using the entity entries,thereby automatically generating a large-scale Chinese nested named entity recognition corpus.Experimental results on the manually labeled nested named entity recognition corpus show that the automatically constructed corpus has the characteristics of large scale and wide field,and can adapt to the Chinese nested named entity recognition task in a wide range of fields.

关键词：嵌套命名实体识别信息抽取维基百科语料库条件随机场

分类号：TP311[自动化与计算机技术—计算机软件与理论]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于维基百科的中文嵌套命名实体识别语料库自动构建被引量：7

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于维基百科的中文嵌套命名实体识别语料库自动构建 被引量：7

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于维基百科的中文嵌套命名实体识别语料库自动构建被引量：7