检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李雁群 何云琪 钱龙华 周国栋 LI Yanqun;HE Yunqi;QIAN Longhua;ZHOU Guodong(Natural Language Processing Laboratory,School of Computer Science and Technology, Soochow University,Suzhou,Jiangsu 215006,China)
机构地区:[1]苏州大学计算机科学与技术学院自然语言处理实验室,江苏苏州215006
出 处:《计算机工程》2018年第11期76-82,共7页Computer Engineering
基 金:国家自然科学基金(61373096;61331011;61673290)
摘 要:传统的监督学习方法需要标注一定规模的领域内语料库,限制了其领域适应性。为此,提出一种从中文维基百科条目中自动构建中文嵌套命名实体识别语料库的方法。对中文维基百科的条目进行实体分类,利用实体条目构造实体的嵌套结构,从而自动生成大规模的中文嵌套命名实体识别语料库。在手工标注嵌套命名实体识别语料库上的实验结果表明,自动构建的语料库具有规模较大、领域广的特点,且能够适应宽泛领域上的中文嵌套命名实体识别任务。Traditional supervised learning method needs to label the corpus in a certain scale,which limits its domain adaptability.Therefore,a method of automatically constructing a Chinese nested named entity recognition corpus from Chinese Wikipedia entries is proposed.The Chinese Wikipedia entries are classified into entities entries,and the nested structure of the entities is constructed by using the entity entries,thereby automatically generating a large-scale Chinese nested named entity recognition corpus.Experimental results on the manually labeled nested named entity recognition corpus show that the automatically constructed corpus has the characteristics of large scale and wide field,and can adapt to the Chinese nested named entity recognition task in a wide range of fields.
关 键 词:嵌套命名实体识别 信息抽取 维基百科 语料库 条件随机场
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117