基于小规模尾字特征的中文命名实体识别研究  被引量:26

Study on the Chinese Named Entity Recognition Using Small Scale Character Tail Hints

在线阅读下载全文

作  者:冯元勇[1] 孙乐[1] 张大鲲[1] 李文波[1] 

机构地区:[1]中国科学院软件研究所基础软件工程研究中心

出  处:《电子学报》2008年第9期1833-1838,共6页Acta Electronica Sinica

基  金:国家自然科学基金(No.60773027,60736044);863重点项目(No.2006AA010108);国家242项目计划(No.2006A40)

摘  要:本文针对难度最大的两类命名实体(地名和机构名)在条件随机场框架下首次引入了小规模的常用尾字特征.实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价显著提高专有名词的识别性能,特别是机构名的识别精度.该系统在我国863简体命名实体识别评测语料上专名(人名、地名和机构名)总体F1值达88.76%,超过当年最佳系统8.63个百分点.在SIGHAN 2006命名实体识别语料上的结果也居于前列.We propose small-scale-hint-character-list (SSHCL) features for location and organization names under the conditional random fields framework. As experiments show, SSHCL features provide significant gains in precision, especially for organization names,showing complementary property to part-of-speech.It also lowers construction and training cost greatly that a common large scale feature set demands. The overall proper nouns F1 measurement of integrated system on simple Chinese 863 program 2004 NER corpora reaches 88.76 %, gaining 8.63 % improvement over the best system in the evaluation. The performance on SIGHAN 2006 is also remarkable.

关 键 词:中文命名实体识别 小规模尾字特征 条件随机场 自然语言处理 机器学习 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象