面向人名消歧任务的人名识别系统  被引量:4

Personal Name Recognition for Multi-Document Personal Name Disambiguation Task

在线阅读下载全文

作  者:时迎超[1,2] 王会珍[1,2] 肖桐[1,2] 胡明涵[1,2] 

机构地区:[1]东北大学自然语言处理实验室,辽宁沈阳110819 [2]医学影像计算教育部重点实验室(东北大学),辽宁沈阳110819

出  处:《中文信息学报》2011年第3期17-22,共6页Journal of Chinese Information Processing

基  金:国家自然科学基金项目(60873091;61073140);辽宁省自然科学基金项目(20102063);中央高校基本科研业务费专项资金项目

摘  要:CLP2010(CIPS-SIGHAN Joint Conference on Chinese Language Processing)的人名消歧评测的任务是个聚类问题:对给定的一组文档,按照文档中出现的指定查询词所指向的人进行聚类。由于是用"字"串匹配的方法从新华社的语料库中抽出所有含有该查询词的文档。所以对于这个任务,首要问题是判定查询词是否是人名,是完整人名还是人名的一部分。为此该文实现了一个基于多实体识别系统整合和启发式规则的后处理方法的人名识别系统,从而实现对文档中的人名,特别是查询词所涉及的人名的识别。在CLP2010的评测方给的训练集上的实验表明,查询词涉及的人名的识别正确率达到98.89%。The track of personal name disambiguation evaluation in CLP2010(CIPS-SIGHAN Joint Conference on Chinese Language Processing) is essentially a clustering task: given a document set containing a query term string,group these documents by the entity each document refers to.The input files are the documents retrieved by character-based matching from a collection of Xinhua news documents.So for this task,the primary problem is to determine whether the query is a personal name(a full name or just part of name) or not.For this subtask,this paper presents a personal name recognition system based on the combination of multiple named entity recognition systems with heuristic rules based post-processing.The experiments on the training set of CLP2010 evaluation demonstrates a precision of 98.89%.

关 键 词:人名识别 人名消歧 系统整合 启发式规则 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象