基于层叠条件随机场的中文病历命名实体识别  被引量:19

Named entity recognition in Chinese medical records based on cascaded conditional random field

在线阅读下载全文

作  者:燕杨[1,2] 文敦伟[3] 王云吉[1] 王珂[1] 

机构地区:[1]吉林大学通信工程学院,长春130012 [2]长春师范大学计算机科学与技术学院,长春130032 [3]阿萨巴斯卡大学计算与信息系统学院

出  处:《吉林大学学报(工学版)》2014年第6期1843-1848,共6页Journal of Jilin University:Engineering and Technology Edition

基  金:吉林省科技发展计划项目(201201112)

摘  要:提出了一种基于层叠条件随机场的中文病历命名实体识别新方法,该方法在第一层条件随机场模型中实现对病历中身体基本部位或组织和基本疾病名称的识别,将识别结果传递到第二层条件随机场模型(Conditional Random Field,CRF),同时定义一个由词性和实体特征结合而成的组合特征,与字符特征、词边界特征及上下文特征共同作为第二层CRF模型的特征集,为疾病名称和临床症状两类命名实体的识别提供决策支持。在利用CRF++进行的开放测试中,本文模型相比于无自定义组合特征的层叠CRF模型,F值提高了3%;相比于单层CRF模型,F值提高了7%,总体性能有显著提高。A new method for named entity recognition in Chinese medical records based on cascaded Conditional Random Fields(CRFs)is proposed.The first layer of the cascaded CRFs is used to identify the basic named entities of body parts and diseases.Then,the identified results are fed to the second layer for recognition of nested named entities for complex diseases and clinical symptoms.A new combination feature,composed of part-of-speech features and named entity features,is defined.This new feature together with the character features,word boundary features and context features in a sentence are taken as the feature set of the second layer.In the experiments based on CRF++,the proposed method yields a 3% higher F-score than cascaded CRF without the combination feature.Moreover,compared to single layer CRF method,it yields a 7%higher F-score,a significant increase in overall performance.

关 键 词:信息处理技术 条件随机场 层叠条件随机场 中文病历 命名实体识别 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象