检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:曲春燕[1] 关毅[1] 杨锦锋[1] 赵永杰[2] 刘雅欣[3]
机构地区:[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001 [2]哈尔滨医科大学附属第四医院,哈尔滨150001 [3]哈尔滨医科大学附属第二医院,哈尔滨150001
出 处:《高技术通讯》2015年第2期143-150,共8页Chinese High Technology Letters
基 金:国家自然科学基金(60975077)资助项目
摘 要:针对中文电子病历命名实体语料标注空白的现状,研究了中文电子病历命名实体标注语料库的构建。参考2010年美国国家集成生物与临床信息学研究中心(1282)给出的电子病历命名实体类型及修饰类型的定义,在专业医生的指导下制定了详尽的中文电子病历标注规范;通过对大量中文电子病历的分析,提出了一套完整的中文电子病历命名实体标注方案,而且采用预标注和正式标注的方法,建立了一定规模的中文电子病历命名实体标注语料库,其标注语料的一致性达到了92%以上。该工作对中文电子病历的命名实体识别及信息抽取研究提供了可靠的数据支持,对医疗知识挖掘也有重要意义。In view of the current blank in semantical annotatxon ot nameo enuuz~ ul ~,,, (CEMRs), a study on construction of annotated corpora for CEMRs' named entities was condueted. By reference to the definitions of named entity type and modification type of electronie medical records given by the US Informat- ics for Integrating Biology and the Bedside (I2B2) in 2010, an annotation specification for CEMRs was developed under the guidance of professional doctors; Based on the analysis of a large number of CEMRs, a complete scheme for annotation of CEMRs' named denties was proposed, and a large-scale annotated corpus for named entities of CEMRs was established by using the methods of pre-annotating and formal annotating. Its annotation consistency is over 92%. This annotated corpora can provide reliable data for named entity recognition for CEMRs and information extraction research, and it is very useful for medical knowledge mining.
关 键 词:中文电子病历(CEMR) 命名实体 标注语料库 标注规范 标注一致性(IAA)
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222