糖尿病电子病历实体及关系标注语料库构建  被引量:1

Entity and Relation Corpus for Diabetes Electronic Medical Records

在线阅读下载全文

作  者:叶娅娟 胡斌[1] 张坤丽[1] 昝红英[1] YE Yajuan;HU Bin;ZHANG Kunli;ZAN Hongying(School of Computer and Artificial Intelliger,Zhengzhou University,Zhengzhou,Henan 450001,China)

机构地区:[1]郑州大学计算机与人工智能学院,河南郑州450001

出  处:《中文信息学报》2023年第12期17-25,共9页Journal of Chinese Information Processing

基  金:中国博士后科学基金(2020M682349);河南省科技攻关项目(232102211033);河南省医学科技攻关计划省部共建项目(SB201901021);河南省高等学校重点科研项目(19A520003,20A520038);教育部人文社科规划项目(20YJA740033);河南省哲学社会科学规划项目(2019BYY016)。

摘  要:电子病历是医疗信息的重要来源,包含大量与医疗相关的领域知识。该文从糖尿病电子病历文本入手,在调研了国内外已有的电子病历语料库的基础上,参考I2B2实体及关系分类,建立了糖尿病电子病历实体及实体关系分类体系,并制定了标注规范。利用实体及关系标注平台,进行了实体及关系预标注及多轮人工校对工作,形成了糖尿病电子病历实体及关系标注语料库(Diabetes Electronic Medical Record entity and relation Corpus, DEMRC)。DEMRC共包含8 899个实体、456个实体修饰及16 564个关系,对其进行一致性评价和分析,发现实体及关系标注一致性达到了0.854 2和0.941 6。针对实体识别和实体关系抽取任务,分别采用基于迁移学习的BiLSTM-CRF模型和RoBERTa模型进行初步实验,并对语料库中的各类实体及关系进行评估,为后续糖尿病电子病历实体识别、关系抽取研究及糖尿病知识图谱构建打下基础。Electronic medical record(EMR)is an important source of medical information with rich medical knowledge.In light of the I2B2 entity and relationship classification,we establish the classification system of entity and entity relationship of the diabetes EMR,as well as the annotation scheme.With multiple rounds of manual proofreading,the Diabetes Electronic Medical Record entity and relation Corpus(DEMRC)is finally completed.DEMRC contains 8899 entities,456 entity modifications and 16564 relationships.The consistency of entity and relationship annotation has reached 0.86 and 0.94,respectively.For the entity identification and entity relationship extraction tasks,The BILSTM-CRF model based on transfer learning and the Roberta model are trained on the corpus for preliminary experiments and various entities and relationships in the corpus are evaluated,which lay a foundation for the follow-up research on the Entity identification and relation extraction of diabetes EMR and the construction of the diabetes knowledge graph.

关 键 词:糖尿病 电子病历 实体及关系标注体系 语料库构建 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象