基于MacBERT-GP的中文医学命名实体识别方法  

Chinese Medical Named Entity Recognition based on MacBERT-GP

在线阅读下载全文

作  者:姚传彪 马汉杰[2] 董慧 许永恩 李少华 李东倪 YAO Chuanbiao;MA Hanjie;DONG Hui;XU Yongen;LI Shaohua;LI Dongni(School of Information Science&Engineering,Zhejiang Sci-Tech University,Hangzhou 310018,China;School of Computer Science&Technology,Zhejiang Sci-Tech University,Hangzhou 310018,China;Hangzhou Codvision Technology Co.,Ltd.,Hangzhou 311199,China;School of Computer,Hangzhou Dianzi University,Hangzhou 310018,China)

机构地区:[1]浙江理工大学信息科学与工程学院,杭州310018 [2]浙江理工大学计算机科学与技术学院,杭州310018 [3]杭州码全信息科技有限公司,杭州311199 [4]杭州电子科技大学计算机学院,杭州310018

出  处:《智能计算机与应用》2025年第2期190-197,共8页Intelligent Computer and Applications

基  金:浙江省重点研发项目(2021C01163);杭州市重大科技创新项目(2022AIZD0145);浙江省“尖兵”“领雁”研发攻关计划(2023C01041)。

摘  要:医学命名实体识别作为医学信息提取的基础任务,在构建医学知识图谱、解决医学问题和自动分析病例等方面具有重要意义。相较于一般领域的命名实体识别,医学命名实体识别面临中文分词复杂性和医学领域术语丰富性等挑战,同时医学命名实体更为复杂、容易嵌套。为了提升现有命名实体识别模型的准确性,解决训练过程中高质量标注数据匮乏的问题,针对医学命名实体识别,提出一种基于MacBERT-GP的中文医学命名实体识别方法。在CBLUE CMeEE-V2医疗命名实体识别数据集和CCKS2019电子病历数据集上的实验结果,充分验证了该方法的有效性。相较于经典的BERT-BiLSTM-CRF方法,所提出的方法在F1值上分别提升了6.24%和4.95%。Medical Named Entity Recognition(NER),as a fundamental task in medical information extraction,holds significant importance in building medical knowledge graphs,addressing medical issues,and automating case analysis.Compared to general domain NER,medical NER faces challenges such as the complexity of Chinese word segmentation and the richness of medical terminology.Additionally,medical named entities tend to be more complex and can be nested.In order to enhance the accuracy of existing NER models and address the issue of limited high-quality annotated data during training,a Chinese medical NER approach based on MacBERT-GP is proposed specifically for medical named entity recognition.Experimental results on the CBLUE CMeEE-V2 medical NER dataset and the CCKS2019 electronic medical record dataset have thoroughly validated the effectiveness of this method.Compared to the classic BERT-BiLSTM-CRF method,the proposed approach has shown improvements of 6.42%and 4.95%in F1 scores,respectively.

关 键 词:MacBERT 大语言模型 全局指针 特征融合 嵌套实体 

分 类 号:TP311.1[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象