基于提示学习和超球原型的小样本ICD自动编码方法  

Few-shot ICD automatic coding method based on prompt learning and hypersphere prototypes

在线阅读下载全文

作  者:徐春[1] 吉双焱 马志龙 Xu Chun;Ji Shuangyan;Ma Zhilong(School of Information Management,Xinjiang University of Finance&Economics,rümqi 830012,China)

机构地区:[1]新疆财经大学信息管理学院,乌鲁木齐830012

出  处:《计算机应用研究》2024年第9期2670-2677,共8页Application Research of Computers

基  金:国家自然科学基金资助项目(62266041);新疆自然科学基金资助项目(2023D01A73)。

摘  要:针对国际疾病分类(ICD)自动编码方法的长文本处理、编码的层次结构以及长尾分布等导致的模型泛化能力弱的问题,提出一种充分利用医学预训练语言模型的基于提示学习和超球原型的小样本ICD自动编码方法(hypersphere prototypical with prompt learning,PromptHP)。首先,将编码描述与临床文本融合进提示学习模型中的提示模板,使得模型能够更加深入地理解临床文本;然后,充分利用预训练语言模型的先验知识进行初始预测;接着,在预训练语言模型输出表示的基础上引入超球原型进行类别建模和度量分类,并在医学数据集上微调网络,充分纳入数据知识,提高模型在小样本ICD编码分配任务上的性能;最后,对以上两部分预测结果集成加权获得最终编码预测结果。在公开医学数据集MIMIC-Ⅲ上的实验结果表明,该模型优于最先进的基线方法,PromptHP将小样本编码的macro-AUC、micro-AUC、macro-F_(1)和micro-F_(1)分别提高了1.77%、1.54%、14.22%、15.01%。实验结果验证了该模型在小样本编码分类任务中的有效性。To address the issue of weak model generalization caused by processing long texts,hierarchical coding structures,and long-tailed distributions in international classification of diseases(ICD)automatic coding methods,this paper proposed the PromptHP method for few-shot ICD automatic coding,leveraging medical pre-trained language models.Firstly,the PromptHP method combined coding descriptions and clinical texts into the prompt template to improve the model’s comprehension of clinical texts.Then,it utilized the pre-trained language model’s prior knowledge for initial prediction.Next,it introduced the hypersphere prototypical onto the output representation of the pre-trained language model for category modeling and metric classification,while fine-tuning the network on the medical dataset to incorporate the data knowledge and improve the model’s performance on few-shot ICD coding classification tasks.Finally,it obtained the coding prediction results by integrating and weighting the two parts of the prediction results.Experimental results on the publicly available medical dataset MIMIC-Ⅲdemonstrate that PromptHP outperforms state-of-the-art baseline methods,increasing the macro-AUC,micro-AUC,macro-F_(1),and micro-F_(1)of few-shot coding by 1.77%,1.54%,14.22%,and 15.01%,respectively.The experimental results validate the effectiveness of the PromptHP method in few-shot coding classification tasks.

关 键 词:自动ICD编码 小样本学习 提示学习 超球原型 预训练语言模型 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象