基于BERT和BiLSTM-CRF的生物医学命名实体识别  被引量:26

Biomedical named entity recognition based on BERT and BiLSTM-CRF

在线阅读下载全文

作  者:许力 李建华[1] XU Li;LI Jian-hua(School of Information Science and Engineering,East China University of Science and Technology,Shanghai 200237,China)

机构地区:[1]华东理工大学信息科学与工程学院,上海200237

出  处:《计算机工程与科学》2021年第10期1873-1879,共7页Computer Engineering & Science

基  金:国家重大新药创制(2018ZX09735002);国家重点研发计划(2016YFA0502304)。

摘  要:在生物医学领域,以静态词向量表征语义的命名实体识别方法准确率不高。针对此问题,提出一种将预训练语言模型BERT和BiLSTM相结合应用于生物医学命名实体识别的模型。首先使用BERT进行语义提取生成动态词向量,并加入词性分析、组块分析特征提升模型精度;其次,将词向量送入BiLSTM模型进一步训练,以获取上下文特征;最后通过CRF进行序列解码,输出概率最大的结果。该模型在BC4CHEMD、BC5CDR-chem和NCBI-disease数据集上的平均F1值达到了89.45%。实验结果表明,提出的模型有效地提升了生物医学命名实体识别的准确率。In biomedical field,the named entity recognition method based on static word vector achieves low precision.To solve this problem,a method of combining pre-training model BERT and BiLSTM-CRF for biomedical named entity recognition is proposed.Firstly,the BERT is used for semantic extraction and the generation of dynamic word vector.Part of speech and chunking features are added to improve the model precision.Secondly,the word vector is sent to the BiLSTM model for further training to obtain the context features.Finally,the CRF is used to decode sequence and output the result with maximum probability.The average F1 score of this model reaches 89.45%on BC4CHEMD,BC5CDR-chem and NCBI-disease datasets.Experimental results show that the proposed model can effectively improve the precision of the model in the biomedical named entity recognition task.

关 键 词:生物医学 命名实体识别 预训练语言模型 词性分析 组块分析 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象