检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:许力 李建华[1] XU Li;LI Jian-hua(School of Information Science and Engineering,East China University of Science and Technology,Shanghai 200237,China)
机构地区:[1]华东理工大学信息科学与工程学院,上海200237
出 处:《计算机工程与科学》2021年第10期1873-1879,共7页Computer Engineering & Science
基 金:国家重大新药创制(2018ZX09735002);国家重点研发计划(2016YFA0502304)。
摘 要:在生物医学领域,以静态词向量表征语义的命名实体识别方法准确率不高。针对此问题,提出一种将预训练语言模型BERT和BiLSTM相结合应用于生物医学命名实体识别的模型。首先使用BERT进行语义提取生成动态词向量,并加入词性分析、组块分析特征提升模型精度;其次,将词向量送入BiLSTM模型进一步训练,以获取上下文特征;最后通过CRF进行序列解码,输出概率最大的结果。该模型在BC4CHEMD、BC5CDR-chem和NCBI-disease数据集上的平均F1值达到了89.45%。实验结果表明,提出的模型有效地提升了生物医学命名实体识别的准确率。In biomedical field,the named entity recognition method based on static word vector achieves low precision.To solve this problem,a method of combining pre-training model BERT and BiLSTM-CRF for biomedical named entity recognition is proposed.Firstly,the BERT is used for semantic extraction and the generation of dynamic word vector.Part of speech and chunking features are added to improve the model precision.Secondly,the word vector is sent to the BiLSTM model for further training to obtain the context features.Finally,the CRF is used to decode sequence and output the result with maximum probability.The average F1 score of this model reaches 89.45%on BC4CHEMD,BC5CDR-chem and NCBI-disease datasets.Experimental results show that the proposed model can effectively improve the precision of the model in the biomedical named entity recognition task.
关 键 词:生物医学 命名实体识别 预训练语言模型 词性分析 组块分析
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.43