基于句法和语义特征的疾病名称识别  被引量:4

Disease name recognition based on syntactic and semantic features

在线阅读下载全文

作  者:何云琪 刘苏文 钱龙华[1] 周国栋[1] Yunqi HE;Suwen LIU;Longhua QIAN;Guodong ZHOU(School of Computer Science and Technology,Soochow University,Suzhou 215006,China)

机构地区:[1]苏州大学计算机科学与技术学院,苏州215006

出  处:《中国科学:信息科学》2018年第11期1546-1557,共12页Scientia Sinica(Informationis)

基  金:国家自然科学基金重点项目(批准号:2017YFB1002101);国家自然科学基金项目(批准号:61373096)资助

摘  要:生物医学实体识别(如基因/蛋白质、化学物和疾病等)是生物医学文本挖掘的基础,它对生物医学实体关系的抽取和生物医学知识库的建立等方面都有着重要的研究意义.针对目前的疾病名称识别中存在的问题,本文提出了一系列新的句法特征和语义特征来提高疾病名称识别的性能,其中句法特征包括组块和依存信息,语义特征包括疾病名称的缩写信息、字典信息和疾病概念之间的上下位关系等.在NCBI疾病语料库上的实验表明,结合一系列句法和语义特征的CRF模型可以显著提高疾病实体识别的性能,取得了目前该语料库上的最高F1值85.3%.Biomedical entity recognition(such as genes, proteins, chemicals, diseases, etc.) is the foundation of biomedical text mining, which plays a significant role in extracting biomedical entity relations and constructing biomedical knowledge bases. To deal with existing issues of the current disease name recognition systems, this paper proposes a series of new syntactic and semantic features to improve disease name recognition. The syntactic features include chunk and dependency information, while the semantic features include the disease abbreviation form, its dictionary entry form, and hyponymy relationships between disease concepts. Experiments over the NCBI disease corpus show the CRF model, combined with these syntactic and semantic features, can significantly improve the state-of-the-art performance of disease entity recognition, achieving an F1 score of 85.3%.

关 键 词:疾病名称识别 条件随机场 句法特征 语义特征 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象