基于感知器的生物医学命名实体边界识别算法  被引量:2

Algorithm based on perceptron for biomedical named entity boundary identification

在线阅读下载全文

作  者:胡俊锋[1] 陈浩[1] 陈蓉[1] 谭斌[1] 于中华[1] 

机构地区:[1]四川大学计算机学院,成都610064

出  处:《计算机应用》2007年第12期3026-3028,3031,共4页journal of Computer Applications

基  金:国家自然科学基金资助项目(60473071);高等学校博士学科点专项科研基金SRFDP(20020610007);四川大学计算机学院青年基金资助项目

摘  要:在生物信息学领域内生物医学命名实体识别(Bio-NER)是生物医学文献挖掘、利用的基础工作,由于实体边界识别的困难导致目前Bio-NER效率较低,因此提出了基于感知器的实体边界识别算法,该算法采用随机梯度下降算法训练权重,利用token过滤器、n-gram模型及实体过滤器实现生物医学命名实体边界识别。在GENIA corpus 3.02语料库上进行的实验表明,该算法可以达到71.5%的准确率和79.2%的召回率,与相关工作相比均有一定提高。另外算法相对简单,识别算法速度较快,易在生产中应用。Biomedical Named Entity Recognition (Bio-NER) is a basal work for mining and utilizing biomedical literatures in bioinformatics field. Currently, the efficiency of Bio-NER is low because of the difficulty of biomedical named entity boundary identification, so an algorithm based on perceptron for biomedical named entity boundary identification was put forward. The algorithm identified the boundary of biomedical named entities based on token filter, n-gram and biomedical named entities filter, trained the weights with stochastic gradient descent. The experimental results obtained on GENIA corpus 3.02 show that the precision and recall of the algorithm are around 71.5% and 79.2% respectively, higher than the results of the related works. Moreover, the algorithm is relatively simpler and faster, so it can be easily applied into practice.

关 键 词:生物医学命名实体 感知器 N-GRAM模型 实体边界识别 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象