检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:胡俊锋[1] 陈浩[1] 陈蓉[1] 谭斌[1] 于中华[1]
出 处:《计算机应用》2007年第12期3026-3028,3031,共4页journal of Computer Applications
基 金:国家自然科学基金资助项目(60473071);高等学校博士学科点专项科研基金SRFDP(20020610007);四川大学计算机学院青年基金资助项目
摘 要:在生物信息学领域内生物医学命名实体识别(Bio-NER)是生物医学文献挖掘、利用的基础工作,由于实体边界识别的困难导致目前Bio-NER效率较低,因此提出了基于感知器的实体边界识别算法,该算法采用随机梯度下降算法训练权重,利用token过滤器、n-gram模型及实体过滤器实现生物医学命名实体边界识别。在GENIA corpus 3.02语料库上进行的实验表明,该算法可以达到71.5%的准确率和79.2%的召回率,与相关工作相比均有一定提高。另外算法相对简单,识别算法速度较快,易在生产中应用。Biomedical Named Entity Recognition (Bio-NER) is a basal work for mining and utilizing biomedical literatures in bioinformatics field. Currently, the efficiency of Bio-NER is low because of the difficulty of biomedical named entity boundary identification, so an algorithm based on perceptron for biomedical named entity boundary identification was put forward. The algorithm identified the boundary of biomedical named entities based on token filter, n-gram and biomedical named entities filter, trained the weights with stochastic gradient descent. The experimental results obtained on GENIA corpus 3.02 show that the precision and recall of the algorithm are around 71.5% and 79.2% respectively, higher than the results of the related works. Moreover, the algorithm is relatively simpler and faster, so it can be easily applied into practice.
关 键 词:生物医学命名实体 感知器 N-GRAM模型 实体边界识别
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.16.31.119