在线医疗文本中的实体识别研究  被引量:17

Entity Recognition Research in Online Medical Texts

在线阅读下载全文

作  者:苏娅[1] 刘杰[1] 黄亚楼[1] 

机构地区:[1]南开大学计算机与控制工程学院(软件学院),天津300071

出  处:《北京大学学报(自然科学版)》2016年第1期1-9,共9页Acta Scientiarum Naturalium Universitatis Pekinensis

基  金:天津市科技支撑项目(13ZCZDGX01098);天津市自然科学基金(14JCQNJC00600);中国民航信息技术科研基地开放课题(CAAC-ITRB-201303)资助

摘  要:针对在线医疗文本,设计考虑医疗领域特性的识别特征,并在自建数据集上进行实体识别实验。针对常见的5类疾病:胃炎、肺癌、哮喘、高血压和糖尿病,采用近年来较先进的机器学习模型条件随机场,进行训练和测试,抽取目标实体包括疾病、症状、药品、治疗方法和检查5类。通过采用逐一添加特征的实验方式,验证所提特征的有效性,取得总体上81.26%的准确率和60.18%的召回率,随后对识别特征给出进一步分析。The authors design recognition features with the consideration of medical field characteristic for the online medical text, and the experiment of the entity recognition is carried out on the self-built data set. Concerned about five common diseases: gastritis, lung cancer, asthma, hypertension and diabetes. In the experiment, an advanced machine learning model Conditional Random Field is used for training and testing. The target entities include five kinds: disease, symptoms, drugs, treatment methods and check. The effectiveness of the proposed features is verified by using the experimental method, and the accuracy of the total 81.26% is obtained and the recall rate is 60.18%. Subsequently, the further analysis is given for the recognition features.

关 键 词:实体识别 数据挖掘 条件随机场 医疗信息 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象