基于文本挖掘的流行病学致病因素的提取  被引量:2

Extraction of epidemiologic risk factors based on text mining

在线阅读下载全文

作  者:卢延鑫[1] 姚旭峰[2] 

机构地区:[1]中国疾病预防控制中心寄生虫病预防控制所,卫生部寄生虫病原与媒介生物学重点实验室,世界卫生组织疟疾,血吸虫病和丝虫病合作中心,上海200025 [2]上海理工大学上海医疗器械高等专科学校,上海200091

出  处:《北京生物医学工程》2013年第2期160-163,205,共5页Beijing Biomedical Engineering

基  金:国家留学基金委公派留学基金(2009100906)资助

摘  要:目的基于文本挖掘技术,设计出能够自动提取流行病学致病因素的系统。方法该自动信息提取系统由一个文本挖掘引擎子系统和一个基于规则的信息提取子系统构成。首先使用文本挖掘引擎标记出所有的名词短语,并收集该名词短语的语义等信息。然后利用基于规则的文本分类器,标记出流行病学致病因素。结果为评估本系统,将由流行病学专家人工注解的文本输入该系统,评估发现最好的结果F-measure为64.6%,其精确率和召回率分别为61.0%和68.8%,该结果优于其它相关研究,且其中有些错误仍可避免。结论基于文本挖掘的方法对从流行病学研究文献中自动提取致病因素信息有很大帮助。Objective Based on text mining techniques,we design a system which automatically extracts epidemiologic risk factors. Methods The system consists of a text mining engine subsystem and a rule-based information extraction subsystem. First, all the noun phrases are identified by the text mining engine subsystem and the information are collected. Then,the epidemiologic risk factors are identified by the text classifier system based on rules. Results The evaluation of the system using text annotated by an epidemiologist shows the highest F-measure of 64.6% (Precision 61.0% and Recall 68.8% ), with certain avoidable mistakes. Conclusions This method is helpful for the automatic extraction of risk factors in the epidemiologic literatures.

关 键 词:文本挖掘 致病因素 信息提取 流行病学 

分 类 号:R318.04[医药卫生—生物医学工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象