基于文本挖掘的流行病学致病因素的提取被引量：2

Extraction of epidemiologic risk factors based on text mining

机构地区：[1]中国疾病预防控制中心寄生虫病预防控制所,卫生部寄生虫病原与媒介生物学重点实验室,世界卫生组织疟疾,血吸虫病和丝虫病合作中心,上海200025 [2]上海理工大学上海医疗器械高等专科学校,上海200091

出　　处：《北京生物医学工程》2013年第2期160-163,205,共5页Beijing Biomedical Engineering

基　　金：国家留学基金委公派留学基金(2009100906)资助

摘　　要：目的基于文本挖掘技术,设计出能够自动提取流行病学致病因素的系统。方法该自动信息提取系统由一个文本挖掘引擎子系统和一个基于规则的信息提取子系统构成。首先使用文本挖掘引擎标记出所有的名词短语,并收集该名词短语的语义等信息。然后利用基于规则的文本分类器,标记出流行病学致病因素。结果为评估本系统,将由流行病学专家人工注解的文本输入该系统,评估发现最好的结果F-measure为64.6%,其精确率和召回率分别为61.0%和68.8%,该结果优于其它相关研究,且其中有些错误仍可避免。结论基于文本挖掘的方法对从流行病学研究文献中自动提取致病因素信息有很大帮助。Objective Based on text mining techniques,we design a system which automatically extracts epidemiologic risk factors. Methods The system consists of a text mining engine subsystem and a rule-based information extraction subsystem. First, all the noun phrases are identified by the text mining engine subsystem and the information are collected. Then,the epidemiologic risk factors are identified by the text classifier system based on rules. Results The evaluation of the system using text annotated by an epidemiologist shows the highest F-measure of 64.6% （Precision 61.0% and Recall 68.8% ）, with certain avoidable mistakes. Conclusions This method is helpful for the automatic extraction of risk factors in the epidemiologic literatures.

关键词：文本挖掘致病因素信息提取流行病学

分类号：R318.04[医药卫生—生物医学工程]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于文本挖掘的流行病学致病因素的提取被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于文本挖掘的流行病学致病因素的提取 被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于文本挖掘的流行病学致病因素的提取被引量：2