检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《现代图书情报技术》2016年第1期87-96,共10页New Technology of Library and Information Service
基 金:国家社会科学基金一般项目"基于无监督语义标注的网络中文学术信息抽取研究"(项目编号:11BTQ024)的研究成果之一
摘 要:【目的】实现中文植物物种多样性描述文本中信息的抽取。【方法】以中文植物物种多样性本体为支撑,采取语段、语句、概念逐级筛选和标注的策略,依据规则抽取描述文本中的信息。【结果】以包含4 734个信息点的样本测试,信息抽取的准确率、召回率、F值分别为0.86、0.85、0.85。【局限】针对目前未能准确抽取的表述,进一步完善规则集。【结论】研究方案能有效地实现中文植物物种多样性描述文本的信息抽取。[Objective] To extract information from Chinese plant species diversity description text. [Methods] Take the plant species diversity domain ontology as the foundation, and adopt the strategy of stepwise selection and annotation on paragraph, sentence and concept. [Results] A sample including 4 734 information points is used to test. The value of extraction accuracy rate, recall rate and F-measure achieves 0.86, 0.85 and 0.85 respectively. [Limitations] In order to solve the problems on extracting information from description text, the rule set should be improved in the future. [Conclusions] The research scheme can fulfill the information extraction from Chinese plant species diversity description text effectively.
关 键 词:信息抽取 植物物种多样性描述文本 中文信息处理 本体
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.33