中文植物物种多样性描述文本的信息抽取研究  被引量:4

Information Extraction from Chinese Plant Species Diversity Description Text

在线阅读下载全文

作  者:段宇锋[1] 黄思思[1] 

机构地区:[1]华东师范大学商学院,上海200241

出  处:《现代图书情报技术》2016年第1期87-96,共10页New Technology of Library and Information Service

基  金:国家社会科学基金一般项目"基于无监督语义标注的网络中文学术信息抽取研究"(项目编号:11BTQ024)的研究成果之一

摘  要:【目的】实现中文植物物种多样性描述文本中信息的抽取。【方法】以中文植物物种多样性本体为支撑,采取语段、语句、概念逐级筛选和标注的策略,依据规则抽取描述文本中的信息。【结果】以包含4 734个信息点的样本测试,信息抽取的准确率、召回率、F值分别为0.86、0.85、0.85。【局限】针对目前未能准确抽取的表述,进一步完善规则集。【结论】研究方案能有效地实现中文植物物种多样性描述文本的信息抽取。[Objective] To extract information from Chinese plant species diversity description text. [Methods] Take the plant species diversity domain ontology as the foundation, and adopt the strategy of stepwise selection and annotation on paragraph, sentence and concept. [Results] A sample including 4 734 information points is used to test. The value of extraction accuracy rate, recall rate and F-measure achieves 0.86, 0.85 and 0.85 respectively. [Limitations] In order to solve the problems on extracting information from description text, the rule set should be improved in the future. [Conclusions] The research scheme can fulfill the information extraction from Chinese plant species diversity description text effectively.

关 键 词:信息抽取 植物物种多样性描述文本 中文信息处理 本体 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象