面向领域科技文献的句子级创新点抽取研究  被引量:16

Research on Innovation Points Extraction from Scientific Research Paper Based on Field Thesaurus

在线阅读下载全文

作  者:张帆[1,2] 乐小虬[1] 

机构地区:[1]中国科学院文献情报中心,北京100190 [2]中国科学院大学,北京100049

出  处:《现代图书情报技术》2014年第9期15-21,共7页New Technology of Library and Information Service

基  金:国家科技支撑计划子课题"基于文献知识网络的领域学术关系研究与示范"(项目编号:2011BAH10B06-04)的研究成果之一

摘  要:【目的】抽取领域科技文献中句子级创新点。【方法】面向文献中的句子,以领域词表和本体中的关系为基础构建识别规则,采用基于主题词重叠度的冗余度计算方法过滤创新点候选集。【结果】选取肿瘤领域的数据集进行实验,抽取结果的准确率为89.42%,召回率为60.14%。【局限】规则有待进一步完善,提高召回率。【结论】利用领域词表和本体中的关系能有效地抽取科技文献中的句子级创新点。[Objective] This article aims to extract innovation points of sentence-level from scientific research paper of specific domain. [Methods] The field thesaurus and Ontology are used in constructing rules to extract innovation points from sentences in research papers, and a redundancy computing method based on keyword-overlap computing is used to filter redundant innovation points. [Results] The experiment is undertaken on data set of Neoplasm and the result shows that the accuracy rate is 89.42% and the recall rate is 60.14%. [Limitations] The rules need to be further improved, and the recall rate needs to be improved. [Conclusions] Using field thesaurus and the relationships in Ontology is effective in extracting innovation points from scientific research paper.

关 键 词:科技文献 语言学特征 结构式摘要 创新点抽取 冗余度计算 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象