PDF科技论文语义元数据的自动抽取研究被引量：10

Automatic Extraction of Semantic Metadata from PDF Research Papers

出　　处：《现代图书情报技术》2009年第2期102-106,共5页New Technology of Library and Information Service

基　　金：中国科学院国家科学图书馆青年人才领域前沿项目"元数据自动抽取工具在数字知识库建设中的应用研究与开发";国家社会"机构知识库建设与应用研究"(项目编号:07BTQ019)的研究成果之一

摘　　要：在分析PDF文件结构的基础上,解析PDF文件的内容流,并采用基于规则的匹配方法和基于格式的定位方法,自动抽取科技论文中的语义元数据信息。实验结果表明,上述方法对标题、作者等重要的语义元数据信息能够达到较好的抽取效果。This paper analyzes content streams of PDF files based on its structure, and extracts semantic metadata automatically from research papers by way of rule - based matching and format - based locating. Experimental results show that this method can extract important semantic metadata such as title and author effectively.

关键词：PDF 科技论文语义元数据自动抽取

分类号：G250.7[文化科学—图书馆学]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

PDF科技论文语义元数据的自动抽取研究被引量：10

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

PDF科技论文语义元数据的自动抽取研究 被引量：10

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

PDF科技论文语义元数据的自动抽取研究被引量：10