PDF科技论文语义元数据的自动抽取研究  被引量:10

Automatic Extraction of Semantic Metadata from PDF Research Papers

在线阅读下载全文

作  者:张秀秀[1] 马建霞[1] 

机构地区:[1]中国科学院国家科学图书馆兰州分馆,兰州730000

出  处:《现代图书情报技术》2009年第2期102-106,共5页New Technology of Library and Information Service

基  金:中国科学院国家科学图书馆青年人才领域前沿项目"元数据自动抽取工具在数字知识库建设中的应用研究与开发";国家社会"机构知识库建设与应用研究"(项目编号:07BTQ019)的研究成果之一

摘  要:在分析PDF文件结构的基础上,解析PDF文件的内容流,并采用基于规则的匹配方法和基于格式的定位方法,自动抽取科技论文中的语义元数据信息。实验结果表明,上述方法对标题、作者等重要的语义元数据信息能够达到较好的抽取效果。This paper analyzes content streams of PDF files based on its structure, and extracts semantic metadata automatically from research papers by way of rule - based matching and format - based locating. Experimental results show that this method can extract important semantic metadata such as title and author effectively.

关 键 词:PDF 科技论文 语义元数据 自动抽取 

分 类 号:G250.7[文化科学—图书馆学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象