基于正则表达式批量提取CNKI文献元数据技术探究  被引量:3

Exploration on Automatic Extraction Metadata of CNKI Papers Based on Regular Expression

在线阅读下载全文

作  者:曹俊[1,2] 万晓云[2] 廖顺宝[1,2] 

机构地区:[1]中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室,北京100101 [2]中国科学院研究生院,北京100049

出  处:《图书情报工作》2010年第19期111-114,共4页Library and Information Service

基  金:资源与环境信息系统国家重点实验室自主研究课题"地球科学数据质量评价研究"(项目编号:O88RA106SA);中国科学院地理科学与资源研究所创新三期领域前沿项目(地球信息方法论体系)课题"地学数据空间化误差评价方法及案例研究"(项目编号:O66U0309SZ)研究成果之一

摘  要:介绍一种仅仅依靠中国知网文献磁盘文件提取元数据的方法。根据已下载的CNKI文献提取元数据,构建个人文献信息数据库,进而能建立个人文献信息管理系统。虽然CNKI文献库没有提供外界的数据库访问接口,但是文献的元数据都以web页面的方式展现。通过分析与文献绑定的属性页面的结构,利用正则表达式提取文献元数据,可以将其批量导入到数据库中。A method of extracting CNKI papers' metadata just relying on files stored on hard disk is introduced. According to downloaded CNKI papers, the method can extract metadata, build personal literature database, and then create personal paper information management system. Although CNKI Archive does not provide database access interface to the outside world, the metadata of paper is shown on web pages. By analyzing the structure of binding properties web page of literature and using regular expression to extract metadata, the metadata can be batch imported into the database.

关 键 词:CNKI 元数据 正则表达式 批量提取 

分 类 号:G353[文化科学—情报学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象