基于Heritrix的网络学术文献获取研究  被引量:2

Accessing to Online Academic Literature with Heritrix

在线阅读下载全文

作  者:白如江[1] 王效岳[1] 亢丽芸[1] 

机构地区:[1]山东理工大学科技信息研究所

出  处:《图书情报工作》2012年第11期99-104,108,共7页Library and Information Service

基  金:山东省自然科学基金项目"大规模学术文献并行处理与语义分类研究"(项目编号:ZR2011GL025);山东理工大学青年教师发展支持计划研究成果之一

摘  要:通过分析研究网络学术文献的主要来源、常用文件格式及Heritrix的工作原理,制定基于Heritrix的网络学术文献获取方案,从种子站点选择或抓取任务配置、文件类型和大小过滤以及学术文献判定等方面对整体方案进行具体设计和分析,并搭建实验平台,编写相关程序进行实验以验证该方案的可行性,最后指出后续研究方向。Through the analysis of main sources and popular file formats of online academic literature, and Heritrix's work principles, this paper develops a program to access to online academic literature based on Heritrix. Then it designs and analyses the overall pro- gram specifically from seed websites selection, crawl tasks configuration, file type and file size filtration, academic hterature determination. This paper also does experiments by building experimental platform and writing programs to verify the feasibility of this program, and points out the future research direction.

关 键 词:HERITRIX 学术文献 文件格式 PDF 文档抓取 

分 类 号:G250.73[文化科学—图书馆学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象