Drupal数据采集在构建特色数字资源中的实践  被引量:3

Practice of Data Collection in Building Characteristic Digital Resources Based on Drupal

在线阅读下载全文

作  者:李丹[1] 闫晓弟[1] 魏青山 

机构地区:[1]西安交通大学图书馆,西安710049

出  处:《现代图书情报技术》2015年第7期148-154,共7页New Technology of Library and Information Service

基  金:陕西省科学技术研究发展计划基金项目"陕西省地方特色数字资源共建共享模式研究"(项目编号:2012krm105)的研究成果之一

摘  要:【目的】解决特色数据库建设过程中数据抓取困难、多类型数字资源难以整合等问题。【应用背景】特色资源信息生命短暂,陕西省已建特色库平台差异较大,支持RSS接口有限,数据格式复杂。【方法】利用Drupal Feeds,XPath Parser,Crawls,Image Grabber等Web数据采集技术,结合数据清洗、剔除手段,实现Web数据采集的系统化和专业化。【结果】对Feeds RSS采集,HTML/XML网页分析自动采集,特别是数据采集中需要针对不同特色资源修改规则及采集网页中流媒体等问题进行探讨。【结论】丰富陕西省特色数字资源平台的数据来源,部分解决数据采集困难、数据格式不规范、数据来源途径有限的问题。[Objective] To address the problems of Web data collection, difficult to integrate multiple types of digital resources etc. in characteristic database construction. [Context] The life of characteristic digital resources information is short, each heterogeneous database platform in Shaanxi has great difference, supports limited RSS interface, contains complex data formats. [Methods] Using Web data collection technology such as Drupal Feeds, XPath Parser, Crawls, Image Grabber, combined with data cleaning and removing, to achieve specialization and systematization for Web data collection. [Results] Explore feeds RSS collection, HTML/XML automatic acquisition, rules for different characteristics of resource modification specially, and Web streaming media collection. [Conclusions] This study can rich platform data sources, partially provide solutions to difficult data collection, data formats unstandardized, data source route limited and so on.

关 键 词:源数据 数据采集 DRUPAL 

分 类 号:G250.7[文化科学—图书馆学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象