一种基于缓存的并发ETL数据流程处理框架被引量：3

A BUFFER-BASED PARALLEL ETL DATA FLOW PROCESSING FRAMEWORK

机构地区：[1]中国科学院软件研究所软件工程技术中心,北京100190 [2]中国科学院研究生院,北京100190 [3]江苏熔盛重工有限公司,江苏如皋226532

出　　处：《计算机应用与软件》2012年第1期88-91,144,共5页Computer Applications and Software

基　　金：国家科技重大专项核高基项目(2009ZX01043-003-001;2010ZX01045-001-010);国家科技支撑计划(2009BAG18B00)

摘　　要：ETL(Extraction-Transformation-Loader)是企业内部和企业间信息资源交换和共享的关键技术。随着企业数据量的剧增,如何提高数据处理能力和执行效率成为ETL需要解决的难题之一。提出一个基于缓存的并发ETL数据流程处理框架,该框架使用基于组件分类的缓存复用技术来降低内存消耗和数据拷贝次数;同时使用一种并发的数据处理流程调度执行策略,该策略具有任务、流水线、数据处理多粒度并行的特点。该方法已在网驰平台ONCE DQ实现并得到验证。ETL is a key technology for information exchanging and sharing inside an enterprise or among enterprises.With the rapid increase of enterprise data volumes,it has become one of the hard problems for ETL to solve how to improve the data processing capacity and execution efficiency.The paper proposes a buffer-based parallel ETL data flow processing framework.The Framework uses component classification based buffer reusing technology to save memory consumption and decrease data copying frequency.At the mean time a parallel data processing flow scheduling execution strategy is used,which bears such characteristics as tasking,pipelining,and data processing multi-granularity paralleling.The method has been realized and validated on ONCE DQ Platform.

关键词：数据集成数据流程并发缓存复用

分类号：TP302[自动化与计算机技术—计算机系统结构]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于缓存的并发ETL数据流程处理框架被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于缓存的并发ETL数据流程处理框架 被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

一种基于缓存的并发ETL数据流程处理框架被引量：3