基于数据感知的作业处理系统设计  

Data-aware Batch Job Processing System Framework

在线阅读下载全文

作  者:徐永士[1,2] 梁栋[1,2] 孙功星[1] 

机构地区:[1]中国科学院高能物理研究所计算中心,北京100049 [2]中国科学院研究生院,北京100049

出  处:《高性能计算技术》2012年第6期12-18,共7页

摘  要:本文针对高能物理(HEP)数据分析,简述描述了适合HEP数据分析的易并行计算模型,及MapReduce并行编程模型。说明了当前大型数据中心普遍采用的计算节点集群与存储系统模块化设计的系统结构,讨论了不足之处,提出了大型数据分析中心应具备的特性。在综合分析了数据感知要素和作业流程的基础上,提出一种新型的数据感知的作业处理系统框架。框架中的作业处理子系统通过分布式文件元数据管理器感知被处理文件的位置属性,将作业调度到数据所在的节点上,实现数据的本地化处理。文章给出了各模块的功能描述。文章最后初步部署了测试环境下,并简要给出了测试结果。There are various computing models for big data analysis raised now, one of which is the EPC (Embarrassingly Parallel Computation) assumption. The data processing of high energy physics (HEP) follows exactly the assumption. The architecture of the current data center is composed of computing-node cluster and the distributed storage system. The shortage is discussed before the needed feature for the next generation data center is presented. On the basis of analyzing of the independent structured data feature, we propose a job processing system framework, which is aware of the data location and could save much more network bandwidth for huge data transfer than these existing systems. The test results of the prototype system are discussed in short, and show that the file metadata manager is stable and the solution are acceptable.

关 键 词:PBS(作业批处理系统) 高能物理数据分析 文件元数据管理 数据感知 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象