基于集群系统的空间数据并行处理策略研究  被引量:1

An approach to parallel processing of spatial data on clusters

在线阅读下载全文

作  者:刘旭辉[1,2] 韩冀中[1] 贺劲[1] 韩承德[1] 

机构地区:[1]中国科学院计算技术研究所,北京100190 [2]中国科学院研究生院,北京100190

出  处:《高技术通讯》2009年第10期991-997,共7页Chinese High Technology Letters

基  金:973计划(2004CB318202)资助项目

摘  要:为了解决单节点的WebGIS系统存储能力和计算能力受限的问题,提出了一种利用分布式文件系统(DFS)和MapReduce分布式计算框架在集群环境中并行处理空间数据的方法。还特别针对分布式文件系统,结合WebGIS的应用模式,提出了小文件优化策略。该策略的核心思想是通过将小文件合并为大文件来有效降低文件的数目。试验结果表明,在使用了小文件优化策略后,分布式文件系统中的节点平均内存占用率从55.78%降至 18.36%,文件的存储和读取性能分别提高了63.3倍和2.0倍。其次,基于经过优化后的分布式文件系统和MapReduce计算框架,设计并且实现了HDWebGIS原型系统,试验结果表明,使用了小文件优化策略后,HDWebGIS系统性能比优化前提升了78.11%。This paper proposes a new approach to parallel processing of spatial data on clusters. This approach uses the distributed file system (DFS) and the MapReduce framework to exploit I/O and computing capability on clusters. Especially, the paper proposes an optimizing schema for DFS to efficiently manage massive amount of small files. The main idea of the schema is to reduce the number of files by merging a group of small files to big ones. The experimental results show that after adopting the schema in DFS, the writing performance and the reading performance can be improved by 6330% and 200% respectively, while the average memory usage ratio in cluster nodes can be reduced from 55.78% to 18.36% after adopting the schema. Furthermore, a prototype WebGIS system called Hadoop Distributed WebGIS (HDWebGIS) was designed and implemented based on DFS and MapReduce framework to evaluate effectiveness of the schema from system' s perspective, the experiment results also show that I-IDWebGIS has a performance promotion of 78.11% after using the schema.

关 键 词:网络地理信息系统(WebGIS) 集群 分布式文件系统(DFS) MAPREDUCE 小文 件优化 

分 类 号:TP399-C3[自动化与计算机技术—计算机应用技术] P208[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象