分布式RDF数据管理综述  被引量:15

A Survey of Distributed RDF Data Management

在线阅读下载全文

作  者:邹磊[1] 彭鹏[2] Zou Lei;Peng Peng(Institute of Computer Science&Technology,Peking University,Beijing 100080;College of Computer Science and Electronic Engineering,Hunan University,Changsha 410082)

机构地区:[1]北京大学计算机科学技术研究所,北京100080 [2]湖南大学信息科学与工程学院,长沙410082

出  处:《计算机研究与发展》2017年第6期1213-1224,共12页Journal of Computer Research and Development

基  金:国家自然科学基金优秀青年科学基金项目(61622201)~~

摘  要:资源描述框架(resource description framework,RDF)作为一个展示、共享和连接网络上的数据的模型,已经被广泛地用在各种应用中.同时,SPARQL(simple protocol and RDF query language)作为一种结构化查询语言则被用来支持对RDF数据进行查询检索.随着RDF数据规模的日益增长,在现有RDF数据库上进行SPARQL查询处理已经超出了单机的处理能力.于是,人们需要设计出高性能的分布式RDF数据库以支持对SPARQL查询进行高效的处理.当前,已经有大量的工作来讨论如何搭建分布式RDF数据管理系统.对这些不同的分布式RDF数据管理方法进行综述,将现有的分布式RDF数据管理方法分成3类:基于云计算平台的分布式RDF数据管理方法、基于数据划分的分布式RDF数据管理方法和联邦式系统.基于云计算平台的分布式RDF数据管理方法利用已有云平台进行RDF数据的管理;基于数据划分的分布式RDF数据管理方法首先将RDF数据图划分成若干子图,然后将这些子图分配到不同计算节点上;联邦式系统的特点是数据已经分布在不同节点上,数据管理系统无法控制数据的分布.在每类分布式RDF数据管理方法的介绍中,将深入讨论以帮助读者了解各种方法的特点.Recently,R D F(resource description frame work)has be e n widely used to expose,sh a r e,a n d connect pieces of data o n the W e b,while S P A R Q L(simple protocol and RDF query language)isa structured query language to access R D F repository.A s R D F datasets increase in size,evaluatingS PARQL queries over current R D F repositories is b e y o n d the capacity of a single machine.A s aresult,a high p erformance distributed R D F database system is n eeded to efficiently evaluate S P A R Q Lqueries.T h e r e are a h u g e n u m b e r of w o r k s for distributed R D F data m a n a g e m e n t following differentapproaches.In this paper w e provide an overview of these works.This survey considers three kinds ofdistributed data m a n a g e m e n t a p p r o a c h e s,including cloud-based distributed data m a n a g e m e n ta p p r o a c h e s,partitioning-based distributed data m a n a g e m e n t approaches a n d federated R D F systems.S i m p l y speaking,cloud-based distributed data m a n a g e m e n t approaches use existing cloud platforms tom a n a g e large R D F datasets;partitioning-based distributed data m a n a g e m e n t approaches divide anR D F g r aph into several fragments a n d place each f r a gment at a different site in a distributed s y s t e m;a n d federated R D F systems disallow for re-partitioning the data,since the data has be e n distributedover their o w n a u t o n o m o u s sites.In each kind of distributed data m a n a g e m e n t approaches,furtherdiscussions are also provided to help readers to understand the characteristics of different approaches.

关 键 词:RDF数据管理 SPARQL查询处理 分布式数据库系统 云计算 关联数据 

分 类 号:TP392[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象