HDVM:基于关系矩阵的关联数据压缩查询模型  被引量:3

HDVM: Compression & Query Model of Linked-Data Based on Relational Matrix

在线阅读下载全文

作  者:符海东[1,2] 彭燊 黄莉 顾进广[1,2,3,4] FU Hai-dong;PENG Shen;HUANG Li;GU Jin-guang(College of Computer Science and Technology,Wuhan University of Science and Technology,Wuhan,Hubei 430065,China;Hubei Province Key Laboratory of Intelligent Information Processing and Real Time Industrial System,Wuhan,Hubei 430065,China;Key Laboratory of Rich-media Knowledge Organization and Service of Digital Publishing Content,SAPPRFT,Beijing 100038,China;Language and Intelligent Information Processing Research Base(Wuhan University),Wuhan,Hubei 430072,China)

机构地区:[1]武汉科技大学,计算机科学与技术学院,湖北武汉430065 [2]智能信息处理与实时工业系统湖北省重点实验室,湖北武汉430065 [3]国家新闻广电出版总局富媒体数字出版内容组织与知识服务重点实验室,北京100038 [4]湖北语言与智能信息处理研究基地(武汉大学),湖北武汉430072

出  处:《电子学报》2018年第3期721-729,共9页Acta Electronica Sinica

基  金:国家自然科学基金(No.61673304,No.61272110);国家社会科学基金重大计划(No.11&ZD189);软件工程国家重点实验室(武汉大学)开放基金(No.SKLSE2012-09-07)

摘  要:随着大数据时代的到来,大量的RDF数据充斥着整个数据网络.RDF(Resource Description Framework)后台引擎管理巨大的数据集时,数据集索引不能全部加载到内存中,导致系统需要执行缓慢的磁盘访问来解决SPARQL查询.本文提出了一种HDVM(Header Dictionary Vector Matrix)压缩查询模型,通过在关联数据集中提取潜在的三元组关系矩阵,以主语向量、谓语向量和宾语矩阵的模型序列化存储来减少关联数据重复出现的次数,允许SPARQL查询在压缩状态下全内存执行.实验结果表明,本文提出的模型比常用的HDT(Header-Dictionary Triples)压缩方式提高了3%~20%的压缩率,同时在三元组个数达到十亿级别的数据集上平均查询时间在400ms左右.With the arrival of big data era,a large number of RDF(Resource Description Framework)data is flooding the entire Web of Data.Since the indexes of these datasets cannot be fully loaded in main memory when the RDF engines manage these huge datasets,these systems need to perform slow disk accesses to solve SPARQL queries.In this paper,a method named HDVM is proposed to reduce the number of linked data repeated times by extracting the latent triplet relation matrix from the linked dataset,and storing them in the form of subject vector,predicate vector and object matrix,which allows SPARQL queries to be full-in-memory performed without decompression.The experimental results show that the HDVM(Header Dictionary Vector Matrix)model proposed in this paper can improve the compression rate by 3%~20%compared with HDT(Header-Dictionary Triples),and the query time on billion-level-size dataset reaches average 400 milliseconds.

关 键 词:关系矩阵 关联数据 查询 压缩 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象