检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:符海东[1,2] 彭燊 黄莉 顾进广[1,2,3,4] FU Hai-dong;PENG Shen;HUANG Li;GU Jin-guang(College of Computer Science and Technology,Wuhan University of Science and Technology,Wuhan,Hubei 430065,China;Hubei Province Key Laboratory of Intelligent Information Processing and Real Time Industrial System,Wuhan,Hubei 430065,China;Key Laboratory of Rich-media Knowledge Organization and Service of Digital Publishing Content,SAPPRFT,Beijing 100038,China;Language and Intelligent Information Processing Research Base(Wuhan University),Wuhan,Hubei 430072,China)
机构地区:[1]武汉科技大学,计算机科学与技术学院,湖北武汉430065 [2]智能信息处理与实时工业系统湖北省重点实验室,湖北武汉430065 [3]国家新闻广电出版总局富媒体数字出版内容组织与知识服务重点实验室,北京100038 [4]湖北语言与智能信息处理研究基地(武汉大学),湖北武汉430072
出 处:《电子学报》2018年第3期721-729,共9页Acta Electronica Sinica
基 金:国家自然科学基金(No.61673304,No.61272110);国家社会科学基金重大计划(No.11&ZD189);软件工程国家重点实验室(武汉大学)开放基金(No.SKLSE2012-09-07)
摘 要:随着大数据时代的到来,大量的RDF数据充斥着整个数据网络.RDF(Resource Description Framework)后台引擎管理巨大的数据集时,数据集索引不能全部加载到内存中,导致系统需要执行缓慢的磁盘访问来解决SPARQL查询.本文提出了一种HDVM(Header Dictionary Vector Matrix)压缩查询模型,通过在关联数据集中提取潜在的三元组关系矩阵,以主语向量、谓语向量和宾语矩阵的模型序列化存储来减少关联数据重复出现的次数,允许SPARQL查询在压缩状态下全内存执行.实验结果表明,本文提出的模型比常用的HDT(Header-Dictionary Triples)压缩方式提高了3%~20%的压缩率,同时在三元组个数达到十亿级别的数据集上平均查询时间在400ms左右.With the arrival of big data era,a large number of RDF(Resource Description Framework)data is flooding the entire Web of Data.Since the indexes of these datasets cannot be fully loaded in main memory when the RDF engines manage these huge datasets,these systems need to perform slow disk accesses to solve SPARQL queries.In this paper,a method named HDVM is proposed to reduce the number of linked data repeated times by extracting the latent triplet relation matrix from the linked dataset,and storing them in the form of subject vector,predicate vector and object matrix,which allows SPARQL queries to be full-in-memory performed without decompression.The experimental results show that the HDVM(Header Dictionary Vector Matrix)model proposed in this paper can improve the compression rate by 3%~20%compared with HDT(Header-Dictionary Triples),and the query time on billion-level-size dataset reaches average 400 milliseconds.
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49