基于文件相似性分簇的重复数据消除模型  被引量:2

Deduplication model based on file-similarity clustering

在线阅读下载全文

作  者:王灿[1,2] 秦志光[1,2] 王娟[3] 蔡博[1,2] 

机构地区:[1]电子科技大学计算机科学与工程学院,成都611731 [2]网络与数据安全四川省重点实验室,成都611731 [3]成都信息工程学院网络工程学院,成都610225

出  处:《计算机应用研究》2012年第5期1684-1689,共6页Application Research of Computers

基  金:教育部培育基金资助项目(708078);国家自然科学基金资助项目(60873075;60973118)

摘  要:为解决现有提高重复数据消除系统吞吐量方法的局部性依赖和多节点依赖问题,提出了一种基于文件相似性分簇的重复数据消除模型。该模型将传统平面型索引结构拓展为空间结构,并依据Broder定理仅选择少量最具代表性的索引驻留在内存中;同时对索引进行横向分片并分布到完全自治的多个节点。实验结果表明,该方法能有效提高大规模云存储环境下重复数据消除性能和平均吞吐量,且各节点数据负载量均衡,故该模型可扩展性强。To resolve the locality dependence and multiple-nodes dependence problems of the current throughput improving methods for deduplication system,this paper proposed a deduplication model based on file-similarity clustering.This model expanded the traditional flat index structure into spatial structure.According to the Broder's theorem,it kept only a handful of the most representative indices in RAM.It partitioned the index horizontally and distributed on several totally autonomous storage nodes.The experimental results indicate that the model can effectively improve the deduplication performance and the throughput on average in the large scale cloud-storage environment,and the data loads are balanced.Therefore,the model can be extended smoothly.

关 键 词:云存储 重复数据消除 吞吐量 文件相似性分簇 负载均衡 

分 类 号:TP309.3[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象