相似性—局部性方法相关参数分析  被引量:3

Analysis of Related Parameters Based on Similarity-locality Approach

在线阅读下载全文

作  者:张星煜[1] 张建[1] 辛明军[1] 

机构地区:[1]上海大学计算机工程与科学学院,上海200444

出  处:《计算机技术与发展》2014年第11期47-50,共4页Computer Technology and Development

基  金:国家自然科学基金资助项目(61074135)

摘  要:大数据时代到来,备份数据量增大给存储空间带来新的挑战。重复数据删除技术在备份存储系统中正逐渐流行,但大量数据访问,造成了磁盘的很大负担。针对重复数据删除技术存在的块索引查询磁盘瓶颈问题,文中提出了文件相似性与数据流局部性结合方法改善磁盘I/O性能。该方法充分发挥了各自的优势,相似性优化了索引查找,可以检测到相同数据检测技术不能识别的重复数据;而数据局部性保留了数据流的序列,使得cache的命中率提高,减少磁盘访问次数。布鲁过滤器存储数据块索引可节省大量查询时间和空间开销。对于提出的解决方法所涉及的重要参数如块大小、段大小以及对误判率的影响做了深入分析。通过相关实验评估与性能分析,实验数据与结果为进一步系统性能优化问题提供了重要的数据依据。Big data era comes,and the increase of the backup brings new challenges to deduplication. Data deduplication is becoming in-creasingly popular in storage systems to data backup,but a lot of accesses cause a great burden of disk. For the block index-lookup disk bottleneck,present that combining file similarity with data stream locality is to improve disk I/O performance,and the approach reaches their full advantages. Similarity optimizes index-lookup and detect the duplicate data cannot be recognized by duplicate data detection technology. Locality reserves the sequence of the data stream,and it improves the hit rate of cache and reduces disk access. Bloom filter stores block index to save a lot of time and space overhead. The related parameters of the solution are made deep analysis,such as the block size,the segment size,and their sizes influence to false positive. Through the relevant experiment assessment and performance anal-ysis,the experimental data and results provide an important basis for the further system performance optimization problem.

关 键 词:重复数据删除技术 相似性与局部性 布鲁过滤器 磁盘瓶颈 

分 类 号:TP301[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象