机房360首页
当前位置:首页 » 云存储 » 基于差量的重复数据删除方法

基于差量的重复数据删除方法

来源:机房360 作者:GOCN编辑 更新时间:2013-1-31 18:11:39

摘要:基于差量的重复数据删除方法,其原理是通过计算一个数据对象相对于另一个已知数据对象的差别,则目标对象可以通过对源对象和差最进行运算得到。对应于存储系统,则只需要存储源对象和差量即可(67),(68),(69)。其典型用途是用于版本控制系统、HTTP协议、备份和恢复系统等。

  基于差量的重复数据删除方法,其原理是通过计算一个数据对象相对于另一个已知数据对象的差别,则目标对象可以通过对源对象和差最进行运算得到。对应于存储系统,则只需要存储源对象和差量即可(67),(68),(69)。其典型用途是用于版本控制系统、HTTP协议、备份和恢复系统等。

  相似性检测首先使用滑动窗口沿整个文件计算Rabin Fingerprint指纹,然后使用确定性选择算法从这些特写中选择一个子集用于计算两个文件的相似性程度,最初的思想由Manber提出,Broder进行了改进。

  Manber使用Rabin Fingerprint指纹对数据进行采样以发现相似文件,方法是计算一个文件中某个长度的全部可能的子链的指纹,根据指纹值选择这些指纹的子集,这些被选中的指纹提供一个文件的简沽表示,用于比较其他指纹文件。与此相似,Broder对Web页使用相似性检测,识别和过滤近似重复的文档。通过计算滑动窗口的Rabin指纹有效地创建给定Web页的shingle向量,用于测量大批Web页文档的相似性,而不必比较整个文档。Spring和Wetherall使用Manber和Broder的技术消除冗余网络流量,使用Rabin指纹作为数据流指示器,茬指纹区域前后寻找内容交替的区域(73)。

  Delta和相似性检测两种方法结合起来,成为通过相似性检测的Delta压缩 (DERD),一般需要预先了解存在的对象之间的命名关系,相似性检测基于其内容而不是名字找到数据对象的相似性。这两个技术结合起来先找到无关对象的相似性,然后对其中的一个对象相对干另一个对象进行delta编码(74)。You和Karamanolis的工作对传统压缩、变长数据片段和DERD进行了比较,得出的结论是:数据片段分割和DERO优于传统的压缩;对于相似性很好的数据,数据片段分割优于DERD:对相似性比较少的数据,DERD工作得更好(75)。但总体来说,基于差量的重复数据删除方法不太适用于大规模归档存储系统,因为如何在海量中选择源对象是一个代价很高的操作,且操作代价随着数据最的增长而增加。除了上述的算法之外,还有许多商业系统采用了重复数据删除技术,如Data Domain(76),Quantum公司的Dxi系列(77),EMC公司的Centera(78),以及Symantec公司的PureDisk(79)等产品。

  责任编辑:GOCN

本文地址:http://www.jifang360.com/news/2013131/n046944924.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
更多
推荐图片