机房360首页
当前位置:首页 » 数据备份 » 数据备份中重复数据删除应用状况

数据备份中重复数据删除应用状况

来源:TT中国 作者:Randy编辑 更新时间:2011-11-30 14:38:46

摘要:在数据持续增长以及高度分布式的环境中,企业和重复数据删除供应商通过其它途径优化数据的重复删除,包括新体系架构、分包技术以及重复数据删除技术。


  
  另一种方式是采用哈希算法。一些供应商将备份数据流分为固定大小的数据块(从8KB到256KB),产生一个哈希值并将其在之前数据块哈希计算目录中比较。唯一的哈希表示唯一的数据应当进行存储,而一个重复的哈希值表示冗余数据,因此只有指向唯一数据的指针会被存储。另外的供应商通过变化大小的数据块提高文件修改后通常字段被检测到的概率。这种方式找到文件中可能产生的自然模式或中断点并以此分配数据。即使数据块随着文件变更而迁移,这种方式更易于找到重复的部分。交替数据段长度变化的方式较每个字段唯一编号,需要供应商更多的跟踪比较工作,而这也会影响目录的大小和计算所需的时间。
  
  Arkeia Software使用另一种其称为高级重复数据删除技术的方式。通过滑动窗口数据块大小和一种分两步的高级匹配技术优化其重复数据删除技术。文件并分割成固定的数据块,不过数据块会有重叠,这样当文件修改后,这些数据边界容纳了插入的字节。Arkeia基于文件类型,通过自动分配固定数据块大小(1KB到32KB)增加了另一层优化。该技术同时使用滑动窗口来判定重复数据块位于文件中每个字节的具体位置。高级重复数据删除技术可以实现高比率的删除率并在加速流程的过程中最小化错误发生。
  
  随着重复数据删除技术的日趋成熟,用户已经逐步经历了不少应用中的痛点。数据量的不断增长使备份和恢复对性能和扩展性有越来越高的要求,这进而使得重复数据删除技术的横向扩展解决方案越受关注。而在远端或分支机构中取代磁带设备的应用方式形成了优化站点之间的复制,以及在备份目录中跟踪这些复制卷的要求。
  
  在ESG最近一次数据保护趋势调查报告中,其调查了最终用户在采购重复数据删除技术时最为关注的标准和成本。一些会影响成本的因素列举如下:
  
  •一些备份软件供应商在其产品中免费添加重复数据删除功能(比如CA和IBM的TSM),而其它的则要收费。
  
  •有一些隐性成本,比如在重复数据删除系统之间激活复制功能可能会额外收费。以及备份站点需要和生产站点一样(或至少近似)建立这一系统,这使得成本翻倍。当然也有例外,比如Symantec 5000系列产品,其免费包含了设备到设备之间的复制功能。Symantec同时给予前端被保护的数据容量收取许可证费用,而非根据后端数据存储的容量进行收费,因此对复制拷贝并不产生额外成本。
  
  •目标重复数据删除系统供应商将软件捆绑在其存储硬件上,因此当更新硬件平台时你就重复购买了软件部分。同样,Symantec采用一种不同的方式,对软件和硬件分别收费。
  
  用户驱动的新去重技术的发展
  
  Arkeia的高级重复数据删除方式只是一个例子而已,其他公司都在推动重复数据删除技术。CommVault在物理磁带媒介上进行重复数据删除可以作为另一个例子。尽管目前的宣传都集中在基于磁盘的数据保护并暗示磁带可能走向消亡,对于很多企业而言,事实是对于数据的长期保存,磁带仍是一种低成本的方式。重复数据删除技术被认为是针对磁盘的技术,因为需要重复数据删除的目录,以及所有的唯一性数据在其存储媒介上可以重新组成并被访问。这意味着将重复删除后的数据从磁盘拷贝或移动至磁带时,必须被重新构建,这和数据降低这一最终目的相抵触。不过Comm Vault Simpana软件能够使得重复删除后的数据拷贝出来归档,而不需重新构建,从而降低了磁带媒介的容量要求。更重要的是,数据可以从磁带媒介上进行恢复而无需先将整盘磁带恢复到磁盘上。
  
  源端的重复数据删除方式正在逐步流行起来,其最大优势在于端到端的高效备份更接近于数据源(提供内容无关,网络带宽节省以及更快速地备份),以及将重复数据删除的处理流程分布在整个环境中(而和目标端重复数据删除系统那样容易产生瓶颈)。以上两种优势在HP的StoreOnce和EMC的Data Domain重复删除产品中充分体现。
  
  虽然HP的Data Protector备份体系架构中在今天还没有内置重复数据删除功能,但用户可以通过StoreOnce重复数据删除产品获取该项功能。StoreOnce是一个模块化的部件,可以在文件系统中作为一项服务运行。其可以和HP的Data Protector备份软件和HP横向扩展文件系统集成,或植入HP的体系架构组件之中。StoreOnce的运算包含两个步骤:采集大量数据序列(约10MB)来判定数据重复的可能性,将其排序成重复数据删除的最佳节点,然后通过一次哈希算法来比较更小的数据块。HP的重复数据删除策略比较特别,其可移植,可扩展并且是全局化的。这也意味着重复数据删除的部署可以通过局域网或城域网扩展到整个存储系统中,而无需在重复数据删除层之前转化数据。
  
  EMC的Data Domain Boost选项可以激活Data Domain在Net Backup和BackupExecOST环境的媒介服务器以及和EMC NetWorker站点中实现重复数据删除的预处理操作。DataDomain软件组件安装在媒介服务器上。通过将重复数据删除工作负载分布式进行,这项操作可以改善性能并提升媒介服务器和Data Domain目标重复数据删除系统之间的网络效率。
  
  重复数据删除技术的未来
  
  基于磁盘的数据保护解决了备份窗口的问题,而重复数据删除技术解决了备份配置中硬盘的成本问题。不过最新的一些技术,比如基于阵列的快照技术,正逐步融合在现有技术中以满足那些要求零备份窗口或很短下线时间要求的企业的高性能需求。在许多情况下,数据块级别增量备份技术和重复数据删除组合在新的快照产品之中。NetApp的Integrated Data Protection产品(Snap Vault、Snap Mirror和Snap Protect),配合NetApp基于FAS产品线的重复数据删除技术,可以消除在备份软件中重复删除或目标重复数据删除的需要。
  
  类似的,Actifio Virtual Data Pipeline(VDP)可以进行全镜像级别的备份和之后持续的数据块级别的增量备份,并通过重复数据删除和压缩技术,因此无需为降低数据量购置额外的第三方产品。NimbleStorage公司也采用类似的方式。其在单一解决方案中组合了主存储和次存储,利用快照和复制类型的数据保护,并采用容量优化来降低所需备份的数据。这种方式正在逐步取代传统的备份方式,以及传统的重复数据删除技术。
  
  责任编辑:Randy

本文地址:http://www.jifang360.com/news/20111130/n615531936.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
更多
推荐图片