机房360首页
当前位置:首页 » 数据备份 » 存储技术的新宠:重复数据删除技术

存储技术的新宠:重复数据删除技术

来源:中国绿色数据中心 作者:机房360 更新时间:2009-9-8 15:31:02

摘要:面对经济低迷等状况,软硬件厂商则绞尽脑汁的推出各种有可能获得企业青睐的产品技术;就连一向低调的存储厂商也不例外,如更加大张旗鼓的鼓吹可通过删除重复数据等方式落实节流。但企业有必要全盘买单吗?


  
    整合既有的存储技术

  由于数据去重复化技术可以档案、区块与位等3种方式进行。其中是以档案的去重复化最没有效率。至于以区块和位的方式进行数据去重复化的技术虽然效率极高,但也存在一个问题:需要更高的运算能力。

  这与以区块或位的方式移除重复性数据的作法是以MD5或SHA-1等哈希算法检视档案内容的方式有关。由于该种作法是透过为每一组数据编列一个唯一的哈希数字组,并以此作为比对索引,系统只要一发现被编列为一样的哈希数字组,即会进行数据删除;因此,为避免哈希碰撞问题不断发生--系统不小心将两组不一样的数据归类成相同的HASH数字组,并放弃存储被编列为相同HASH数字组的数据--通常会通过结合数种HASH算法、或是检视中介数据等方式降低hash碰撞的发生机率。

  而该种做法意味着企业必须有极强的后端运算资源执行以HASH算法删除重复数据的数据去重复化技术,并且有足够大的索引数据库追踪个别的数据组。因此,基于现实的考虑,决定要导入数据去重复化技术的企业多半会选择将该技术与传统的压缩或变动差异等作法整合在一起使用。

  当前两种主要的产品形态

  就目前的重复数据删除技术产品来说,大约可分为软件和硬件两种。

  前者是指在备份服务器上安装代理程序,利用备份服务器的运算能力将数据去重复化后再备份。这种方法除在企业进行全备份时会明显拉长备份时间外,如何区隔在同一部服务器上的备份软件与重复数据删除软件的责任也是一个潜在的维护问题。

  至于后者则是指安装独立的硬件装置执行重复数据删除软件。当然,随着该硬件装置在备份环境中的位置不同,其产生的的影响也会有所不同。

  简单来说,一种是先备份再去重复化,另一种则相反。前者不会影响备份完成的时间,后者则使用较小的磁盘空间。

  另外,由于重复数据删除技术与数据备份作业的关系极为密切,因此有一些虚拟磁带的制造商开始将重复数据删除技术整合至其销售的虚拟磁带产品。笔者以为,对那些尚未建置虚拟磁带环境的企业来说,若是能趁着有需要时一次引进两种技术也是个不错的选择。

  仅采用新技术还不够

  从近期各大存储厂商的动态来看,其似乎有志一同的看好重复数据删除技术。但笔者认为,无论是哪一种存储或备份技术,其产生的效益皆、都是"视情况而定",也因如此,恐怕企业无法单纯的以重复数据删除技术为那些已存储的数据瘦身、进而节流。

  以重复数据删除技术来说,由于数据类型、数据变动率与重复性数据的数量等数据内容,要以全备份、间备份或差异量备份的方式进行数据备份,以及企业打算将备份数据保留多少时间等因素皆会左右该技术功效,因此,企业若是抱持引进该技术即可无碍的将肥胖的数据彻底瘦身一番的预设心态,恐怕会陷入结果不如预期的窘境。

  既然如此,企业到底该如何通过删除重复数据落实节流呢?除了先花一笔大钱导入重复数据删除技术外,笔者建议企业或许可以先透过一些"无料"的手法将庞杂的已存储数据瘦身一番,其后再考虑是否要进一步采购其他的存储软硬产品。

本文地址:http://www.jifang360.com/news/200998/n90731995.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
更多
推荐图片