机房360首页
当前位置:首页 » 大数据 » 关于大数据存储问题 你可以换个角度思考

关于大数据存储问题 你可以换个角度思考

来源:机房360 作者:yuxin编辑 更新时间:2013/9/25 17:19:18

摘要:大数据涉及到两个不同的技术领域:一是致力于研发可以扩展至PB甚至EB级别的大数据存储平台;另一个则是大数据分析,关注在最短时间内处理大量不同类型的数据集。

  关于大数据的定义,IDC给出了权威评判标准:满足4V(Variety,Velocity,Volume,Value,即种类多、流量大、容量大、价值高)指标的数据称为大数据。IDC对大数据技术的定位为:通过高速捕捉、发现和/或分析,从大容量数据中获取价值的一种新的技术架构。大数据主要涉及两个不同的技术领域:一项致力于研发可以扩展至PB甚至EB级别的大数据存储平台;另一项则是大数据分析,关注在最短时间内处理大量不同类型的数据集。这两个论题已经被充分讨论,这里不准备再作讨论,而是换个角度思考一下大数据,事实上可能与大数据存储平台更相关一点。这些需求或者思考,或源自用户模糊的需求,或源自存储同行的交流讨论,还有一些源自存储实践中的感悟。
  
  统一存储
  
  大数据种类多,涵盖了结构化数据、非结构化数据以及对象数据,分别采用数据块接口、文件接口和对象接口进行访问。目前的大多数企业还没有将三者统一起来,采用不同的存储系统来管理这三类数据,在大数据快速增长的压力下,带来存储利用效率低、管理复杂性高、成本不断提升、资源整合程度低等一系列问题。在这些因素驱动下,统一存储概念得到复兴,SAN/NAS统一存储得到各大存储厂商推崇并相继推出产品,对象存储也有望被一同整合到统一存储中。
  
  磁带存储
  
  一直都有人在预测磁带已死,不过可惜的是,直到目前这个预测还没有成真。相比磁盘,磁带具有成本、寿命、能耗等特性和优势,另外磁带技术本身也在不断发展。关于磁带在大数据中的使用,最为典型是做数据归档,比如上面谈到的长期存储和绿色归档,这里面的数据基本不会被访问。另外还有一种形式是分级存储HSM,磁带、磁盘、SSD固态硬盘、内存形成四级存储,数据按照活跃程度在不同级别存储介质之间流动,以实现较高的性价比。HSM中位于磁带的数据会被访问,只是频率和概率非常低。由于磁带自身的优势以及不断发展,它可能不但不会消亡,反而会在大数据时代重获新生。
  
  存储介质寿命管理
  
  大数据存储系统具有成千上万块磁盘很常见,可能包括FC、SAS、SATA磁盘,还有可能包括SSD固态硬盘和磁带等存储介质。这么大数量的存储介质,每天坏上一两块盘的概率是非常的,不可控制的故障发生会影响前端大数据应用。存储介质的使用年限都有标准,可以基于此进行存储介质寿命管理,结合实际环境进行适当调整,并根据存储介质运行状态进行分析和故障预测。当存储介质使用寿命即将到达,或者预测到故障即将发生,则主动通知管理员对存储介质进行更换,之后有系统自动进行数据重建。如此,可以有效降低存储介质发生故障的随机性,增强故障的可管理性,再结合人为的调度,就可降低或者避免故障发生对大数据应用的影响。
  
  绿色归档
  
  由于法规遵从或长期存储的需要,数据根据生命周期管理需要进行归档处理,采用方法有磁带归档、磁盘归档、光盘归档、CAS系统归档等。大数据数据量大,如果采用磁盘介质进行归档,磁盘数量会很多,正常工作下能耗也是相当可观。为了降低能耗实现绿色归档,同时有效延长磁盘使用寿命,需要考虑相关高效存储技术,包括MAID、SemiRAID、数据压缩、重复数据删除、自动精简配置等。这些技术主要从两个方面着手,一是精减数据量以减少磁盘介质达到降低能耗的目标,如数据压缩、重复数据删除、自动精简配置,二是控制磁盘介质状态或减少活动磁盘数量来实现降低能耗和延长寿命,如MAID和SemiRAID。SNIA相关组织专门研究绿色存储技术,包括提到的上述各种技术。

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/2013925/n380252873.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
转载声明:凡注明来源的文章其内容和图片均为网上转载,非商业用途,如有侵权请告知,会删除。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片