摘要:大数据涉及到两个不同的技术领域:一是致力于研发可以扩展至PB甚至EB级别的大数据存储平台;另一个则是大数据分析,关注在最短时间内处理大量不同类型的数据集。 |
统一存储
大数据种类多,涵盖了结构化数据、非结构化数据以及对象数据,分别采用数据块接口、文件接口和对象接口进行访问。目前的大多数企业还没有将三者统一起来,采用不同的存储系统来管理这三类数据,在大数据快速增长的压力下,带来存储利用效率低、管理复杂性高、成本不断提升、资源整合程度低等一系列问题。在这些因素驱动下,统一存储概念得到复兴,SAN/NAS统一存储得到各大存储厂商推崇并相继推出产品,对象存储也有望被一同整合到统一存储中。
磁带存储
一直都有人在预测磁带已死,不过可惜的是,直到目前这个预测还没有成真。相比磁盘,磁带具有成本、寿命、能耗等特性和优势,另外磁带技术本身也在不断发展。关于磁带在大数据中的使用,最为典型是做数据归档,比如上面谈到的长期存储和绿色归档,这里面的数据基本不会被访问。另外还有一种形式是分级存储HSM,磁带、磁盘、SSD固态硬盘、内存形成四级存储,数据按照活跃程度在不同级别存储介质之间流动,以实现较高的性价比。HSM中位于磁带的数据会被访问,只是频率和概率非常低。由于磁带自身的优势以及不断发展,它可能不但不会消亡,反而会在大数据时代重获新生。
存储介质寿命管理
大数据存储系统具有成千上万块磁盘很常见,可能包括FC、SAS、SATA磁盘,还有可能包括SSD固态硬盘和磁带等存储介质。这么大数量的存储介质,每天坏上一两块盘的概率是非常的,不可控制的故障发生会影响前端大数据应用。存储介质的使用年限都有标准,可以基于此进行存储介质寿命管理,结合实际环境进行适当调整,并根据存储介质运行状态进行分析和故障预测。当存储介质使用寿命即将到达,或者预测到故障即将发生,则主动通知管理员对存储介质进行更换,之后有系统自动进行数据重建。如此,可以有效降低存储介质发生故障的随机性,增强故障的可管理性,再结合人为的调度,就可降低或者避免故障发生对大数据应用的影响。
绿色归档
由于法规遵从或长期存储的需要,数据根据生命周期管理需要进行归档处理,采用方法有磁带归档、磁盘归档、光盘归档、CAS系统归档等。大数据数据量大,如果采用磁盘介质进行归档,磁盘数量会很多,正常工作下能耗也是相当可观。为了降低能耗实现绿色归档,同时有效延长磁盘使用寿命,需要考虑相关高效存储技术,包括MAID、SemiRAID、数据压缩、重复数据删除、自动精简配置等。这些技术主要从两个方面着手,一是精减数据量以减少磁盘介质达到降低能耗的目标,如数据压缩、重复数据删除、自动精简配置,二是控制磁盘介质状态或减少活动磁盘数量来实现降低能耗和延长寿命,如MAID和SemiRAID。SNIA相关组织专门研究绿色存储技术,包括提到的上述各种技术。