大数据存算分离成趋势华为加码布局_机房360

摘要：数字经济时代，数据成为新的生产资料，数据驱动体验、数据驱动决策、数据驱动流程的各种应用正不断上演。伴随5G、AI等技术的发展，数据量将迎来爆发式增长，这一形势下，传统大数据存算一体架构，面临不小冲击。

　　数字经济时代，数据成为新的生产资料，数据驱动体验、数据驱动决策、数据驱动流程的各种应用正不断上演。伴随5G、AI等技术的发展，数据量将迎来爆发式增长，这一形势下，传统大数据存算一体架构，面临不小冲击。

　　“计算存算分离是大数据架构演进的必然趋势，也是解决行业用户数据痛点的一大利器。计算和存储是两套独立的集群，把存储从原来的系统中剥离出来形成独立的存储集群，可以按需投资，要多少计算买多少计算，要多少存储买多少存储，避免浪费，提高分析效率。”在8月26日召开的2020(第五届)大数据产业生态大会上，华为技术有限公司海量存储领域副总裁徐强接受中国工业报采访时表示。

　　在徐强看来，分布式架构的专业存储更适合企业级市场，不仅能实现统一的存储资源池和灵活的扩展，还能让用户享受更专业的存储，更佳的可靠性和利用率。“伴随中国制造业数字化转型的深化，年底工业领域占整体分布式存储的份额有望提升至30%。”徐强透露。

　　大数据架构走向存算分离

　　存算分离正成为大数据架构演进的重要趋势。

　　“5G、云、AI加速行业数字化转型，海量数据时代已经到来。海量数据促使企业从数据管理走向数据运营，正面临成本高、存不下;效率低、流不动;自动化差、管不好三大挑战。”徐强分析。

　　Hadoop1.0时代，计算和存储是高度融合，仅能处理单一的MapReduce分析业务;Hadoop2.0时代，计算层与数据开始解耦，通过Yarn实现了独立的资源管理，并开始支持Spark等更多的计算引擎;而如今来到Hadoop3.0时代，计算存储已分开演进，通过Hadoop EC来支持冷数据的存储，同时引入外置存储，如S3，增强其存储底座能力，逐步向数据湖架构演进。

　　“Hadoop3.0时代，计算正向轻量化和容器化方向发展，计算存储分离演进已成为事实。计算存储分离后，我们用企业级的存储基座替代原来的原生大数据存储基座，好处是可以把当前企业级存储的先进技术带入到大数据里面来，如高可靠、高利用率、多协议融合等，更好地释放数据的价值。”徐强表示。

　　资料显示，华为从2002年涉足存储技术研究，十几年来不断提升自主研发能力和核心竞争力，截至2018年底，存储产品已经服务于全球150多个国家的超过9000家客户。存储产业经过几十年的发展，衍生出各种各样的存储产品，满足了企业应用的各种诉求。

　　2018年，华为创新性推出基于OceanStor Pacific系列的大数据存算分离方案。在成本方面，华为大数据存算分离方案实现存算分离，资源按需独立扩展，弹性EC、冷热数据分级，存储成本大幅降低。在数据应用效率方面，华为OceanStor Pacific系列采用全对称分布式NameNode，集群性能和支持文件数随节点数目增加线性提升，单一命名空间支持文件数达百亿级。在实际操作运维方面，华为OceanStor Pacific系列提供的原生HDFS接口提供了更佳性能和使用体验。通过ViewFS或Hbase元数据网关方式可实现新老共存，实现存算一体向存算分离的平滑演进，保护用户已有投资。

　　据徐强透露，华为投入数百人力专门设计开发了大数据存储系统，目的就是提供和原有开源的大数据底座一模一样的能力，以无损的方式提供大数据存算分离的技术能力。可喜的是，自去年以来，华为大数据存算分离方案已逐步落地应用在电信、金融、政务等各个领域，正帮助千行百业降低数据存储成本，提升数据分析效率，加速数据价值释放。

　　工业领域分布式存储份额年底有望达三成

　　华为基于OceanStor Pacific系列的大数据存算分离方案发布两年来，在各行业取得的实践效果日渐显现。

　　今年7月，中国联通基于华为 OceanStor Pacific 海量存储的大数据平台正式上线，标志着中国联通和华为技术有限公司在大数据计算存储分离架构的规模化技术创新方面取得了全面突破。华为大数据存算分离方案打破了传统大数据平台计算存储紧耦合的部署架构，使的大数据平台建设的成本得到了很大的降低。这一方案的创新在于首次尝试使用另一种更加高效的方式来解决大数据存储方案，且通过存储层全分布式架构和协议融合互通的高效性，从而提升数据分析效率。

　　据徐强介绍，华为的海量存储在制造业中的主要应用场景是高性能计算。例如，车企的自动驾驶场景，每辆汽车每天的训练数据接近100TB，每天有几百上千辆汽车要做训练，从而催生海量的数据。

　　此外，芯片设计制造、气象卫星和石油勘探等行业，也会涉及高性能计算，对海量存储的需求也较大。

　　“工业领域适合用分布式存储的场景，主要有两大类，第一类是数据量特别大的，传统的存储搞不定，因为传统存储之间是独立的，数据没法共享。只有海量存储才能把数据池做的足够大，例如自动驾驶。第二类是对数据访问有高性能需求的，如芯片设计。芯片设计过程中，都需要对数据进行快速的、对时延要求非常高的访问，所以对分布式海量存储也有需求。”徐强分析。

　　据其预测，尽管当前工业领域的分布式存储占整个分布式存储的比例不到20%，鉴于工业领域旺盛的市场需求，这一占比年底前有望提至三成。

　　“还应看到，在国内做分布式存储的厂家较多，但水平参差不齐。很多厂商基于开源软件涉足，加之云服务转型也在对分布式存储产生冲击，整个分布式存储产业面临的各方压力依然不小。”徐强提醒。

　　责任编辑：张华

JIFANG360.com - 机房360

大数据存算分离成趋势 华为加码布局

大数据存算分离成趋势华为加码布局