机房360首页
当前位置:首页 » 云计算资讯 » 云数据仓库比较:实时工作负载的Redshift vs BigQuery vs Azurevs Snowflake

云数据仓库比较:实时工作负载的Redshift vs BigQuery vs Azurevs Snowflake

来源:机房360 作者:Harris编译 更新时间:2021/7/13 7:29:59

摘要:数据有助于公司从决策中排除猜测。团队可以使用数据驱动的证据来决定要构建哪些产品、要添加哪些功能以及要实施哪些增长计划。而且,这种洞察驱动的业务以每年30%以上的速度增长。

    本文涵盖了云数据仓库选项的优点和缺点,并深入研究了在选择云数据仓库时需要考虑的因素。
  
  数据有助于公司从决策中排除猜测。团队可以使用数据驱动的证据来决定要构建哪些产品、要添加哪些功能以及要实施哪些增长计划。而且,这种洞察驱动的业务以每年30%以上的速度增长。
  
  但是,仅仅是数据感知和洞察驱动是有区别的。发现真知灼见需要找到一种近实时分析数据的方法,而这正是云数据仓库发挥重要作用的地方。作为可扩展的数据存储库,仓库允许企业通过存储和分析大量结构化和半结构化数据来发现见解。
  
  而且,运行数据仓库不仅仅是一项技术举措。它对整体业务战略至关重要,可以为未来的产品、营销和工程决策提供信息。
  
  但是,选择一个云数据仓库提供商可能是一个挑战。用户必须评估成本、性能、处理实时工作负载的能力以及其他参数,以决定哪家供应商最适合他们的需求。
  
  为了帮助这些工作,我们分析了四个云数据仓库:Amazon Redshift、Google BigQuery、Azure Synapse Analytics和Snowflake。我们涵盖了这些选项的优点和缺点,并深入研究了在选择云数据仓库时需要考虑的因素。
  
  什么是数据仓库?我应该在什么时候使用数据仓库?
  
  数据仓库是一个将来自不同来源的数据带到中央存储库并为快速检索做好准备的系统。数据仓库通常包含从事务系统、操作数据库和其他来源提取的结构化和半结构化数据。工程师和分析师将这些数据用于商业智能和其他各种目的。
  
  数据仓库可以在本地、云中实现,也可以两者兼而有之。内部部署的方法需要有物理服务器,这使得扩展成本更高,而且用户必须购买更多的硬件。在线存储数据成本较低,而且扩展几乎是自动化的。
  
  何时使用数据仓库。
  
  数据仓库可用于各种任务。您可以使用它将历史数据存储在一个统一的环境中,作为一个单一的真相来源。来自整个组织的用户可以依赖该存储库执行日常任务。
  
  数据仓库还可以统一并分析来自web、客户关系管理(CRM)、移动和其他应用程序的数据流。今天的公司使用越来越多的软件工具;从多个来源提取数据,将其转换为可消费的格式,并将其存储在仓库中,对于理解数据至关重要。
  
  而且,有价值的数据存储在仓库中,您可以超越传统的分析工具,使用SQL查询数据,以发现深入的业务见解。
  
  例如,公司使用谷歌分析(Google Analytics,GA)来了解客户如何参与他们的应用程序或网站。但是,用户可以发现的见解的深度受到GA属性的限制。更好的方法是将GA与已经存储了Salesforce、Zendesk、Stripe等平台数据的数据仓库连接起来。由于所有数据都存储在一个地方,所以分析、比较不同的变量和生成有见地的数据可视化就容易多了。
  
  不能用数据库吗?
  
  传统观点认为,除非您有太字节或太字节的复杂数据集,否则您可能可以使用诸如PostgreSQL之类的OLTP数据库。然而,云计算使得数据仓库对于更小的数据量来说更具成本效益。例如,BigQuery对于第一TB的查询处理是免费的。此外,无服务器云数据仓库的总体拥有成本使分析变得简单。更不用说,在流行的云数据仓库工具之上,还有一个扩展的数据集成、数据可观察性和商业智能生态系统,可以加速您的分析操作。
  
  流行的云数据仓库
  
  如今许多新的云数据仓库都是使用来自主要供应商的解决方案构建的,如Amazon Redshift、Google BigQuery、Microsoft Azure Synapse Analytics和Snowflake。
  
  主要供应商在成本或技术细节上有所不同,但他们也有一些共同的特点。他们的云数据仓库非常可靠。虽然可能会发生中断或故障,但数据复制和其他可靠性功能可确保您的数据得到备份并可以快速检索。
  
  Amazon、Google、Microsoft和Snowflake还提供高度可扩展的云数据仓库。他们的解决方案使用大规模并行处理(MPP),一种存储结构,它同时处理多个操作,可快速地放大或缩小存储和计算资源。数据以柱状形式存储,实现了更好的压缩和查询。
  
  与现有数据仓库相比,云替代方案更具可扩展性、更快性、实时性,而且总是最新的。
  
  雪花
  
  雪花是一个云数据仓库,运行在谷歌云、Microsoft Azure和AWS云基础架构之上。由于该服务不是在自己的云上运行,而是使用主要的公共云供应商,因此它更容易跨云和区域移动数据。
  
  雪花支持几乎无限数量的并发用户,并且可以运行几乎零维护或管理。更新元数据、真空吸尘器和许多其他常规维护任务都是自动化的。缩放也是自动的,每秒钟定价。
  
  用户还可以使用SQL或其他BI和ML工具查询半结构化数据。雪花还提供了对文档存储格式的本地支持,例如XML、JSON、Avro等。它的混合体系结构分为三个不同的层:云服务层、计算层和存储层。
  
  雪花越来越受欢迎,拥有包括乐天在内的许多主要客户。日本电子商务集团使用雪花来扩展其数据资源。该公司的现金回收和购物奖励计划,称为乐天奖励,使用的CPU和内存量不断增加。需求超出了现有数据仓库的能力。
  
  乐天随后引进雪花,并为各小组设立专门仓库。不同业务单元的工作负载被隔离到不同的仓库中,以防止它们相互干扰。这种方法是可能的,因为雪花将存储层和计算层分隔开来。因此,乐天降低了成本,提高了数据处理效率,并对其数据操作获得了更多的可见性。Rakuten分析副总裁Mark Stange Tregear说:
  
  “我知道我为销售团队提供报告付出了多少,我能看到我们花了多少钱来提取数据进行财务分析。”
  
  亚马逊Redshif
  
  Amazon Redshift是亚马逊提供的云数据仓库服务。该服务处理各种大小的数据集,从几GB到PB或更多。
  
  用户最初启动一组节点并提供它们,然后上传数据并进行分析。Redshift数据仓库服务是AmazonWeb服务(AWS)生态系统的一部分,它提供了各种功能。例如,用户可以将数据导出到数据湖,并与Salesforce、GoogleAnalytics、Facebook广告、Slack、Jira、Spluk和Marketo等其他平台集成。仓库服务使用柱状存储、数据压缩和区域映射实现高性能和高效的存储。
  
  Redshift拥有数万客户,包括辉瑞、Equinox、Comcast等。2020年,亚马逊还开始与必胜客合作。该连锁餐厅使用Redshift整合其亚太地区门店生产的数据。这个数据仓库允许团队快速访问PB的数据、运行查询和生成可视化。现在,商业情报报告是以分钟而不是几个小时的时间来编制的。”“在两个月内,我们可以看到,该地区是否正在用绿色和红色指标来实现销售目标和业绩目标,”必胜客亚太区数字体验经理潘一国说我们还可以深入研究任何潜在问题,并确定需要进行故障排除的内容。”
  
  谷歌BigQuery
  
  BigQuery是Google提供的一个无服务器的多云数据仓库。该服务可以快速分析数兆字节到数兆字节的数据。
  
  与Redshift不同,BigQuery不需要预先配置,并且自动化各种后端操作,例如数据复制或计算资源的扩展。它自动加密静止和传输中的数据。
  
  BigQuery体系结构由几个组件组成。Borg是整个计算部分,而consolus是分布式存储。执行引擎称为Dremel,Jupiter是网络。
  
  BigQuery与其他Google云产品连接良好。例如,加拿大丰田公司(ToyotaCanada)已经开发了BuildandPrice,这是一种在线比较工具,允许网站访问者定制车辆并获得即时报价。第一方数据由googleanalytics360收集并提取到BigQuery中。然后,仓储服务对访问者的数据应用机器学习(ML)模型,并根据每个人购买的可能性为他们分配一个倾向性得分。预测每八小时更新一次。
  
  丰田的团队随后将这些预测带回Analytics360。该团队利用倾向得分创建10个受众,并向每个群体发布个性化广告,以期将他们推下销售漏斗。
  
  BigQuery还被许多其他知名客户使用,如道琼斯、Twitter、家得宝和UPS。
  
  Azure Synapse分析
  
  AzureSynapseAnalytics是微软提供的基于云的数据仓库。该服务通过单一用户界面(UI)将数据仓库、数据集成和大数据分析结合在一起。
  
  通过在无代码环境中构建ETL/ELT进程,用户可以从近100个本机连接器中摄取数据。用户还受益于集成人工智能(AI)和商业智能工具,包括Azure机器学习、Azure认知服务和PowerBI。可以轻松应用于各种数据集的智能工具,包括Dynamics365、Office365和SaaS产品中的智能工具。
  
  用户可以使用提供的或无服务器的按需资源分析数据,从T-SQL和Python到Scala和.NET,可以在AzureSynapseAnalytics中使用各种语言。
  
  微软的云数据仓库服务拥有许多客户,包括沃尔格林。这家零售和批发药店巨头已经将其库存管理数据迁移到azuresynapse中。该公司现在不再使用内部数据仓库,而是使用云技术,使其供应链分析师能够使用微软powerbi等工具查询数据和创建可视化效果。
  
  直观的拖放界面使处理数据变得简单。成本也下降了。Walgreens供应链和销售部的IT经理AnneCruz表示,“与在prem上安装新的数据仓库设备相比,Azure的成本仅为后者的三分之一。”而且,用户没有等到下午1点才能获得前一天的数据报告,而是在每个工作日的上午9点之前准备好信息。
  
  选择云数据仓库时应考虑的因素
  
  主要的云数据仓库有一些相似之处,但也有一些主要的区别。决定使用哪种仓储服务从来都不是一件容易的事。在分析使用平台时要考虑以下因素,以确保团队成功。
  
  用例
  
  公司的独特环境和用例是评估数据仓库提供商的关键因素。例如,使用JSON的企业可能更喜欢Snowflake,因为它提供了对这种格式的本机支持,而没有专门数据管理员的小型组织可能会避免Redshif,因为它需要定期监视和配置。具有即插即用设置的服务可能更适合这种情况。
  
  支持实时工作负载
  
  许多公司需要在数据生成后立即对其进行分析。例如,一些公司可能需要实时检测欺诈或安全问题,而其他公司可能需要处理大量流式物联网数据以进行异常检测。在这些情况下,评估不同的云数据仓库如何处理流数据的摄取是很重要的。
  
  BigQuery提供了一个流式API,用户只需几行代码就可以调用它。Azure提供了几种实时数据接收选项,包括内置的apachespark流功能。Snowflake将Snowpipe作为一个附加组件提供,以实现实时接收,而RedShift则需要使用Kinesis Firehose进行流式数据接收。像Striim这样的实时数据集成解决方案为所有四个数据仓库提供了可伸缩的企业级流式数据摄取。
  
  安全性
  
  每个云数据仓库提供商都非常重视安全性,但在决定使用哪个供应商时,用户应该注意到技术上的差异。例如,加密的处理方式是不同的:BigQuery默认加密传输中的数据和静止的数据,而这个特性需要在Redshift中显式启用。
  
  演员表
  
  供应商以不同的方式计算成本。公司需要知道每个月需要整合、存储和分析多少数据来估计成本。基于这些输入,IT团队可以选择具有最合适定价方法的云数据仓库供应商。
  
  例如,Redshift将计算资源和存储捆绑在一起。用户从简单的定价中获益,但必须接受存储和内存的预定义值。BigQuery采用了更细粒度的方法。谷歌对字节读取、流式插入和存储的服务收费,这意味着由于读取的字节数可能会波动,成本难以预测。
  
  azuresynapse使用数据仓库单元(DWU)对计算资源进行定价,DWU是一组技术成本因素。用户单独收取存储费用。Snowflake根据用户使用的虚拟仓库数量和使用时间向用户收费。存储是每月按TB单独计费的。
  
  生态系统
  
  同样重要的是要考虑你现有的应用程序和数据所在的生态系统。例如,数据已经在Google云中的企业可以通过在Google云上使用BigQuery或Snowflake获得额外的性能提升。数据传输路径将得到更好的优化,因为它们共享相同的基础设施。而且数据不必在公共互联网上移动。
  
  数据类型
  
  业务处理结构化、半结构化和非结构化数据。大多数数据仓库通常支持前两种数据类型。根据他们的需要,IT团队应该确保他们选择的供应商为存储和查询相关类型的数据提供最佳的基础设施。
  
  缩放比例
  
  在选择云数据仓库供应商时考虑的另一个因素是服务如何对存储和性能进行缩放。Redshift需要用户手动添加更多节点来增加存储和计算能力资源。但Snowflake有一个自动缩放功能,可以动态添加或删除节点。
  
  维护
  
  根据公司规模和数据需求,数据仓库的日常管理大多可以自动化或手动完成。小型团队可能更喜欢BigQuery或Snowflake提供的自优化。但是,手动维护数据仓库提供了更大的灵活性和更大的控制,允许团队更好地优化其数据资产。这一级别的控制由Redshift和其他几个供应商提供。
  
  启动数据游戏
  
  从Redshift和BigQuery到Azure和Snowflake,团队可以使用各种云数据仓库,但找到最适合公司需要的服务是一项具有挑战性的任务。团队必须考虑各种参数、技术规格和定价模型来做出最终决定。
  
  这些努力终将得到回报。云数据仓库使产品、营销、销售和许多其他部门能够进行数据游戏并发现重要的见解。而且,更少的猜测和更多数据驱动的证据将为实现和保持竞争优势铺平道路。
  
  编辑:Harris

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/2021713/n5141138845.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片