机房360首页
当前位置:首页 » 大数据 » 评估您企业对于数据仓库平台的需求

评估您企业对于数据仓库平台的需求

来源:机房360 作者:litao984lt 更新时间:2016/2/4 9:35:51

摘要:在大数据领域,仍然尚有数据仓库平台的一席之地——但首先,您务必要搞清楚一些问题。因此,我们建议您不妨从您所在企业为何需要一款数据仓库平台这一问题开始。

  在大数据领域,仍然尚有数据仓库平台的一席之地——但首先,您务必要搞清楚一些问题。因此,我们建议您不妨从您所在企业为何需要一款数据仓库平台这一问题开始。

  数据仓库为了解企业过往的历史性能和正在进行的操作提供了一个窗口,并为我们了解数据分析和业务用户提供了诸如客户行为、业务趋势、季度/年度销售业绩等相关信息。尽管Hadoop及其他大数据技术不断涌现,但企业捕获和分析来自不同数据源的数据的需求则是在不断增长的,而这总是始终要牵扯到数据仓库的使用的,即使不是更多的话。但是,企业在投资于一款数据仓库平台之前,第一步务必是要搞清楚您所在企业是否真的需要一款数据仓库平台,而哪些业务能够从中获益。

  要做到这一点,您必须考虑两大数据仓库部署选项——企业级或业务部门级。您还需要确定非结构化的大数据是否将成为您企业数据仓库环境的一个组成部分,并需要决定是否要将传统的数据仓库与使用数据处理和大数据分析管理的在线分析处理(OLAP,online analytical processing)进行整合。最后,您还必须为数据仓库的各种使用案例匹配最适当的数据仓库平台类型。

  您企业为何需要一款数据仓库?

  数据仓库的一般概念很简单:数据会定期从支持企业业务的操作系统中提取,并复制到一个专门的系统——数据仓库——以进行分析,并通过仪表板、门户和商业智能、报表及分析工具形成报告。下列情况可能表明,您的企业或将受益于一款数据仓库的部署:

  • 由于真正所需要的数据信息不容易获得,致使您企业很难有效地报告业务活动。

  • 数据被不同的业务部门和团队分别复制,并在电子表格中进行分析,其彼此之间不一定是一致的。

  • 有关数据准确性的不确定因素导致企业高管和业务经理对报告的真实准确性提出质疑。

  • 在生产数据库上运行BI报表,导致夜间或月度交易数据的处理延长。

  • 在生产数据库上运行随机查询(ad-hoc queries),减慢操作系统。

  使用适当的数据仓库部署,您可以帮助您企业准确地解答业务的有关问题,诸如发生了什么状况及其原因。数据仓库提高了数据的可用性,因为其收集来自不同位置和数据源的数据并汇集到中央存储库。一旦数据是在数据仓库中,而不是在生产数据库,业务工作流程将变得更有效,因为分析活动已被转移到一个单独的系统。随着其迁移到数据仓库,数据被进行评估、整理和转化,这意味着从数据仓库中所生成的报告的信息的质量应该有所改善。数据仓库部署选择

  然而,数据仓库环境会因部署企业的不同而有很大的不同。数据仓库的部署可以遵循两大方式:企业数据仓库(EDW)或数据集市(Data Mart)或二者的结合。

  一款企业级数据仓库的架构包含所有来自企业业务操作系统和外部数据源(跨所有业务部门所使用的)的相关数据。数据被操作用于查询、转化和BI收集的聚合等相关目的(见图1)。


图1:企业数据仓库的流程

  一些企业已经部署了一款操作型数据存储(Operational Data Store),并将其作为业务系统和数据仓库之间的一个过渡阶段。业务系统的数据被复制到ODS,然后提取以备数据仓库使用。ODS为预转换数据提供单一数据源,并为在数据仓库进行分析查询提供比在数据仓库中进行数据仓库查询更多的细节。

  另一种较为流行的方法是创建数据集市,其规模范围要比数据仓库小,集中在个别业务和学科领域。当某一特殊业务部门需要进行报告,且BI可以提供快速的投资回报时,企业通常选择建立数据集市。无需跨整个企业建立一个扩展的项目,数据集市可以更专注,更快速地让具体的业务获益。

  企业可以创建一个或多个数据集市,具体将取决于您企业的规模和关注的重点。数据集市可以与其他数据集市整合,以形成一个虚拟EDW或用于物理填充到企业的一个EDW,以便将两种方法结合起来使用(参见图2)。采用数据集市的方式使企业能够采取迭代的方法,一次只解决个别领域的具体问题,而不是一套整体性的EDW的办法。


图2:数据仓库与数据集市的结合

  在每一种类型的数据仓库平台,均能够提供上述两种部署方案的选择:传统的数据库管理系统使用一般的关系数据库;专业分析DBMSes;数据仓库设备;基于云服务数据仓库作为一种服务(DWaaS)技术。

  大数据与数据仓库

  无论大数据是否即将取代数据仓库,市场上仍然充斥着对于大数据技术的困惑。但是在大多数企业中,情况并非如此。相反,大数据系统通常会增加数据仓库的采用。

  数据仓库平台通常是建立在一款关系型数据库系统(Relational DBMS)的基础上的,其数据是结构化的,一般来自于企业的操作和事务交易系统。数据仓库由企业高管和分析人员通过使用BI仪表盘、OLAP和报告工具进行访问,并进行随机SQL查询。

  另一方面,大数据分析,通常是由诸如Hadoop、Spark和NoSQL DBMS等非关系技术支持的。其数据可以是结构化和非结构化的,并且其数据来源可以是来自企业内部的每一种类型的内部系统加上外部数据源,如社会媒体。对于大数据执行数据分析是为了发掘和洞察大数据,例如,基于过去的活动以预测将来的模式和行为。这些任务是通过使用由数据科学家和统计人员以诸如Python、R和Scala等语言(也许还包括一些基本的SQL语言)所开发的深度分析模型来实现的。

  大数据的技术也推动了数据湖的概念——将各种来源的原始数据以其原始格式进行保存,然后过滤,并按照分析需要做好准备。

  最后,虽然大数据系统和数据湖不会直接替代数据仓库和数据集市。事实上,它们之间是存在协同作用的。例如,在一个数据湖收集的结构化数据集可以被迁移到一个数据仓库中进行常规分析。供应商们也在开始将大数据访问集成到他们的数据仓库平台,使数据以不同的格式存储在一个单一的地方进行访问。

  数据仓库的业务用例

  现在,让我们来看看数据仓库项目的不同用例和场景吧,由此您企业将更加了解数据仓库。

  数据仓库的首次使用者vs.数据仓库的长期用户​​:那些现在已经部署了数据仓库,并正在寻求进一步扩大的企业用户,通常在扩展到使用数据仓库平台方面会执行得很好。而对于那些首次部署其数据仓库的企业用户而言,一款数据仓库设备可能是一个相当有吸引力的选择。与您企业所选择的供应商一起合作,以确定您企业将要选择的设备的规模大小和具体配置,其应该是随时可以交付的。当然,对于数据仓库的首次使用者而言,所有的数据仓库平台都是可行的方案,故而在这种情况下,您应该查看更多的附加用例,以开发您企业业务的具体要求。

  企业规模:规模较大的公司可能会从如下的这些方法之中选择其一:关系数据库管理系统、分析数据库或混合交易/分析处理(HTAP)。这些企业具备相应的基础设施和工作人员,从而能够很好的使用这些技术。在HTAP方法中,相同的DBMS可以同时用于业务交易、分析建模和BI。为了支持HTAP,一款关系引擎可以提供内置的纵列访问或一个附加设备以进行分析处理。

  在另一方面,规模较小的企业应该考虑一款数据仓库设备或DWaaS设置。这两种方法都最大限度地降低管理需求:数据仓库设备进行了预配置,并且由DWaaS在云中提供的数据仓库是由云服务提供商设置和管理的。

  云计算的使用:如果您的企业在云中运行了很多应用程序,DWaaS可能是您最好的选择。让生成的业务数据存储在云中,以便在数据仓库进行分析是一个合乎逻辑的方法。

  IT部门的规模:那些IT部门的规模较小的企业往往拥有较少的可以设置和调整数据仓库环境的管理员。对他们来说,考虑数据仓库设备或DWaaS也是情理之中的。

  数据延迟性要求:对于近实时数据仓库,其要求最小的延迟,优化的数据仓库设备可能最有意义。通过借助其他方法来实现接近实时延迟性不是不可能,但您可能需要在您的数据仓库环境增加额外的高速硬件和软件,以满足您的延迟目标。

  需要与大数据整合:与大数据分析的整合是非常重要的,建议考虑采用数据仓库设备和DWaaS产品。他们往往能够与大数据分析功能实现最大的整合。

  现在,相信您已经明白数据仓库的一般用例了,下一步就是要研究购买数据仓库平台的相关选择了。而这将是本系列文章稍后将与您共同探讨的话题。

  责任编辑:DJ编辑

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/201624/n771577947.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
转载声明:凡注明来源的文章其内容和图片均为网上转载,非商业用途,如有侵权请告知,会删除。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片