机房360首页
当前位置:首页 » 大数据 » 数据仓库是你的菜吗?

数据仓库是你的菜吗?

来源:TechTarget中国 作者:DJ编辑 更新时间:2016/1/22 10:51:17

摘要:人们通过数据仓库可以观察到企业的历史绩效和正在进行的运营行为,它为数据分析师和业务用户提供诸如客户行为、业务趋势、季度和年度的销售情况等信息。尽管随着Hadoop和其他大数据技术的出现,越来越多的公司需要收集和分析来自不同数据源的数据,但数据仓库并没有因此而失去存在的意义。

  人们通过数据仓库可以观察到企业的历史绩效和正在进行的运营行为,它为数据分析师和业务用户提供诸如客户行为、业务趋势、季度和年度的销售情况等信息。尽管随着Hadoop和其他大数据技术的出现,越来越多的公司需要收集和分析来自不同数据源的数据,但数据仓库并没有因此而失去存在的意义。但在投资数据仓库平台之前,第一步应该考量你的企业是否真的需要它,并考虑你能从数据仓库中得到哪些商业利益。

  为了做到这一点,你必须考虑两个数据仓库的部署选项——企业范围或部门范围。你还需要确定非结构化的大数据是否要构成数据仓库环境的一个组成部分,并决定是否要集成传统数据仓库,进行联机分析处理(OLAP),这将用到大数据分析管理和数据处理。最后,你必须能够匹配各种数据仓库用例,找到最合适的数据仓库平台类型。

  为什么企业需要部署数据仓库

  通用数据仓库的概念非常简单:定期从操作系统中提取数据支持企业业务,数据复制到一个专门的系统——数据仓库,用于项目仪表盘、门户网站、商业智能、报告和分析工具的数据整合,并进行分析,生成报表。具备下列条件可能表明企业可以从数据仓库中获益:

  因为必要的数据不是现成的,你正努力让公司的报表变的更有效;

  数据被不同的部门和团队复制到电子表格中进行分析,无法保证数据的一致性;

  数据准确的不确定性,让公司高管和业务经理质疑报表的真实性;

  BI报告所用的生产数据库总是需要进行数据扩展;

  在生产数据库上运行临时查询降低了运营系统的效率。

  恰当地部署数据仓库,可以帮助企业准确回答很多与业务相关的问题。数据仓库可以提高数据的可用性,因为它可以从不同的位置和来源收集数据到一个中央存储库。当数据来源于数据仓库而不是生产数据库时,运营工作流程效率更高,因为分析活动已被转移到一个单独的系统。因为数据被移动到了数据仓库中,数据在那里完成评估、清洗和转换。这意味着使用数据仓库产生的报表中,信息的质量应该得到相应的改进。

  数据仓库部署选项

  数据仓库环境在不同的企业中会有很大的不同,然而。部署数据仓库可以遵循两条路径,企业可以任选其一:企业数据仓库(EDW)或数据集市,或者二者的组合。

  一个企业级数据仓库架构包含所有从企业的运营系统中获取的相关数据,也可能是外部数据源,在所有部门得到应用。操纵数据用于查询,转换和聚合(参见图1)。


图1: 企业数据仓库流程

  一些企业已经部署了操作性数据存储(ODS),作为介于运营系统和数据仓库之间的中间步骤。操作数据复制到ODS,然后提取用于数据仓库。ODS为预转换数据提供单个的源数据,单个数据源可用于分析查询,相比于多个数据源的情况,需要更多细节。

  另一个比较通用的方法是创建数据集市,这是一种小型规模的数据仓库,主要用于单独的业务主题领域。当一个能获得较快ROI的部门做报表或使用BI有相应的需要时,企业通常会选择建立数据集市。比起进行一个横跨整个企业的昂贵项目,选择数据集市通常让力量更为集中,提供商业利益更为迅速。

  可以创建一个或多个数据集市,这取决于企业的规模和业务侧重点。数据集市可以与其他数据集市集成,行成一个虚拟仓库或物理上作为结合上述两种方法的企业级数据仓库的一部分(参见图2)。采用数据集市的方法让企业有了迭代的过程,可以每次只解决个别业务,而不需要采用整体仓库的方法。


图2:数据仓库与数据集市

  这两种部署选项都可能涉及到每个类型的数据仓库平台:传统的数据库管理系统,通常为关系型;专门用于分析的DBMS;数据仓库设备;基于云的数据仓库服务(DWaaS)技术。

  大数据VS数据仓库

  市场上充斥着大数据技术是否将取代数据仓库的疑问。但在大多数企业中,事实并非如此。相反,大数据系统的部署,通常会相应的增加数据仓库的数量。

  数据仓库平台通常是基于关系型数据库管理系统的,其中的数据是结构化的,通常源于一个企业的运营和事务系统。业务高管和分析师作为使用者访问数据仓库,主要方式包括使用BI仪表板,OLAP和报告工具,或者临时SQL查询。

  大数据分析,在另一方面,通常由非关系类技术支持,例如Hadoop,Spark和NoSQL数据库管理系统。数据既有结构化的,也有非结构化的,可以来自任何类型的内部系统和外部数据源,如社交媒体。在这些大数据上执行分析,可以帮助企业具备更好的业务洞察力——例如,基于过去预测未来的模式和行为活动。数据科学家和统计学家使用深层分析模型来完成这些任务,他们进行分析时使用的语言包括Python,R和Scala,也有一些基本的SQL。

  大数据技术也使数据湖泊的概念得以实现——数据湖泊存储来自于各种来源的原始数据,以数据的原生格式保存,它可以根据需要进行数据过滤,为接下来分析做好准备。

  最后,大数据系统和数据湖泊并不是数据仓库和数据集市的直接替代品。事实上,他们之间还有协同作用。例如,数据集湖所收集到的结构化数据收集可以迁移到数据仓库中进行常规分析。供应商也开始将大数据通道集成到他们的数据仓库平台,这样可以让不同格式存储的数据能够在单一地点被访问。

  数据仓库的业务用例

  现在让我们考察一下不同的用例和场景,在这些场景中,你的企业将会使用数据仓库项目。

  第一次使用数据仓库与长期使用数据仓库的用户:已经部署数据仓库的公司,在寻求扩张的过程中,对现有数据仓库平台的扩展往往会是比较好的选择。正在进行首次数据仓库部署的公司,数据仓库一体机可能是一个比较好的选择。你的供应商会和你商讨,确定规模大小和设备的配置,之后就可以准备部署 。当然,对于数据平台新用户来说,所有类型的数据仓库平台都是可行的,你可以查看本节中的附加用例,以确定符合特定需求的数据仓库平台。

  公司规模:规模较大的公司可能会选择以下方式:关系型DBMS、分析数据库或混合事务/分析处理(HTAP)。这些企业具备相应的基础设施和经验丰富的员工,使用上述技术能够做到得心应手。在HTAP方法中,相同的DBMS可以用于运作交易,分析建模和BI。为了支持HTAP,关系引擎可能需要提供内置的柱状访问方式或附加设备进行分析处理。

  另一方面,较小的企业应该考虑数据仓库一体机或DWaaS设备。上述两个选项减少管理需求:预先配置好设备,DWaaS提供的数据仓库部署在云环境中,由云服务提供商负责管理。

  云端用途:如果你的企业在云中运行着大量的应用程序;DWaaS对于企业来说可能是最好的选择。业务数据生成并存储于云端的数据仓库,以此为依托进行分析,是一种合理的选择。

  IT部门的规模:IT部门规模较小的企业往往没有足够的管理人员来设置和优化数据仓库环境。对他们来说,数据仓库一体机或DWaaS也是一种不错的选择。

  对数据延迟程度的要求:对于近乎实时的数据仓库来说,延迟要求做到最小化,优化数据仓库设备可能是最好的选择。用其他办法达到近乎实时的程度也不是不可能,但你可能需要提升你的数据仓库环境,这需要添置额外的高速硬件和软件来满足你的延迟需求。

  需要与大数据集成:与大数据集成分析对企业很重要的时候,可以考虑数据仓库一体机和DWaaS产品。他们能够很好地与大数据分析功能进行集成。

  现在,你已经大致了解了数据仓库的常用用例,下一步是调查购买数据仓库平台的可用选项。

  责任编辑:DJ编辑

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/2016122/n926777414.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
转载声明:凡注明来源的文章其内容和图片均为网上转载,非商业用途,如有侵权请告知,会删除。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片