机房360首页
当前位置:首页 » 大数据 » Teradata首席技术官警告:不要把数据湖变成数据沼泽!

Teradata首席技术官警告:不要把数据湖变成数据沼泽!

来源:TechTarget中国 作者:DJ编辑 更新时间:2016/5/10 15:12:56

摘要:2015年,Gartner公司在商业智能峰会上提出的战略规划设想中指出,预计到2018年,90%已部署的数据湖将失去价值,因为过多的为不确定的用户案例而获取的信息资产造成数据湖不堪负荷。

  2015年,Gartner公司在商业智能峰会上提出的战略规划设想中指出,预计到2018年,90%已部署的数据湖将失去价值,因为过多的为不确定的用户案例而获取的信息资产造成数据湖不堪负荷。

  Teradata天睿公司首席技术官宝立明(Stephen Brobst)认为,数据湖(data lake)非常重要,因为它提供用于创新和创建数据产品所需的原始数据。他在出席2016年Teradata大数据峰会时特别指出,数据湖的价值在于它获取数据的方式非常敏捷,而且成本低。这样,数据的研发工作就能够只需要在数据湖中进行,提取选择性数据,在数据产品中显示其价值。在过去,为了获取数据,我们通常需要经过一些流程才能够看到数据,如对数据产品进行建模或清洗。所以,数据湖是一种更加轻量(light-weight)为数据科学家提供数据的方式。

Teradat数据峰会

Teradata天睿公司首席技术官宝立明(Stephen Brobst)

  数据湖的成功衡量标准:数据湖越“大”越好吗?

  Gartner公司在2015年商业智能峰会上曾指出,预计到2018年,90%已部署的数据湖项目将失去价值(useless)。Brobst觉得这个观点很有意思,因为Gartner用的词不是失败(fail),而是失去价值(useless)。失败指的是投资回报率(ROI)没有期望的那样好,失去价值却意味着零价值(zero value)。这对于已经投入大量资金建立数据湖的公司和组织而言,将是一个很大的问题。

  虽然Brobst认为,Gartner的预言可能有点夸大其词,但是却不无警示作用。目前,他就看到数据湖存在一个很大问题——很多公司衡量数据湖项目的成功标准为数据库有多“大”,这是完全错误的。数据湖要快速地变“大”很容易,因为多次导入重复的数据就可以了。但这意味着成功吗?数据湖越“大”越好的观点,应该予以摒弃。如果什么数据放进了数据湖里面都不清楚,这就绝对不是技术的原因,而是缺乏有效的数据治理,这样,将面临将数据湖变成数据沼泽的危险。

  数据湖(data lake)变成数据水库(data reservoir)还是数据沼泽(data swamp)?

  Brobst认为,数据湖这个名称并不准确。因为湖是天然随机形成的,如果无人管理,污染杂物堆积,可能变成沼泽。同理,如果不清楚数据湖里面放了什么数据,却强调数据越多越好,数据湖就可能变成数据沼泽,充斥无用的数据。所以,用“数据水库”才能够更好得表达这种基础设施的正确涵义。水库是人为所造出来的“湖”,通过适当的治理,为人类提供可饮用水源。对于数据水库而言,数据策管(data curation)至关重要。让进入数据湖或数据水库的每一个数据资产都可以被分类,我们知道是谁放进的数据,放在哪里,何时放的等等,这样,我们能够对数据进行画像(profile),所以,我们就知道其内容、其独特的价值、其线形关系、其转变过程等。这就是数据水库所必需的部分数据治理工作,以帮助我们理解数据水库有何数据。

  数据策管就是对数据资产的照顾和培养。起源(provenance)这个词源于科学术语,很多从事数据的人很少用这个词。但在数据策管中,起源意味着我们非常清楚地知道数据从何而来、我们对数据进行了什么转化等等。这是数据策管仲很容易忽视的部分。我们必须不断追踪内部和外部数据的起源。缺少与数据相关的起源,将导致对数据质量的信任,使数据重复拷贝(和重复操作)难以控制,导致资源利用效率极低(如变成数据沼泽)。没有充分的数据资如何创建的信息,数据的价值就将大幅降低。

  数据湖在中国落地还有一定的挑战

  数据湖能够在中国落地?出席2016年Teradata大数据峰会的浦发银行信息科技部副总经理陆小勇也赞同Brobst的观点,无论是数据湖、数据水库,还是数据沼泽,这不是一个技术问题,而是一个理念问题。他说:“装什么样的数据,这些数据用什么样的方法去治理,对这里面的数据质量用一种什么样的容忍度,在什么场景中去适应,这才是真正在管理数据质量的时候,在大数据时代,治理人员需要思考的。“具体到银行产业,交易系统和统计报表强调”因果性“,要求所有结果可严格回溯到源头,从源头抓起,防止”垃圾进垃圾出“,特别是参与人、产品、协议、渠道、事件、财务,以及资产、日历、汇/费率等公用信息在内的”主数据“的质量。

  光大银行信息科技部数据服务中心处长刘锦淼认为,数据湖是未来发展的方向,效率更高,但对于企业IT治理水平要求更高。有了数据治理的前置,才能实现数据湖。他说:”由于我们现在国内的科技发展和科技治理的能力,我们对于元系统的数据标准化落地是有限的。那么,数据湖如果不基于很好的元数据管理,是很难实现自动化 ,为业务提供有效数据支持。我认为,数据湖是一个很好的理念,但在中国还有一定的发展空间。

  责任编辑:DJ编辑

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/2016510/n935981767.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
转载声明:凡注明来源的文章其内容和图片均为网上转载,非商业用途,如有侵权请告知,会删除。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片