机房360首页
当前位置:首页 » 云计算资讯 » Erir Baldeschwieler:Hadoop present and future

Erir Baldeschwieler:Hadoop present and future

来源:机房360 作者:GOCN编辑 更新时间:2012/11/30 10:32:08

摘要:Hortonworks的首席技术官Eric Baldeschwieler曾是Inktomi公司Web服务引擎的技术领导者,雅虎Web搜索总设计师,雅虎Apache Hadoop项目的负责人。在他看来,如今Hadoop已经发展为一个庞大的体系,包含各类企业级应用部署。2015年,全球数据中将有一半都是通过Hadoop来处理的。

  Erir Baldeschwieler:大家好!我们谈一谈Hadoop我想问问大家谁用过Hadoop,或者是谁服务的组织用过Hadoop,很多人都用过了。我们谈谈它的定义,答案是多个的,它的一个很大的大数据平台,在全球使用,解决很大的问题。而且它是一个开放来源的应用。我们看一下主要的概念。

  大数据是什么?首先可以看到交易系统,看看现在公司在做什么,他们也在更新自己的一些数据。可以看到这里有很多的数据是你的公司要处理的,一个传统平台并没有这么高的成本效益来处理大数据,所以我们需要一个很好的平台能够搜集所有的有效的数据,有效地处理大数据,与它的系统进行交流和沟通。一个小的数据平台和大的数据平台有什么区别?首先在水平上有扩展性,这是一个很具有挑战性的问题,所以需要一个使用起来非常方便并且非常灵活能够在不同一些应用中都能使用的,也能在虚拟的云计算中使用的平台,这是你所期待的平台,这是大数据平台的概念。

  首先我们要看一下每个公司用到的口号,世界500强的公司都在某些地方、某些程度上或者在适应平台上都会用到它,这里会跨越多个不同纵向的层面,关键的一点是,如果看一下互联网的部门,也开始投资了Hadoop。所以可以看到三个主要的使用的方法。首先是现在的ATL可以从其他的新闻中搜集数据进行处理,把它的放在系统上,挖掘数据,这是另外一个非常普遍的使用。它的关注点是,询问数据,用观察数据找到未来的形式,丰富数据的使用,经常在网上使用,这也是在雅虎上经常使用的。现在Hadoop在4.2多万个电脑上使用了。雅虎每个页基本上的内容都是通过我们来处理的,所以它确实对于雅虎上个人化的应用和其他一些公司的服务产生了重大的影响。另外一个对Hadoop概念的答案是,它总结了Apache平台上各种开源的存储和项目,所以有很多的处理,处理了很大的数据,这有两个基本的层面,一个是HDS,它是一个分布式的文件系统,还有Map Reduce,是一个处理平台可以处理非常简单的工作,能够把它进行细分,然后把它分布到成千上万个机器上。通过这样的系统可以看到,有4.5万这样的应用,通过开源来进行应用,使用起来非常地方便和快捷。这个平台有什么关键的特点。首先我们有可扩展性,你需要有这个能力很容易地在电脑上使用,现在已经有4万多台电脑,而且在可控制性上非常地重要,而且可靠性是非常重要的。虽然它的重要性变得日益地增加就更加地重要了,如果在另外的集群如果有问题会造成巨大的问题。所以我们知道Hadoop是在整个的空间中毫无断线地运营下去,它可以存储各种各样的数据,因为大多数的数据特别是很多公司投资的新的数据并不是一些传统上遵循传统结构的数据,而且它必须具有经济效益,这也是我们不能低估和忽视的一点,比较强调的一点。大数据意味着成本很高,如果你扩展平台中的运营和效率会产生很多的成本。



  如果你需要在单元的成本上减少,而人员的操作成本上也可以减少,这是非常重要的一点。我们看看Hadoop的应用和部署吧。你看看有方可以看到主要的活动,一个是交易系统,包括了网站、网址、数据系统和与客户的交流,下面还有业务情报和分析,这里会用到很多这样的系统。这样的系统在成千上万的公司中都会用到,价值非常之高,也需要用Hadoop。这里有一些新的技术,这些的一些数据并不太与传统的结构相配合,可能会影响到其他的应用上的空间或性能和容量,可以造成很大的问题,Hadoop可以很高效地把数据搜集起来对它进行处理和精炼。实际上Hadoop并不是替代了现有的数据的结构而是不足、补充现在所看到的就是你实施了Hadoop,你可以做之前公司做不了的事情,包括捕获一些新的数据,以成本效益很低的形式来处理数据,可以把它用在传统的系统架构之上。当然以前也能处理,但成本效益在传统的系数上很低,很多的数据都会把数据进行转型和转换用于数据库之中,他们在传统的平台上做的效率非常低。所以通过Hadoop就能够增加你的成本效率,包括你的数据库、数据平台这方面都可以得到更高的效率。

  所以给大家举一个例子,比如说在不同的行业里可以因为这个应用会得到更好的成功。现在还是早期的采用者的平台。我们也观察到在早期的时候技术刚开始采用的人们是非常关注那些能够找到技术优势的人们,他们愿意采用风险来尝试一些新的东西。随着技术逐渐的成熟,而且应用更加地广泛,一些使用者开始使用,他们需要看到和使用这个技术给他们带来更多的价值。所以这主要是作为愿景的应用,慢慢地逐渐得以使用,使自己的业务能带来更多优势的转型。所以说,技术怎么能实现这样的转型?一定在刚开始有很多成功的案例,使用起来非常地容易。另外我们要给予培训和支持,建立良好的生态系统,这样才能更好的应用在各个企业。

  所以,我们也是一个一个来处理存在的问题。现在我们希望能够把Hadoop更好地分销。大家可以在网站上访问这个项目并可以下载,但如果没有比较好的分销和分散肯定将来会成为问题的,因为部署和实施上会出现问题。所以,我们可以用软件捆绑的形式,这样在自己的计算机上会非常容易地部署。当然,选择一个比较好的版本之后再把它们捆绑在一起,有的时候会有一些比较棘手的问题。现在已经有一系列的东西已经列出来了,现在列出的是Hadoop之前企业数据架构,Hadoop在很多企业中都得到了应用,这些案例都可以作为参考架构,因为他们以前是有一定的成功案例的。

  因此我们是这样部署Hadoop的,可以看到这里有各种各样的价值,包括交易价值和社会价值,社交媒体也在使用。所以可以利用企业智能工具进行自己的部署。因此我们有了分销也有了相关的参考架构,同时也有一些机构来支持Hadoop的企业级应用和部署。我想,Hadoop将会是未来的大数据的平台,2015年的时候,全球的数据中的一半将会是通过Apache的Hadoop来处理的。另外Hortonworks的使命是为大家提供百分之百开源的Hadoop的平台。另外我们也会做进一步的投资使它成为企业级的大数据平台。因此我们鼓励生态系统的开发商能够提供更多的生态系统的开发来支持Hadoop的平台。另外我们会做大量的培训。

  但核心是什么?我们希望每个人都关注百分之百的开源分布,因为核心是这个平台一定是开源的平台,尤其对全球来说都是开源的。对大数据来说,为什么会成功?成功的关键在于达到一个临界的质的积累。这也是为什么我们公司支持百分之百的Hadoop开源分布。这样在未来任何一个合作伙伴和供应商都可以在开源平台上合作。现在很多人都在做Apache的Hadoop的标准调整,希望和我们的平台结果对接。但我想,在未来我们不希望把市场进行细分,不管是怎样的状况。

  接下来再看一下未来我们要做怎样的投资。我们对Hadoop平台的开发是非常振奋的。Ambari是管理和监测服务的供应商,在4000多个个集群上部署数面临着很多的挑战的。新的Apache项目是由Ambari负责的,他做了大量的监测和警戒的工作。现在大家也看到了Apache领域的进展,我们也期待着未来合作伙伴可以有更多的创新。

  Hive+HCatalog也是对这个平台充满着信心的,他们在这里面做了ODBC/JDBC的连接。之前我也谈到了,现在他们的工具HCatalog正在开发进展中,Hcatalog,使得table的模型可以使用Hadoop。另外大家可以使用同样的数据,这样从更高层来考虑数据管理流程的时候可以用这样的工具来进行。提供了很多无限的可能性,另外还可以用第三方数据库来在这上面进行处理。

  这样就使得更高级别的数据抽取用在Hadoop的平台上,这在未来也会有很大的性能上的提高,因为我们有很多新的文件格式可以产生,另外有很多内部的loop的performance的改进。另外一个公司是HA的解决方案。它完全支持HCFS。Hadoop可以搜集不同的方案可以让第三方使用。当然也有很多的投资来做创新,这对企业来说是可以使用的,因为他们可以解决某些市场的需求。另外一个大事是,Hadoop的1.0和2.0的出版的时间。我们经过了大量的测试也取得了巨大的成功。另外2.0基本上已经大部分快结束了。我们经历了多年的研究也是非常令人兴奋的一件事。我们已经全面铺开了,在雅虎Hadoop2.0已经开始测试了。当然这还是早期的技术,只有几家机构包括中国的公司对此比较感兴趣。我想这个产品在未来6个月、9个月之后将会获得更大的成功。所以2.0马上要结束了,而且也引发了很多人的兴趣和创新。当然,我们要更多地关注它的可拓展性以及整个业界的联系,有一些开放的OPI,这样很多人都可以利用它。

  因此从规模的角度来说,设计可以支持1万多个计算机群集。为什么很多企业都愿意采用Hadoop呢?是因为它能够处理非常大型的数据,而且对未来的数据需求来说是非常重要的。但随着数据的增加我们还是面临着挑战,所以每个人、每家企业都因为这个项目来选择Hadoop,主要是因为从大数据的规模的角度来说愿意采用。所以看一下Hadoop的变化,Hadoop2.0改进了拓展性,还有任何的框架上都可以在Hadoop上进行运行,另外,还有一些项目、流、CP包括处理引擎等等。另外还有服务器。我们还支持其他的框架,比如说比较低的之后还有服务和流。这样可以用一个Hadoop群集可以做以前需要多个群集才能做的事情。另外还有一个HDFC2.0,实际上它是类似于一个联盟的性质,因为它可以通过多个NameNodes进行拓展,这给存储带来了价值,另外也允许我们新的NameNodes提供新的性能,因为在Hadoop里面会提供新的拓展,我们整个社区在做着大量的创新。

  谢谢大家!

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/20121130/n135042687.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
转载声明:凡注明来源的文章其内容和图片均为网上转载,非商业用途,如有侵权请告知,会删除。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片