机房360首页
当前位置:首页 » 云计算资讯 » 何京翔:Hadoop的英特尔之道

何京翔:Hadoop的英特尔之道

来源:机房360 作者:GOCN编辑 更新时间:2012-11-30 15:36:37

摘要:英特尔亚太研发集团总经理何京翔介绍了英特尔在大数据领域的目标:让Hadoop成为下一代数据分析平台的“基石”。英特尔Hadoop发行版免费版 v2.2, 为最终用户和应用提供商提供了一个功能强大、方便易用的大数据入门平台。而且免费版和企业版共用相同的核心代码,免费版也包含所有核心增强功能,不过免费版在节点数和系统存储容量上有所限制。

  何京翔:我今天谈三个问题。第一,英特尔是做硬件的公司,你跟Hadoop什么关系来这儿做什么。第二,在Hadoop的大数据中做了什么。第三,可以看到什么结果。

  首先我们是生活在这样一个时代,现在被计算设备所包围了,身边有三件智能手机、平板电脑和笔记本电脑。未来可能更多,当我们谈到智能城市和智能社区的时候,各种各样的传感器、各种各样的计算设备都会围绕着我们。所以我们现在生活的时代意味着我们有不同的设备,无论你是主动的用户交互的设备像三大件——智能手机、笔记本电脑、平板电脑,需要跟云端合作,一些嵌入式设备和车载设备,以及云的。当然产生了大量的数据,产生了用户应用,这些数据都需要分析。

  之后更重要的是安全,如果没有安全和可信度我们很难实现。因此全加起来很重要的是,需要的是一个开放的结构,一个开放的环境。我们认为要实现架构,这不是某一家公司或者是某几家公司可以做好的,而是众人拾柴火焰高的结果,是业界的合作。对英特尔来讲,我们的商业模型恰恰是培育一个生态系统的,过去是硬件生产系统,我们跟OEM厂商合作,慢慢现在的是软件生态系统,大的环境是希望能够怎么样培育一个大的生态系统,由各个厂家、各个服务提供商以及研究机构、客户一起来构造这么一个环境。

  英特尔从2010年以后开始重新定位,公司的愿景是已经不再定位自己是第一技术公司了,我们还在这方面做很多的工作,英特尔insight还是第一,但我们不是仅仅生产芯片、PC或者是服务器,我们把自己定位成通过计算技术来连接改善人们的生活,来使世界变得更美好。所以说从这种定位来讲,怎么来解决这个问题给用户提供更好的服务,怎么样对采集的大数据进行更好的分析,恰恰变成了我们非常关心的问题。这就是为什么英特尔关心大数据,因为我们把自己已经定位成一个用自己的计算技术来改善人民的生活使世界变得更美好,大数据是实现这个愿景的重要组成部分之一。

  那么你要做什么东西呢?我们的目的之一是想把Hadoop做成下一代做数据分析的平台,这是我们做了很多的分析和研究工作以后Hadoop是可以跨不同形态大数据的,以及可以把很多企业级的应用很好地结合起来,用它来做各种不同的数据分析,包括了做统计模型分析以及做一些learning的工作。因此我认为可以把Hadoop扩展起来,可以不可以用在实时数据分析。怎么样更好地支持cical,我想具体地分析一下。

  如果在应用方面按照这样的方向走的话,可以看到应用范围是非常广的,包括在Telecom里面,各种终端设备有各种的用户信息对用户进行行为分析,使得我们能够对服务网络进行优化,使得我们能够对用户的行为进行分类以及可以实时地、及时地对用户的需求进行反应。

  另外,智能城市方面也可以通过这样的系统使得我们对道路交通的管理,对交通流的控制都提供相应的支持和保障。所以说,如果我们把Hadoop扩展到basic这样的基本的分析,进行扩展和即时分析以及对最后平台的支持和对行业优化以后,它的应用前景是非常广的。因此在这基础上,是两方面。一方面是把已经有的Hadoop的研究和优化技术弄成企业级的Hadoop发行版,把它变成了一个软件包给用户使用。另一方面因为我们是研发中心,所以还有更前沿的研发。所以从两个方面,一方面把既有的研究成果推向市场,做成企业版的Hadoop软件包,另外一方面还做更前沿的研究。现在我们是两条腿走路,集中在三个方面,一个是即时性的分析上,怎么样简单易用包括提供全方位的支持上。怎么样在既有的数据平台能提高它的效率。所以我们是两条腿走路,一方面把已有的结果推向市场,另一方面做更进一步的研究,之后三个重点即时性、易用性和效率。

  下面我跟大家分享一下我们在这方面做的工作。

  首先是英特尔Hadoop发行版。这个发行版是通过几年的研发工作以后形成了结晶。我非常高兴地跟大家分享,这些方面的工作基本上都是英特尔中国团队完成的。中国市场大数据的应用和美国市场是齐头并进的,我们在这方面是有机会可以有所领先。在英特尔中国大数据的研发团队比美国做得还好。英特尔Hadoop发行版首先是在中国公布的,7月24日在中国已经发布了。现在我们还只是在限于在中国发布的发行版,可能以后会有其他的发布,但这一版是在中国发布的。我想跟大家分享一下中国的团队、中国的工程师是非常有创造力的,这在英特尔范围内已经是领先了美国工程师的。

  主要特点是四个方面,一方面是稳定性和易用性上做了优化。第二方面对英特尔的平台做了特殊的优化,这个软件包在英特尔平台上从性能上和效率上是有优势的。第三方面在算法和结构上做了调整,也就是对即时性的优化,使得它能够做到即时的数据处理。第四方面是和中国的用户合作,对行业应用做了特殊的调整和优化。比如说跟电信的客户合作,怎么把它用在账单服务、分析、电信系统的服务和优化上怎么样进行优化,比如说跟智能城市具体的图象处理、视频分析上做了特殊的优化。还有,比如说跟金融有合作,也就是说在行业的分析上也做了一些相应的调整和优化。这样使得我们这个软件包更适合于解决中国的问题。另外,正因为我们的软件包是在中国最先提供的,在真正的应用上和中国客户的合作也是领先于跟美国客户的合作。所以从这点来讲真应该感谢英特尔中国亚太研究中心的员工们,他们真正做到了这方面是中国的团队超过了美国的团队。

  具体优化哪些东西呢?主要是在数据分析和统计、挖掘的模块上,我们加入了对R语言的支持,之后对Hive上的优化,在分布式数据和HBASE上做了很多的优化和增强。另外开发了自己的Hadoopmanager由它做管理和监控支持。这三大块花了几年的时间做了优化和集成,所以把它做成了Hadoop软件包推上了市场,这是可见的。如果你想试也是可以做的。今天可以拿去试一试。

  另一方面是在研究项目上,不仅仅是停留在现在已有的发行上,而且是研究项目上跟开源社区的合作,我们基于跟开源社区的合作,更在SQLengine的支持上,以及变成Document store上,我们做了Hadoop的加强。另外在硬件的优化上,比如说在硬件的调优上做一些工具上的研究。这是现在研究的几个方向。

  即时分析上我们是怎么样把data可以很快地方在HBase里面去。我们采集数据的时候是非常快更新的,在数据更新上怎么能保证即时性,能尽快地把数据搜集起来进行分析?这是在Hadoop发行完了以后可以看到,可以在某种数据情况下比现在开源的提高10倍以上。我们怎么样把它提取出来进行快速的发行,这在发行版上都已经有了很大的提高。之后在Progect Panthera”上怎么样能提供一个Doucment base的支持,使得数据更容易被管理,而且管理的效率、存储的效率更高。现在还是R&D Project,现在我们放回Hadoop开源社区里面去,

  应用性我们讲的是更好的统计语言的支持上怎么样做到。之后,同时很多的数据中心是在跨数据中心之间的分析上提供相应的支持,怎么样给现在的支持,有的已经加入到发行版里面,比如说Full-text上已经是在发行版里面的。根据应用可以看到,它是一个即时性的Full-text的support,一会儿我讲一个联通的例子,几乎可以达到即时反馈的例子。

  现在的发行版还提供了R语言,大家知道R语言是统计分析语言,我们提供了R语言的接口,也就是说现在的数据可以通过R语言来分析,这样做统计分析的时候就能够利用现在统计分析的一些标准或者是一些已经有的现有的engine来进行分析。另外我们用vritual big table的应用,跨技术中心可以提供这个,可以从不同的数据中心之间进行集成的数据分析和整理。我们正在做的研究上是如何通过现在优化的技术提供Full SQL support,研究成果其中一部分会放在开源社区里面去。

  Efficiency里面,我们跟中国联通研究院做了这样的用户账单分析的例子里,用了Hadoop发行版之后对180个节点进行了优化,优化的结果是过去是需要24小时的数据现在在30分钟之内,最好的情况是10分钟之内就可以整理出来。有的速度是一秒钟,而且是并行的请求是在1000个以上,基本上达到了实时或者是即时的处理速度,在系统性能上已经得到了很好的优化。而且我们的用户——中国联通对这样的结果是非常满意的,比传统的大数据处理速度的效率更高,而且数据容量也更高。大数据的Benchmark上,以及在网上搜索上,以及Machine learning,我们可以用它来评估在我们平台上的表现和优劣。在大数据的环境下我们用什么样的性能呢?这方面也在做研究,希望在不久的将来可以提供给大家在你做大数据解决方案的时候可以有performance,使系统的效率提得更高。

  到此为止我回答了两个问题,为什么英特尔对大数据感兴趣;第二,大数据的领域里英特尔做了什么事情。因为英特尔的mission是用计算改变人类的生活,所以大数据对我们来说是非常有意义的。第二,大数据所做的事情是两方面。一方面把已经做成的研究成果打包成Hadoop distribution。而且我们研究的重点是在即时性、易用性和效率上。

  第三,讲了这么多结果是什么?我能用到Hadoop的解决方案,百闻不如一见,我能不能今天拿去试一试?我非常高兴地说,今天我们在这里把Hadoop发行版做了一个简化的版本,大家可以到网站去下载试一试。它基本上和发行版本是同一个,只是在管理和安全上做了一些削减,但功能上是一致的。而且它的存储包的数据量和节点规模上受了一些限制。但是基本上所有的功能包括SQL支持和即时性都可以支持。如果不知道有多少是学生或者是做研究方面的人员,如果你现在有大数据问题不妨去这块来试一试,看看它对你的问题能不能解决,能不能适用你的问题,我们还专门有社区把你的反馈意见告诉我们。

  所以我觉得百闻不如一见,既然今天讲到了英特尔已经在大数据上做了什么事情,特别是这个软件包也是中国员工开发的,因此我们就希望今天能够把它适用于中国的用户们,可以试一试看看它能不能满足现在的需求和需要解决的问题,我们非常欢迎你给我们的反馈。

  最后我想把今天讲的这几点总结一下,第一,我们的Immersive Computing已经发生了,这必然导致大数据,这必然是一个机会,这对所有从事计算机的人员是一个大机会,无论是做软件还是做硬件的。英特尔来讲不再把自己定位成硬件公司,我们用计算改变生活是我们未来的愿景,我们非常希望把Hadoop变成大数据的更好的解决方案上能做更多的工作,我们也希望通过Hadoop的免费版能跟大家进行交流和合作,听到他们的反馈。

  谢谢大家!

本文地址:http://www.jifang360.com/news/20121130/n392342709.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
更多
推荐图片