Hadoop2.0 让大数据迎来新突破_机房360

摘要：在最开始，Hadoop似乎成了大数据的代名词。但随着大数据应用的深入，大家已经越来越倾向于仅仅把它看成是大数据的一个存储工具了。

　　这并不是一件坏事，如果把Hadoop当作廉价有效的存储，则它正好是Hadoop下一阶段演进的的完美起点。而就要亮相的Hadoop2.0将会令数据仓库中的信息以及非结构化数据池前所未有地容易访问。
　　
　　Hadoop自成为大数据工具以来，就是一个非常棒的数据存储系统，但是需要开发Java应用来访问数据的MapReduce学习起来却比较困难。当然，还有别的办法可以从Hadoop中获取信息。Hbase数据是Hadoop的一部分，它可以让用户按照数据库范式来处理数据。
　　
　　Hive数据仓库则可以让你用类SQL的HiveSQL查询语言来创建查询并转化为MapReduce任务。不过Hadoop仍受限于单线程性。MapReduce任务、Hive查询、Hbase操作，等等，这些都要轮流进行。这就是许多大数据供应商倾向于仅将Hadoop当作数据容器的原因，为了提高效率，他们在此基础上再开发自己的工具来获取或分析其中的数据。那些Hadoop的开发社区也意识到了这个问题，随着Hadoop即将迭代到新的版本，上述限制即将在很大程度上被解除。
　　
　　YARN解决方案
　　
　　在Hadoop2.0发布经理ArunMurthy看来，Hadoop2.0最重要的变化是MapReduce框架升级为ApacheYARN，这将扩展Hadoop中可以应用的软件种类和应用程度。ArunMurthy指出，Hadoop1.0和2.0的区别在于，前者所有的事情都是面向批处理的，而后者则允许多个应用同时在内部访问数据。而相对于当前MapReduce系统能处理的事情，把这些功能分开使得Hadoop集群资源的管理更加强大。其主要管理方式类似于操作系统对任务的处理，也就是说不再有一次一项操作的限制了。有了YARN，开发者就能够直接在Hadoop内部来开发应用，而不是像许多第三方工具所做的那样，在外面把数据筛选出来。
　　
　　Murthy表示，现在已经有供应商对在YARN框架内开发应用表现出兴趣，Hadoop2.0的强力beta版有可能会在今年6月或7月推出，正式版则可能在8月发布。如果YARN的确能履行其承诺的话，开发者将可以在原生的Hadoop平台里方便地接触到许多的数据大湖大海，令搜寻有用信息的任务更加流畅和便捷，让大数据会变得更加有用、更加大众化。
　　
　　责任编辑：余芯

JIFANG360.com - 机房360

Hadoop2.0 让大数据迎来新突破