预测2015大数据趋势星环孙元浩为你揭秘_机房360

摘要：2014年12月12-14日，第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕，在会上对2015大数据趋势进行了预测。

　　2014年12月12-14日，由中国计算机学会(CCF)主办，CCF大数据专家委员会承办，中科院计算所与CSDN共同协办，以推进大数据科研、应用与产业发展为主旨的 2014中国大数据技术大会 (Big Data Technology Conference 2014，BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕。

　　星环科技CTO孙元浩的演讲主题是“2015年大数据基础技术的演进趋势”。期间，他一共总结了四大趋势：SQL on Hadoop技术对SQL支持的完整度和性能大幅提升，混合架构将逐渐消失;从In-Memory Computing 转向 On-SSD Computing，固态盘将替代内存作为缓存;数据产生的速度以及处理的速度要求都在快速提高，实时大数据技术得到关注;虚拟化技术的快速演化与Hadoop技术的日益平台化，云计算与大数据终得融合。期间，他分享了Spark的一个数据：全球已有近50家企业围绕Spark提供产品和服务，11家提供商业Spark版本。

　　星环科技CTO孙元浩

　　以下为演讲实录：

　　孙元浩：

　　谢谢大家，谢谢查教授，我今天演讲的题目是2015年大数据技术的演进趋势，过去我们一直从事大数据实践，有一些心得跟大家分享一下。我们做了明年的预测，邀请大家一起验证。

　　第一个趋势是随着SQL on Hadoop技术的快速发展，SQL完整程度的大幅提高和性能提升，我们认为混合架构逐渐开始消失。

　　这里我解释一下为什么出现混合架构，在过去几年当中Hadoop这个技术最早开始互联网公司使用，十年之前开始发展，几年前互联网公司在企业里面用得越来越多，它处理非结构化数据和半结构化数据非常有利，但是处理结构化数据的时候功能不完整，用户觉得应该还需要使用数据库，或者MPP数据库，放在Hadoop旁边协助处理结构化的数据。第二个原因Hadoop是为几百TB，几个PB数据设计的，但是数据量小的时候，小于100T或者到10个T以下的时候，大家发现Hadoop的性能不如传统的MPP数据库，这时大家觉得有必要使用混合架构，把全部数据放在Hadoop上，部分数据放到MPP数据库进行计算，或者把实时数据放到MPP数据库，把历史数据放到Hadoop里面，当数据量积累很大的时候也让Hadoop计算，这是混合架构典型的部署方式。

　　我们看到过去的三年当中Hadoop发展非常迅猛，很多公司快速做SQL开发，性能也有很大提升。我们总结了一下市场上大概有四种SQL on Hadoop的技术，我是说Hadoop系统里面原生开发SQL引擎的公司和技术。第一个是Impala，它的引擎采用类似于MPP的引擎。第二家是Tez，它吸收了Spark的一些设计思想。这个产品是2012年大概五六月份开始成型。第三个我们公司的产品我们叫做Transwarp Inceptor，这是基于Spark开发的SQL引擎，我们去年10月份是第一个版本，目前支持SQL2003，支持函数、游标等功能，我们SQL完整程度目前是所有Hadoop里面支持最完整的。同时，还有 SparkSQL和Drill。四类引擎每一个都在独立发展自己的技术，而Spark会成为一个主流。我们已经可以支持TPC-DS所有的测试项，TPC-DS是用来衡量数据仓库的执行性能的，里面有大量的非等值JOIN语句，这使SQL引擎支持比较有难度的。

　　我们做的第一个判断是混合架构会逐渐的消失，过去MPP数据库有三个优势，第一个SQL支持完整，现在我们的SQL支持程度已经接近MPP数据库;第二个它比Hadoop性能高，但我们看到现在Hadoop性能可以超过MPP若干倍。第三个优势就是说它上面的BI工具，外延工具非常全，传统的BI厂商都已经转向Hadoop，Hadoop系统的BI工具也越来越丰富，还有一些新兴的创业公司在Hadoop上开发全新的BI工具，这些工具原生支持Hadoop，从这个角度来讲Hadoop的生态系统将很快超越传统MPP数据库。

　　我们觉得在未来一年两年之内，Hadoop将逐渐取代MPP数据库，大家不需要用混合架构，不需要在不同数据库之间实现迁移了。有人说我MPP也在迁移，慢慢向Hadoop靠拢，这也是事实，整个MPP的数据库在慢慢消失，完全走到Hadoop上面来。我们希望最后结果就是数据全部放在Hadoop上，不管数据在几个GB级别还是10个PB级别，都可以在Hadoop上处理，真正做到无限的线性扩展。

　　我们发现一个事实现在Spark成为最受欢迎的计算引擎，Impala已经开发了三年时间，SQL支持仍然不够完整，而通过Spark可以快速并行化SQL，SQL支持的完整程度可以快速提高。同时，通过Spark引擎我们证明新引擎性能可以超过MPP数据库。从今年开始Hadoop的社区发展非常快速，今年六月份的时候Spark Summit大会上，原来Hadoop生态系统中的各个厂商或项目都宣布开始全面支持Spark。我做了简单的统计，全球已经有近50家企业围绕Spark提供产品和服务，其中有11家提供商业的Spark版本，这是这里面所有的11家公司，我们也是认证的Spark发行版厂商。

[1] [2] [3]

JIFANG360.com - 机房360

预测2015大数据趋势 星环孙元浩为你揭秘

预测2015大数据趋势星环孙元浩为你揭秘