机房360首页
当前位置:首页 » 大数据 » 从Greenplum、Hadoop到现在阿里大数据技术

从Greenplum、Hadoop到现在阿里大数据技术

来源:网络来源 作者:机房360 更新时间:2016/5/31 10:23:59

摘要:大数据对于企业来说,但是到底云计算是什么呢?相信很多企业都有这样的困惑,让我们一起回到这个原始的起点探讨究竟什么是云计算?云计算对于企业而言到底意味什么?

  云计算的三条发展路径及三种落地形态

  当回到最初的起点再审视云计算的发展路径,可以发现,经过十余年的发展演进,云计算有三条发展路径,并且最终沉淀下来了三种落地形态。

  第一条路 :源自于谷歌对大规模数据的处理,谷歌为全球的互联网用户提供同一个服务——搜索,它需要将全世界所有的网站的数据都爬回去,然后做排序和索引,之后再为用户提供搜索服务。可以看到这样的工作需要对海量数据进行处理,谷歌需要把上百万台的服务器整合起来去做排序,索引和查询。

  第二条路 :淘宝则发展出来云计算的另一条路径,这条路与谷歌的相比有类似之处,同样需要把很多数据整合起来做一件事情。在我看来,淘宝所做的事情比谷歌更伟大一点,因为淘宝做的事情是交易。承载6亿用户在线访问和下单支付,这件事情比简单提供一个不能保证这次查询和下次查询结果的差异的查询要更加困难,也更加伟大。因为这是有极其严格的业务要求的,虽然在规模上而言淘宝可能用不了像谷歌那样多达百万台的机器,只使用十万台机器就足够了,但是这也是一个聚沙成塔的过程,把众多的廉价的服务器整合起来去做一件事情,这就是云计算的第二条路径。

  第三条路 :这条路径的发展是源于在过去的十几年间企业内部在硬件方面进行的大量的投资造成的大量赋闲服务器资源。对于企业内部的使场景而言,往往仅有几千或者几万个用户,即便是大型的国有企业拥有有上百万用户,也就仅此而已。和动辄上千万,上亿的互联网用户相比,企业投入大量的IT资源特别是硬件资源的情况下,服务的客户数过少,显然造成服务器资源的赋闲。面对由此造成的资源利用率低的情况,带来的挑战就是如何更多更好地去利用这些赋闲资源。虚拟化技术,最早是IBM在小型机上或者大型机上就实现了,通过虚拟化或者分区技术,可以来解决资源利用率低的问题,虚拟化的技术后来被VMWare发扬光大,在X86的平台上进行了广泛传播应用,第三条路径其实是就是虚拟化的过程。

  云计算经过发展最终沉淀下来的这些技术,对于企业,甚至对于任何一个开展的业务而言,都必不可少的。既需要有效利用资源,将规模从小变大;也需要面向客户和业务做在线并且有业务质量保证的交易,同时也需要对数据进行大规模处理,进而产生对数据的洞察来支持业务的智能化。

  真正能做到这样的集大成者,实际上是我们现在看到的互联网架构的云提供商,比如AWS和阿里云。而另外一些模式产生出来的云计算提供商,因为它们没有这些强大的业务需求推动而产生的技术沉淀,所以很难把这个能力集合在一起。比如面向企业的商用软件VMWare,虽然其能够提供虚拟化,但是对于运行在其上的分布式应用,以及对大数据的处理就显得比较薄弱。而开源世界则通过软件方式的交互,看起来能够拥有这样的能力,比如通过Hadoop可以做大数据,通过OpenStack可以做虚拟化,但是我们可以看到这两者是实际上存在天然的割裂,无论是在硬件的共享还是在管理层面的融合,以及在业务层面的互相支撑都存在鸿沟。

  再回过头来看,企业在上云的过程中会遇到一些挑战,企业需要面对非常复杂的云计算路径。面对这么多的云计算形态,企业在上云时会遇到困惑:到底该怎么考虑自己的云计算?

  中国企业上云的三大问题

  阿里在和很多企业沟通并且帮助他们进行云计算转型的过程中,认识到了企业上云面临的最大的三个问题:

  第一:将虚拟化等同于云计算,沿着虚拟化的这条路走到黑。

  第二,缺乏数据中心全局方案 :在小规模的应用场景下,进行简单的虚拟化还是可行的,但是当云变成了企业的公共资产,变成一个平台的时候,就需要从大规模的角度甚至从数据中心整体的角度考虑,不光要考虑硬件的安装部署,还要考虑后续的维护和统筹部署,安全问题以及业务快速响应问题。由于缺乏全局方案,所以数据中心变得非常棘手。

  第三,难以全面拥抱公共云 :由于中国的很多政策,以及很多企业的传统习惯,还有很多投资方面的资产会限制企业一步到位地去拥抱公共云,很多时候企业希望在自己内部有一朵云,帮助企业既能够享受互联网技术带来的业务升华,同时又能避免一些政策的影响以及数据安全的限制。这些问题是真实存在的,比如说虚拟化这件事情,未来的业务场景会是互联网化甚至移动互联网化的,我们不得不把自己开放出来,去迎接更多用户的访问。只有与更多客户发生直接的关联,才能够产生对客户的洞察,这时大规模的访问以及大规模在线交易将成为必然。另一方面制造业设备,运输业的交通设备和其他电子设备等都在升级改造成为智能设备,这些设备之所以智能的前提条件就是它能够将数据送回来,让我们加以利用,这就构成了另外一个维度的大规模,这就是互联网的连接的大规模和物联网信息处理的调度大规模。

  对于第三件事情,还有重要的一点是:当客户的行为数据和产品产生的数据都回到我们手中的时候,应该如何去使用这些数据?我们需要使用它们产生智能来指导业务,比如淘宝体系内,对于6亿用户,100亿商品,依靠传统方式手工去推荐基本上是一个不可能的事情,只能依靠人工智能对数据的挖掘,靠商业的智能在100亿商品和6亿客户中做推荐。双十一900多亿的营收,有300多亿的超总营收三分之一是来源于智能推荐,这也导致一个3万人的企业产生了3万亿的这样庞大的经济规模。

  企业上云的最大障碍

  未来企业做大规模云计算的时候,会遇到一个很大的障碍就来源于数据中心。在传统企业中构建数据中心往往采取使用复杂的硬件做集成的方式。这些异构的硬件产品在小规模的单系统情况下,耗费一些时间去集成运维,系统所提供的可靠性保证还算是可以的。但是如果将全公司成百上千个业务都运行在同一个系统上面的时候,靠简单硬件的高可用已经不足以承载,因为在5000台机器的规模下,每天都有超过10台硬盘的损坏,以这样维修的概率,如果不以软件的方式和智能化的方式加以解决,完全靠硬件的集成方式,是无以为继的。

  更可怕的是对于这样一个复杂的集成工程,从采购到建设,将会经历一个漫长的的周期。这样做云计算反而制约应用的发展,因为过去一个系统采购一套设备,还是等得起的事情,但是当几千个应用都需要等待这个云平台的建设来开通的时候就是个等不起的事情了。

  安全同样也是,政策法规、信息安全的一些隐患、现有系统的投资等等问题,都导致企业不可能一步就走到公共云上去。在这样的情况下,企业要解决这些困惑,要上云该怎么办呢?

  通过使用安装了Linux系统的五千台相同的计算机,通过飞天的分布式文件系统,整合成为一个分布式系统。基于200个PB的存储和10颗CPU,还有这1000TP的内存以及它们之间网络的服务,得以开通了三类服务。

  第一类服务 :弹性计算,就是应对虚拟化的服务,但是它不只虚拟化,弹性计算可以做计算虚拟化,存储虚拟化,可以提供更加强大的计算环境;

  第二类服务 :提供淘宝这样强大的分布式应用中间件来帮助企业打造分布式应用;

  第三类服务 :大数据处理和数据智能的这些业务,这些业务都是依赖于我们的大数据处理能力进行的。

  强大的数据处理能力进一步推动了智能业务的高速发展

  通过飞天系统成功地将三种云计算以及云计算路线整合到一个平台当中,有了这个平台的支持,才使得整个企业的智能化得到了长足的发展。在智能化发展过程中,我们基于这些计算能力,逐渐地垒高了技术和模型的储备以及对数据应用的储备,一层一层地从分析工具到应用引擎再到解决方案,支撑了阿里巴巴整个智能化的人力资源,智能化的安全管理,智能的物流客服以及智能化推荐,这些也支持阿里巴巴整个集团业务不断前进和发展。

  恶劣的互联网安全环境下十年攻防铸就了强大的云安全

  在这个的过程中,阿里巴巴作为一个互联网公司,在快速发展业务的同时也在遭受世界上最多的互联网攻击。真正的统计数据是,我们每天会防御2亿次暴力破解,2000万次Web入侵,超过1000次DDOS拒攻击,在这样恶劣的环境下,我们用10年的时间产生出一整套安全体系和服务产品。这个产品从感知态势就可以知道,哪些坏人,哪些恶意的行为在哪里发生,以及他们用了什么样的服务器,谁是主控,对我们在进行什么样的探索行为,背后的人是谁,他的身份证号码是多少,这些东西,我们都通过感知的基础之上进行捕获。基于感知的基础就可以做到知己知彼,才可以百战百胜,战胜敌人的同时对自己进行保护。我们的产品服务有网络层面的保护,也有服务器主机层面的保护,更多的会上升到业务层面的保护以及对于数据的防护。

  举个态势感知的一个例子,双十一当天,有很多机构和竞争对手在对我们发起攻击。这些攻击行为来自世界各地,来自机器和人。通过对其进行追溯,我们构建出了一套以大数据为核心的安全体系,围绕着网络,应用数据,形成了各个维度的全链路的闭环式的联动安全体系。

  这套安全体系,不仅在保护着我们自己,同时也在保护阿里云上100多万的企业用户,帮助他们修复每天6000多次的高危风险,阻碍1000多次DDOS攻击,拦截2000万次的Web渗入和2亿次主机暴力破解,为阿里云百万客户保驾护航。

  大规模数据中心运营沉淀的整体数据中心方案

  对于从用户提供的服务中沉淀下来的能力,用一句话总结就是:软件定义数据中心。在如此大规模的情景下,我们没有办法靠传统方式去堆叠硬件,去做集成和做分段维护,我们必须要有新的方式:基于最简单最普通最标准化的硬件构建底层,然后用飞天操作系统将几千台机器整合成一台机器,在其上为大家提供软件定义存储的服务。客户需要对象存储,阿里云就提供对象存储,无论如何一定会解决客户的存储问题。

  软件定义网络的服务,需要安全网络VPC,需要负载均衡和高速通道,阿里云都可以帮用户提供,不需要客户去独自支撑这样的服务,也不需要客户再去手工操作。之后再将安全包括刚才提到强大的云盾,安骑士态势感知作为一个防护体部署在数据中心之上。

  有了这样的软件定义存储,网络和安全之后才算是提供了真正的弹性计算。

  责任编辑:余芯

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/2016531/n977482620.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
转载声明:凡注明来源的文章其内容和图片均为网上转载,非商业用途,如有侵权请告知,会删除。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片