机房360首页
当前位置:首页 » 数据中心资讯 » 吴甘沙:大数据发展脉络

吴甘沙:大数据发展脉络

来源:机房360 作者:GOCN编辑 更新时间:2013-4-26 15:20:38

摘要:大数据是根本、是核心,云计算是术,它是方式和手段,移动互联网、物联网是物化大数据和云计算的价值。

  说一下我自己,我在英特尔十几年,早四五年主要是做虚拟机、编译器以及移动架构,中间四五年是做多核、重核的架构,以及并行计算,这几年转到分布式系统,像物联网、大数据等等。大家可以看到,从手机到多核、重核再到分布式系统,每一个阶段我们都可以看到一个相对比较长时期的大趋势,我们把这个趋势作为一种信仰,在这个上面念念不忘做了四五年才能产生回想。我非常同意大家说的,大数据是一个非常激动人心的机会,我们也把这个作为我们最重要的信仰。为什么这么说呢?我想给大家看一下科技革命的宏观规律,在人类历史上出现三次科技革命,第一次持续了50年,实现了机械化。第二次持续了整整一个世纪,以电气化作为标志。第三次是人类历史上影响最为深远的一次革命,信息化的出现以及信息化跟其他行业的这样一种相互影响。

  前苏联的康德拉季耶夫发现了三次长波理论,虽然这位老兄在第三次的时候在苏联被革命掉了,但是他的第四次长波还是能够很好的和我们的第三次科技革命吻合。所以有理由相信,如果2008年是第四次长波的结束的话,现在我们处在第五次长波的开始阶段,很有理由相信我们现在面临着第3.5次或者第四次的这样一种科技革命。下一波高潮呼之欲出。

  再看一下信息革命的小周期,我们认为信息技术革命经历了三个周期:

  第一个周期是架化,以IBM的360主机为代表的架构化,我们产生了 兼容的指令及操作系统、高级语言编译机,

  第二个周期是数字化,

  第三次是网络化,使得我们的信息对每个人唾手可得。现在我们很有理由信心,现在正在发生一些新的东西,

  第四次我们认为就是这几个关键词,移动互联网、物联网、云计算和大数据会是第四次科技革命的主要方式。我们相信这四个技术并不是相互割裂的,待会我会说明这四个技术是相关的。

  说到大数据,究竟是一个什么东西,刚才跟IBM的王总也在谈,我想它肯定不是数据库,数据库是它的一部分,但是它更是一种思维方式, 更是一种战略,要跟业务层面、跟应用结合起来的一个东西。

  我把大数据模式分成三类,第一类见自己,正如苏格拉底说的你要认识自己。第二个层面是见天地,你要关注你自己,来到天地之间、社会之中,去了解群体和社会的行为。第三个是见众生,所谓众生就是天地、自然、万 物,所谓一切众生皆有佛性,这就是天地、自然、万物的规律。

  第一个见自己,基督教有句话叫凡走过必留下足迹,我们经常在互联网上留下足迹,比如说北大做了微博的可视化、清华做了微博的关键词,Prismatic做了微八卦,Coursera根据你的兴趣行为帮 助你做在线学习,Klout是一个社交影响力平台,能够算出你的社交影响力,比如说你的积分超过四五十分,你到机场可以免费享用VIP。所以 这是第一方面。第二个方面是我们每个人心智健康的状况。第三就是你的消费行为,FICO是美国消费信用评估公司,它公开声称我了解你明天要买什么东西,包括我们的精准营销,所谓纳米的定位,你把一个东西放进了购物车却没有购买,它能够在你后续的网页访问和应用当中,把 这么一个东西的广告向你显示出来,所谓这些都是见自己。

  第二个应用模式,就是见天地。见天地我们刚才说要来到天地之间、社会之中,了解群体的行为。最有名的就是沃尔玛的购物篮分析,他们跟英特尔一起做的,他们能够从广普的行为上分析出你的行为,他知道在飓风天气下,把蛋挞和手电筒放在一起很好卖,第二次飓风来临的 时候,就应该把蛋挞和啤酒放在一起。另外一个公司叫Euclid,它能够通过每个人手机的WIFI信息帮助顾客了解行为,比如说多少人在店外、多少人在店内,多少人是新顾客、多少是回头客,每个顾客在店内盘旋时间多久,他们的转化率是多少。还有一个是CitySense,大家可以看到这个地图上不同颜色的人群他们可能是不同的爱好、不同的目的在运动,他们运动到不同的地方,在同一个地方,相同兴趣的这些人能够用同 一种颜色标识出来,能够帮助你做更好的移动社交。

  第三类是见众生,你了解天地、自然、万物的运行规律,比如说我们的环境,PM2.5都是大家关心的话题,它的形成机制是什么,什么影响 了它,我们怎么去解决这样一个问题,比如说我们生命的规律、生命的原理,大家知道,戴维帕克森他了解了癌症的形成机理,大家知道古代的帝王成就事业以后都要了解长生的问题,现在在硅谷,比尔盖茨、伯格也都在支持这种生命原理方面的研究。包括我们对整个世界的认识, 我们的知识图谱,Google在做知识图谱,还有类似于语义互联网等等,大家都属于见众生这一类的。

  智慧城市的建设

  现在大家看起来好像比较有点高、比较有点玄,我想用一个实际的例子,是介于见天地和见众生之间,它就是智慧城市的建设。这张图是来自于CCID高级副总裁张涛先生,大家可以看到,在这个里面全国已经有154个城市开始了智慧城市的建设,尤其是在环渤海地区、长三角地区、珠三角地区,以北京、南京、上海、广州为代表的这些城市,大家可以看到,在长三角地区,区域IT投资占比达到26.1%。我们现在开始了那 么多智慧城市的建设,是不是有一种很好的方法学在驱动这种建设?我们认为现代城市的设计方法,这些理念在19世纪就已经定型了,到目前 为止一直没有大的改变,它是不是能够适应我们城市的可持续发展的需求?不见得。

  软件定义城市的概念

  所以,在去年我们就提出了这么一个软件定义城市的概念,比习总、李总讲城镇化更早一些。软件定义城市跟软件定义数据中心、软件定义网络一样,因为你是软件,所以比较灵活,可升级,能够适 应瞬息的变化,但是它是DRAGON时代。什么是DRAGON时代呢?反映了新型城市的六种特征:

  第一个特征是Data driven,有很多数据涌入这么一 个引擎里面,能够实现实时、协调、全局优化的数据决策。

  第二个,Resilient就是说你这个政策是不是去中心化的,具有一些自组织的城市细胞单元, 他们能够具有面临突发事件或者重大灾害的自愈。

  第三个是Automated,可以想像,这个城市是一个生产流水线,数据产品、智慧产品流出来, 可以驱动物联网,反馈到我们的物理世界里面,所以这是自动化。

  第四个是游戏化,Gamification,这种游戏化的机制既能让我们的生活更加丰富多彩,也能够改变我们的行为、改变我们对资源的使用。

  第五,Open,开放,想象一下我们整个城市是一个巨大的母体,我们每一个人、每一个物、 基础设施、每一个应用,只要连上网,它就插入到这么一个母体当中去,然后它们之间能够进行交互。最近雅安的地震,大家知道我们每个互联网巨头都推出了寻人的功能和应用,但是问题是它们是碎片化的,不能整合起来,所以Open它需要标准化,如果说我们每一个人都支持这样一种标准,那所有这些资源都能够整合起来。

  最后一个N是Networked,我们的人和网络都是互联起来的,包括了物理网络,水网、路网、电网等等,跟虚拟的信息网络,移动网络、社交网络都能够联系在一起。所以,这六个是非常有机地结合起来了,内在机制、外在需求和结果。

  实现软件定义城市需要什么

  但是要实现这么一个软件定义的城市,它需要一些新的东西,我们认为需要三方面的东西,

  第一个就是我们新的大数据的思维方式和方法学。我们说你要改变态度、改变行为,必须要改变三观,所以就是思维方法学这是非常重要的。

  第二个就是大数据的生态系统一定是新的,它 有新的成员、新的交互方式,怎么能够提供新的服务模式。

  第三个,大数据从采集到存储到处理,包括安全方面,都有对新技术的需求。

  先说新思维,刚才李司长讲到了大数据有四个定义,我们先看三个定义,大、杂、快。第一个,大,数据量非常大。这个大意味着什么? 我们一定要改变数据是稀缺资源的世界观,原来我们的数据是稀缺资源,所以每一个数据分析师都是一种数据小农的心态,什么是数据小农心态?他是挑着去测、拣着去存、采样去分析,我觉得这个是需要改变的。第二个是杂,现在有非结构化数据、结构化数据,有互联网数据、企业数据、感知数据。这个杂对于我们的思维带来的一种新的变化,就是个体数据的精确性已经不再重要了,我们现在买一个PM2.5的个人测量设备要5000美金,非常贵,但是我可以有几个非常便宜的几十块人民币的这样一个设备把它融合起来,能够逼近这个测量器。比如说我们在路上一个摄像头没有照出你的车牌,你经过下一个路口的时候,它还是能把你照出来。第三个是快,大家知道数据来得快,需要消费的也快,所以 数据的折旧性也非常快。有些传感器的数据可能产生了几秒钟你不处理就没用了,最近一天的数据比6个月前、几年的数据更有价值。美国海洋 和大气管理局在地震出现之后9分钟给出了海啸的警报,但是9分钟还不够,因为人们来不及逃到高地上去。

  基于这些新思维,我们要有新的方法学,当然这些方法学并不是我独创的,很多方法学最早在理论终结短文中已经出现了,最近又被更深入的阐述了出来。第一个就是采样数据到全集数据,第一层面,我们要把数据采集作为一种全面的习惯,第二层面,我们数据采集时要避开主观性。老外写了一本书,说原数据本身是矛盾修辞,这里面带有采集人的主观思维,所以我们要尽量避免,怎么避免?我们要通过工具,不是通过人,去插入这个采集点,把它放入基础设施。第三层概念,因为你数据采集下来,必须要解决存储的问题。

  第二个就是多数据源的整合问题,我们有很多数据源,怎么通过数据融合的算法把它整合起来,怎么从非结构化的数据当中抽取语义出来。如果这些数据源是分布在各个区域的,这个分布式中心系统跟我们的分布式中心系统还不一样,我怎么样能够在跨数据中心的情况下实现多数据源的整合。

  第三个,就是大数据加上简单算法,它比小数据加上复杂算法更有意义。这个事实上在很多方面都获得了证实,比如说机器翻译,我们的搜索到现在非常流行的深度学习,都发现你的数据集大的话,你的算法可以简单,但是你的结果可以更好。你的算法如果能够跟上下文、知识的积累结合起来,这个结果就更好。比如说Google最早的搜索是基于统计学的,但是它加入了知识图谱的功能以外,搜索出来的结果就会更好。

  还有一个就是因果关系跟相关关系的关系,现在这个已经出现在很多地方,大家都说我们要相关性,不管因果性,并不是说我们不需要最终追究这个因果关系,但是我们传统的科学态度是什么?看到了一个相关性,我会想要了解为什么,我想给出一个假设,建立一个模型,然后去验证这个模型,这里面带入了相当多的主观因素。还不如在这个时间段,我尽量去发现相关性,先不去考虑因果,先发现相关性,然后再研究因果。

  美国有一个人发明了鸟枪基因测序法,他并不是看到一个新的物种然后去测,他是直接对海水去测取,直接对纽约市的空气进行测取,他能够在其中发现几百万种新的基因片段,然后基于新的片段,再跟现存的生物做比对,再取这种相关性。我就想到前一段时间的禽流感,我们在菜市场对空气进行测取就可以了,何必进行采样呢?所以这个思维方式非常重要。

  还有一个就是描述性的分析,我们原来的报表、原来的分析都是描述性的分析,它是什么呢?我要了解过去发生了什么,为什么发生。最好的情况下,是能够了解现在正在发生什么。但是未来是预测性的,我要了解未来会发生什么,甚至是处方性的分析,我想要未来发生什么,我要做什么样的事情,能够让未来这件事情发生。

  还有一个就是实时性,一定比绝对的精确性更重要。大家知道,购物篮分析是基于历史的数据做出相对精确的分析,但是问题是当你在一个超市购物的时候,你去发现用户这个最好的点,是他还在浏览、找东西的时候,而不是最后结账的时候,所以实时性非常重要。这是一大类的思维和方法学。

  大家可以看到,在我们的实际应用当中,比如说现代交通就需要多数据源,有些数据来自于北京的监控和指挥中心,有些是二级以上城市的数据。我们每天摄像头产生的视频和图象数据以及原数据要几百个GB,其他的数据,大家可以看到结构化的数据,手机位置信息,1800万条。出租车GPS信息两千万条每天,交通卡刷卡信息1900万条每天,还有高速收费的数据,还有静态的数据,居民调查的数据,甚至是看起来跟交流没有关系的这些领域,事实上也能够产生相关性,比如说我们的供水系统,我们的供水系统能够知道早上晨起的高峰时间,同样智能系统能够知道每天晚上办公室关灯的高峰时间,根据这个时间它能推算晚上堵车时间。包括我们的睡眠质量跟我们交通的状况有关系,我们对社交网络进行情感分析,跟我们的交通事实上也有关系。这种多数据源的集成,才能达到最大化的价值。

  大价值也能带来新思维,首先数据是个原材料,如果说我们现在处在新一轮的工业革命,第三次工业革命早期的话,工业革命的原材料就是我们的数据,所以它有原生价值。同时,如果说数据是个原油储备的话,从数据里提取出来的信息是原油,所以它又有提炼的衍生价值。数据又是资产,我们原来说我们的企业IT部门纯粹只花钱不赚钱,但是如果数据成为资产了,它就可以成为一个利润中心,这个数据有初次利用价值,也有反复利用价值。比如说物流公司有个人信息数据,有托运方的数据,以及很多客户的数据。一开始的想法肯定是把这些数据很好地利用起来,使它的运营更为有效。但是再想一想,它事实上可以反复利用这些价值,比如说托运方信用数据,使得他能够对托运方进行贷款服务,甚至拿托运方正在路上的货物进行抵押贷款,他能够了解每一个细分领域的经济运行情况,又能够变成一个金融信息公司,所以数据是能够反复利用的。最后一个数据是货币,既然是货币就能够交易。

  基于这样的新思维产生的新的方法学是什么呢?它可能是一种数据的资产产品和社会化分析服务,为了达到这些,我们首先要考虑数据的民主化,怎样实现数据的民主化,让每一个人接触到数据?事实上我们的政府应该走出第一步开放我们的数据,从美国来说,纽约和芝加哥都有开元数据等等,所有这些都代表政府应该在前面领路。除了政府免费开放这种数据,其他的还应该有有偿数据,通过数据的市场和定价,你这个数据是根据量定价还是根据你的数据类型定价。还有,我们并不是每一个拥有数据的人都有分析的能力,所以你要社会化分析的服务,让别人帮你分析,在保障数据拥有权和其他权利的前提下,让其他人帮助你分析,事实上在美国有这样的公司实现这个东西。

  所有这些带来了新的数据大生态的系统,第一个是数据拥有者,第二种是数据中介,第三种是数据的技术公司。现在很多传统行业的客户他可能就是数据的拥有者,但是现在也有很多新的,比如说微软有提供数据的产品和服务,同时能够交换数据,所以它又承担了数据中介的服务。而像阿里巴巴可能是承担了三个角色。

  在智慧城市里面,怎么去安排这样一种生态系统?我们认为未来的智慧城市,它会出现一种公共数据和服务平台,平台的最下面是城市的操作系统。大家知道,操作系统是用来管理资源、调度资源,在我们的城市里面,你也有很多分布式的存储、互联和计算的资源,还有很多分布式的传感器的资源。操作系统同时又有很多的高层的抽象,我们有文件、有进程、线程、信号灯,在城市生活当中也有路灯、有路、有各种各样的电网,所以这些高层的抽象都可以由城市的操作系统建立起来。

  第二层就是数据的交易市场,你要有这么一个数据的集市,让大家把数据放上去交易产生价值。刚才说过纽约、芝加哥、都柏林等各种各样的数据市场。

  第三层就是城市的应用商店,有各种各样的应用,这些应用都能把你个人、把你的环境、服务数据连接在一起。这三层架构你需要掌握新的技术,比如说在IaaS、PaaS这一层,你需要具有多范式,在DaaS层面,你需要有数据定价的功能和权利的保障,在SaaS方面,你要把城市、政府和个人生活连接起来。这是传统大数据的技术站,最下面的是计算互联存储,现在这块事实上也有很多新的发展,我们的计算从单节点变成机架的计算,我们的标准服务器变成定制化的服务器,有硬件加速器、软硬件协同设计等等。数据处理的信息和结果能够以用户消费的结果显示出来,同时有数据权利的问题,数据权利是一个比较新的概念。

  我们先说在这个站上面需要做的一些新的考量,我们认为大数据一个系统一定是针对特定的应用做出一个特定的最优大数据系统,而这个大数据系统要考虑三个因素,一个是大体量、一个是精确性、一个是实时性。我们现在认为在很多情况下你只能满足两个,不能三角全部满足,这只是我们现在的观察。比如说批量计算,能够满足大体量和精确性,但是不能满足实时性。复杂数据处理,能够满足实时性,但是处理的数据只能在一个窗口里,相对比较小,同时它是一个实时的inside。

  即时查询,还能够对数据进行采样,实现秒的查询结果。增量计算相对比较好的平衡了这三方面,所谓增量计算就是历史数据放在一边,新数据不断加进来,产生新的价值。当然,增量计算必须跟内存计算结合起来,有内存计算才能实现更好的短延迟的计算。小数据个人的计算是在这一头,它能够完成精确性,而我们的城市计算是在另外一头,它是一个大体量。所以你要有一个设计权衡。

  基于这个设计权衡,我们也做了一个完整的站,这个站里面,当然有Hadoop,如果你拷贝三份的话,非常浪费资源。SQL和即席查询,包括图计算,在这上面实现大规模的数据分析以及数据的可视化,再下面是基于IA的平台、基架。就英特尔研究院就参与了很多工作,比如说英特尔现在已经有Hadoop。

  数据的拥有权、隐私权和使用知情权

  再说一下现在谁拥有数据、谁能用数据、谁在用数据、管理边界在哪里?Google的道路状况数据库没有开放出来,我们的社交媒体数据库到底是属于发帖人还是社交网络,这也不太清楚。比如说我们的行车记录仪是属于保险公司还是车、还是个人的,你的医疗记录电子病历到底属于医院还是你个人的?实际上这些权利都不是特别清楚,所以我们现在强调数据有三种权利,第一种是拥有权,第二种隐私权利,第三种是使用知情权。

  第一种,我们要保障他的拥有权,我们要有法律和技术进行保障。其次就是我们的隐私权,大家知道,隐私和服务是一种辩证法,关键是我们对这个隐私数据的使用要有控制,这种控制需要使用的知情权,这个使用的知情权就是说数据的拥有者对于这个数据的使用是可计的,数据转换当中,它的血统是否丢失了,产生多少价值。而且尤其像GPL一样,我做了开源软件的1.0,别人做了2.0,他卖了钱以后,我是否可以分一部分利润。

  最后总结一下,通过DRAGON时代的必经之路,我们需要了解新的生态系统,参与生态系统,提供新的服务模式。第三个就是在大数据的采集、管理、存储、分析、数据保障这一块要有新的东西。

  最后用这一张作为一个结语,刚才说的几个都不是相互割裂的,大数据是根本、是核心,云计算是术,它是方式和手段,移动互联网、物联网是物化大数据和云计算的价值。

责任编辑:GOCN

本文地址:http://www.jifang360.com/news/2013426/n646147360.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
更多
推荐图片