机房360首页
当前位置:首页 » 数据中心资讯 » 怀进鹏:大数据及大数据的科学与技术问题

怀进鹏:大数据及大数据的科学与技术问题

来源:机房360 作者:yuxin编辑 更新时间:2013-6-8 16:00:24

摘要:在第五届云计算大会第二天的演讲上,中国电子学会云计算专家委员会候任主任委员、中国科学院院士怀进鹏发表了名为《大数据及大数据的科学与技术问题》的主题演讲,怀进鹏首先指出了IT发展理念——多快好省。


  
  第三种就是从因果到关联关系。刚才讲到的谷歌公司发现的流感,他们可能不知起所以然,但他们把这种趋势和可能的相关性建立起来。就像一个名医一样,如果看到药典来配方支持病人的解决方案的话,是一种方式。但很多是基于他的经验,未必完全知道为什么同样的症状对他要配这样的药。
  
  在这些背景下,大数据处理的思维模式可能发生变化,是否也会引导我们研究的变化?如何处理大数据,就变成一个重要的问题。因此,从上面的讨论,我个人觉得外显的大数据的4V特征可能要进行计算模式的变化,究竟会有什么影响?
  
  我觉得就是所谓的近似性,从4V到3I,以数据的计算来看。近似性就是传统的精确处理不再适用,允许在解的一定范围区间内追求近似解。就是我前面提到的,当你买一双鞋的时候,不会跑遍北京所有的鞋店,而是根据你对一定目标的理解和趋势的判断。
  
  增量性。数据是源源不断的动态的变化,传统是有一个封闭的假设,所有数据都齐全了再计算。因此,在大数据动态变化特征当中需要有增量计算。同时,李院士昨天提到,过去的计算是系统还原法,给定问题A,把A变成A1一直到AN。A1到AN的有效解决,代表A的解决。现在完全变化了,因为问题单元的数据不足,需要偏差处理。第二,处理问题的方式是要采取归纳的方式,因为多数据之间的隐含关系很重要。就像微博,这里用音频,那边用视频,还有用文字,同样的表达方式还有所不同,跨越不同的区域,甚至是完全无关的区域。因此,如何有效地归纳,也是一个重要的问题。
  
  从大数据到大数据的计算,我们把外部4V的数据表象特征理解3I的计算属性,这是我对这个问题的基本认识。
  
  大数据vs.算法
  
  为什么说研究大数据要先从计算的角度来看?因为我们都清楚计算是计算机科学的本质。我们实际上做计算机的,就是一直在解一个公式G=F(X)。F就是算法或者软件程序,X就是输入和数据,G就是一个程序给定的输入,处理完以后相应的结果。在过去的五十年中是什么状况?一直是以算法为研究基础。七十年代单纯算法研究。到七十年代之后发现了多项时间算法,所以不是所有计算都能解决问题。到八十年代又发现了随机算法,因为能加速。到九十年代所谓的近似算法,因为找不到最优解。
  
  过去有十多个人对这些内容的研究获得了图灵奖,但都是对算法的研究。过去是假设X不重要,主要研究F。现在X发生极具变化,是否会影响F和整个F(X),对软件和算法会不会有新的变化?过去研究的问题,计算机能处理的都是可判定问题,也是可判定当中的易解性问题。但是,现在的情况,大数据下,我举一个小的例子,读取硬盘世界上最快的线性扫描一个TB要1.9天,一个EB要5年多。从这里来看,百度一天处理的网页数据有10PB,就相当于要有小于3天的时间才能把它输入进来,都不用说后面的处理和应用。所以是不可能的。

本文地址:http://www.jifang360.com/news/201368/n830048913.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
更多
推荐图片