机房360首页
当前位置:首页 » 业界动态 » 中科院程学旗:大数据时代我们所面临的机遇与挑战

中科院程学旗:大数据时代我们所面临的机遇与挑战

来源:机房360 作者:三水编辑 更新时间:2012-12-5 12:50:31

摘要:Hadoop与大数据技术大会(Hadoop&BigData Technology Conference 2012,HBTC 2012)于2012年11月30日-12月1日在北京新云南皇冠假日酒店隆重召开。大会期间中科院计算所的所长、大会共同主席孙凝晖;大会指导委员会委员,中科院计算所副总工程师程学旗以及大数据专家委委员,大会程序委员会共同主席查礼针对大数据技术接受媒体采访。

  大数据时代来临

  数据是由来已久的,数据分析也不是比较新的话题。从原来的数据分析,已经逐步发展到现在的分布式为主的数据分析、数据挖掘,孙凝晖主席认为,计算如果没有数据就谈不上是计算机的计算。以前的数据处理主要还是集中在商业数据,是放在数据库里的商业数据的处理和对商业数据的分析挖掘。一般有TBCC和TBCD形式。TBCC就是对商业数据的检索,我们去银行存钱,查一下还有多少钱,就是商业数据的检索。TBCD就是分析,也就是数据仓库。在今天来说,全国人民每一个人都有账号,每年存钱、取钱,从中可以看出商业数据有多么大的量。

  主要还是因为互联网和数据获取工具的发展,使数据的数量有非常大的质变。大家非常清楚,互联网是一个建立在庞大的数据上的产业。搜索就不用说了,社交网络、照片、视频等等,它的数据量与早年的数据库相比的话,它是很大的提升。除了互联网产业以外,现在无论是在天文、生物,还是在高能物理领域的研究,因为数据库工具的发展,数据量大大提升,举个例子,有数千个望远镜组成的望远镜阵列,可能是在一公里以内布置。以前我们的口径是40米,现在是在一平方公里的范围内布置,它获取的宇宙数据量很大。生物大家也知道,分基因组、蛋白质组,要应用基因测试仪和蛋白分析仪。高能物理,最近欧洲做的实验,它的数据跟过去相比已经提高很多。你提到的第一个问题,数据量已经成千上百倍的增长,已经超过过去一个数据库的处理能力。

  学术界的基本定义,什么叫数据?就是一个数据库搞定的就叫数据。一个数据库搞不定的就是大数据。有的说法叫IBM、ORACLE、IOE,IOE搞不定的就是大数据,IOE可以搞定的就是数据处理。为什么说Hadoop和数据库大会,而不是oracle大会,而是因为Hadoop才能搞定。

  第二个区别,过去的数据是人非常规则有序地获取数据。你去银行取款,是你的账号、什么时间、取多少钱,数据放在那里是有序的,不会把你的数据放在我的账号下,是组织良好的数据体,关系也是事先设定的。你的账号记录就是跟你的其他记录放在一起,非常有规律、顺序良好、关系明确的数据。所以处理数据、分析数据的时候,方法也简单。你到银行去查今年的记录,存多少钱、取多少钱,一累加。操作也非常简单,一个记录和另一个记录的合并,都是这样的一种操作,不会产生新的数据。

  大数据用学术的术语来说它是巨大的稀疏空间,有点像宇宙。宇宙里的星体虽然很大,但星体之间的空隙更大。在大数据时代,数据之间是非常稀疏的,它的关系也是不知道的。互联网上博主与博主的关系,没有人事先放好,我们大家喜欢玩游戏,之间都组织得很好,他是他的朋友,他和他认识,这都是没有很好地组织的。这个处理就需要新的技术、新的软件、新的方法找到这个关系,找到这个稀疏的数据空间中用户感兴趣的数据。就像数据勘探,需要把大数据变成小数据、把大数据变成有价值的数据。就像找石油一样,可以把大数据想象成一个地球,我哪知道石油在哪儿?你往哪儿打眼,打眼的经济成本是很高的,不能乱打眼。你找四个大数据分析一下,耗了很多人力、费了很多电,最后没找到数据。大数据的数据量是数个数量级的提升,数量的价值是稀疏的,需要不同的人去勘探,才能把那一点点有价值的石油或者是贵金属找到。你看到的对象是整个地球。

  对于数据的理解程学旗认为,数据是客观存在,数据可能是产品。我们理解以后不是买一台机器,而可能是买一个数据产品。未来可能会有一种新的数据产品、数据衍生品、数据探矿、数据制药、数据加工等等一系列产品,数据是围着设备发展的产品形态。

  对于大数据,程学旗表示:“孙所长讲的那些,现在外面对大数据的定义非常多,到维基上去查一下,归纳有很多。大家从各自的角度讲的都有道理。我觉得再去讲一个新的定义,也抓不住太多的眼球。孙总刚才讲了,大数据的规模大,但规模大是不是就是大数据?第二个问题是讲大数据的密度稀疏,但它的价值大。很多东西有了大数据都可以做。大家也知道,就是数据可以制造了,这些数据都在大数据的基础之上。这些数据有相当与资源,没有资源就没办法做。但由于能源和资源非常稀疏,这给数据的挖掘带来很大的挑战。”

  Hadoop技术应用现状

  “我们现在能够看到的应用,没有所谓的Hadoop,也可以做。现在发展报告里面是四个应用,医疗健康、金融、城市管理等等。还有一些预案,很多应用都是跟大数据有关系的。传统的也在做,但不见得做得那么好。原来银行买一台IBM的机器就是四五百万,而且性能非常差。现在银行的服务模式越来越多样,数据规模也越来越大,传统的是以IBM的机器加上ORACLE去做。如果用新的架构进行扩展,当然不是说Hadoop技术是唯一可以解决的,这只是一种发展趋势。一个是可扩展。为什么要可扩展呢?其实大数据还有一个特点就是变化快,需求变化快、规模变化快、关系变化快,一定要求它可扩展。Hadoop体系是非常有特色的。当然,还有低成本。还有就是柔性化,不能用导弹去打蚊子,抓蚊子的就是抓蚊子的,有这样的架构就比较灵活。早期很多用传统IT架构可以操作的,随着大数据时代的到来,很多都需要用Hadoop”,程学旗讲到。

  孙凝晖同样发表了他对于Hadoop技术应用的看法,“据我所知,数据处理有数据库和Hadoop这种的网络数据库,还有一般的专业文件系统。数据库大家知道有一定的应用范围,学术界认为Hadoop就是非结构化的互联网数据载体。至于你说的理论物理、生物、天文、地学这样一些科学数据,目前还是有一些专用的系统,它的特点不是像互联网数据那么非结构化。因为做一项实验耗费的人力、资源和资金非常大,会产生什么数据,事先都是已知的,一般都是用专业的文件系统来做。我自己认为大数据还是处理非结构化的互联网数据的方法。”

  大数据一类是来源于物理世界,一类是来源于跟人类活动相关的。比如欧洲研究对撞机,实际是探测物理世界。包括我们的深海研究,也是大数据。这种大数据相对来讲是观测的尺度越来越细,看的东西范围越来越广,是规模的问题,相对来说比较好结构化,用一些传统的技术就可以进行优化。

  还有一些大数据,最典型的就是社交网络、互联网搜索,包括我们的移动和智能终端上产生的轨迹。它的特点是关联模式很强,很难结构化。那个天体就在那儿,研究精度更细了。人类活动的变化是有新的东西,还有老的东西的概念变化。对这种所谓的以Hadoop为体系的大数据是比较适合人类活动的。

本文地址:http://www.jifang360.com/news/2012125/n066242846.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
更多
推荐图片