机房360首页
当前位置:首页 » 分析 » HPC在海量数据处理应用中的新机遇与挑战

HPC在海量数据处理应用中的新机遇与挑战

来源:机房360 作者:yuxin编辑 更新时间:2013-5-16 13:46:49

摘要:第六届CCS云计算高峰论坛于5月15日在北京国家会议中心盛大举行,与期同时举行的还有CENCE中国企业网络通信大会,作为一年一届的云计算盛会,CCS云计算高峰论坛今年已经是第六届,本届主题讲主要面向私有云,公有云,同时为期两天的会议还有很多专场,包括大数据专场,应用与服务专场等。中石油东方地球物理公司数据处理中心总工程师赖能和,在现场做了发言。

  第六届CCS云计算高峰论坛于5月15日在北京国家会议中心盛大举行,与期同时举行的还有CENCE中国企业网络通信大会,作为一年一届的云计算盛会,CCS云计算高峰论坛今年已经是第六届,本届主题讲主要面向私有云,公有云,同时为期两天的会议还有很多专场,包括大数据专场,应用与服务专场等。
  
  中石油东方地球物理公司数据处理中心总工程师赖能和,在现场做了发言,以下为全文实录:
  
  针对大数据我们怎么办,我们是怎么做的,跟大家分享一下。我来自中石油,中石油下属找石油,我们是找石油,不是钻石油,所以我们的任务是采集数据,处理数据、解释数据,我们国内外合作了很多国家,另外有大量的数据中心,能源有很多26000人,我的CPU是高端CPU,目前在8万个CPU,也有很多的存储。了解背景以后,我们是找石油、采集数据、处理数据和解释数据。
  
  今天跟大家交流的是海量数据,针对海量数据我们的HPC高性能技术存在哪些问题,目前的架构存在哪些问题,我们怎么采取措施。所以我的内容分四方面,大概了解HPC在石油能源行业中的应用现状。简单回顾高性能计算机在过去十年计算机发展的特点和趋势,用三句话概括,第一个就是小鱼吃掉大鱼。第二个就是现在集群的计算机已经占到了全球80%的机型,这是过去12年的统计。第三个是在过去十几年计算机发展的步伐更快,更新的周期非常短。在过去九十年代和21世纪初期,大概是五年更新十倍,到了这两年我们达到了两年就更新了十倍,也就是从93年到现在,我们超算能力已经超过了10万倍。
  
  一、高性能计算机在石油行业中的应用有那些现状?
  
  第一,在全球高性能计算机3%-8%的比例,但TOP500不完全准确,很多企业没有参与,参与的是分开计算,不是单影像计算,所以一个侧面计算是10%左右还是比较稳定。国外超级的石油计算机公司能力是非常强大的,现在达到16个P的运算,法国的也达到了6000,我们大概是在1.6个P,我们国家在这方面也有很大的差距,也说明我们有很大的空间。国内三大有公司CPU核的应用现状,中石油占60%左右,说明我们和国外有差距,市场很大、空间很大。
  
  二、油器行业高性能应用的新机遇与挑战。
  
  大家都在讲大数据,大数据有什么用,大数据怎么生成,对我们的设备大数据有什么用?我们的大数据可以找到更多的石油,我们采集数据,采集点密了以后找地下更准更清楚,这是过去的采集方法,采集点清楚加密以后地下构造很清楚,这就跟做人脑CT一样的道理。
  
  这样造成数据非常大,这是海上勘察,成本非常高,两公里放一炮、五公里放一炮,这样采集数据的精确性差一点,我们加密以后成本高了,更精确了。大数据是有用的,这会造成什么后果,数据快速的增长,我们计算机资源会增加多少,大家都这样说,我们现在这是一张表,我们现在的技术水平达到这张纸上,计算能力超过上千倍,往前走一步大概有20倍左右的计算量,从算法上要增长,对资料的要求程度上往前走一步也是非常难,十年能走一步就相当的不错。从左到右逐步放大增加,所以我们超大计算机当年用的都是石油上。当年的大型机、向量机,超级计算机,包括分布式网络计算机使用都是排在前几名。WEM和RTM计算量差15倍,左边的不清楚,右边的非常清楚。
  
  国内外尤其行业的要求也是非常高,套数不多,单机的运算能力长的非常快,计算机资源的增长非常快,有多大的计算量,比如说东部资料,有4000个CPU做,做一步花60天时间。我们的海洋资料就更多了,我们有2700个平方,2700平方有多大的面积,数据量多大,数据量都是几十个T,我有8000个CPU去做,做某一步要花30天的时间。54T数据做一步做成什么样,用4000个CPU做500天左右。
  
  海量数据存储需求增长非常快。80年代按照一的比例因素,现在增长了1万倍,80平方的采集,刚才说的是3000平方,上增长20倍,陆上增长200多倍。国外大数据大到什么时候,单个文件超过200个T,数据怎么做到机器里边,这是很大的挑战。数据怎么产生,这几年变化非常大,过去都是比较笨的方法,开一辆车使劲振动,有很多的接收点,地下反射过来,以前是一台机器振,现在不是,现在是多台机器同时振,这样数据量非常大,效率非常高。7个T的数据当天要处理完,数据增长非常快。这个数据83个T文件,156亿个记录,这么多的记录要处理看一遍不容易。数据的增长,每年的数据增长前几年是3000T左右,现在都是十几个T的增长。

本文地址:http://www.jifang360.com/news/2013516/n797547962.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
更多
推荐图片