机房360首页
当前位置:首页 » 云应用 » 中科院何清:数据挖掘迈入云端?

中科院何清:数据挖掘迈入云端?

来源:机房360 作者:Alice编辑 更新时间:2011-7-21 14:17:12

摘要:当今世界处于一个数据爆炸时代,如何有效地从海量数据中找到有用、可理解的知识正考验人类智慧,是当前IT行业的热门话题。人类社会信息正以“每18个月产生的数量等于过去几千年的总和”的速度不断增加,如此浩瀚的数据在带给人们大量信息的同时,也极大地增加了人们从海量数据中发现有用知识的难度,而解决这一问题的努力促进了云计算和数据挖掘技术的结合和快速发展。

  按照中国电子学会云计算专家委员会的技术白皮书阐述,云计算是一种基于互联网的、大众参与的计算模式,其计算资源(计算能力、存储能力、交互能力)是动态、可伸缩、且被虚拟化的,而且以服务的方式提供。
  
  云计算给软件带来的变革主要表现在Saas(软件即服务)。软件的单机安装将逐渐被云计算平台部署所代替,用户只需通过网络浏览器便可享受快速高质的云服务,中小企业既可以在公共云计算平台上使用云服务软件,也可以在硬件开支不大的情况下部署自己的云计算平台,从而实现高性能、低成本的计算。随着云计算的发展,很多公共需求的服务将会日益满足大众需求,普惠各个行业。
  
  数据挖掘远比信息搜索要复杂。过去对海量数据的处理主要是通过高性能机或者更大规模的计算设备来实现,现在通过基于云计算的数据挖掘能更好地达到目的。采用云计算模式有许多好处,成本低廉、容错性强、计算速度快、程序开发便捷、节点的增加更容易。可以说云计算是数据挖掘中普遍适用较为理想的计算模式,也是我们从海量数据中找到有用、可理解的知识的技术手段。
  
  透视数据挖掘技术发展过程
  
  数据挖掘(Data Mining),又称为数据库中的知识发现,就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程。目前,数据挖掘技术已在金融、医疗、军事、管理等诸多领域的决策分析中被广泛应用。
  
  数据挖掘技术的发展经历了五个阶段:第一代是单独算法、单个系统、单个机器,采用的是向量数据。第二代是与数据库相结合,支持多个算法。第三代是与预测模型相集成,支持Web数据、半结构化的数据,是一种网络化计算。第四代是分布式数据挖掘,是基于网格计算的多种算法,分布在多个节点上的方式。第五代是现在基于云计算的并行数据挖掘与服务的模式,同一个算法可以分布在多个节点上,多个算法之间是并行的,多个节点的计算资源实行按需分配,而且分布式计算模型采用云计算模式,数据用DFS或者HBASE,编程模式采用了Map/reduce这种方式。
  
  Chuetal在NIPS2006上发表了一篇文章,他们采用Map/reduce编程完成了很多机器学习方法,这是一项有非常重要意义的工作,不过他们的运算环境是基于多核系统。目前,基于Hadoop的数据挖掘开源项目有Mahout,这个项目致力于数据挖掘并行化,是以云计算方式来做数据挖掘的开源项目。
  
  通过云计算的海量数据存储和分布计算,为云计算环境下的海量数据挖掘提供了新方法和手段,有效解决了海量数据挖掘的分布存储和高效计算问题。开展基于云计算的数据挖掘方法的研究,可以为更多、更复杂的海量数据挖掘提供新的理论与支撑工具。而作为传统数据挖掘向云计算的延伸将推动互联网技术成果服务于大众,是促进信息资源的深度分享和可持续利用的新方法、新途径。
  
  研发进展及应用
  
  何清表示,在中国,基于云计算的数据挖掘工作开始于中国移动的“大云”云计算平台建设。2008年底中国科学院计算技术研究所与中国移动合作开发完成了基于云计算的数据挖掘软件PDMiner,软件集成了多种算法,可有效解决多种云计算问题。该系统包含ETL组件和数据挖掘组件,ETL算法具有线性加速比,挖掘效率随节点增加而增加,多个任务工作流之间互不干扰,不同节点间可同时启动,可以处理失败的节点,具有容错能力,架构具有开放性,算法可方便地配置加载到平台上,达到了商用软件精度,成为中国移动数据挖掘分析支撑工具。中国移动黄晓庆院长2009年云计算大会上对该系统的评论是:“用1/6的成本实现了6倍的性能。”
  
  关于面向Web的研究,近期中国科学院计算技术研究所开发了数据挖掘云服务平台COMS。COMS系统有四部分——数据管理、任务管理、用户管理和系统帮助模块,提供基于云计算的并行数据挖掘云服务模式。系统可以把任务的输入输出参数设定好,配置平台的数据,按照工作流的方式可再添加另外任务。在执行任务过程当中,对Map/reduce的进程是可视的,这就是一种数据挖掘云服务。

本文地址:http://www.jifang360.com/news/2011721/n585225438.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
更多
推荐图片