机房360首页
当前位置:首页 » 大数据 » 关于大数据存储问题 你可以换个角度思考

关于大数据存储问题 你可以换个角度思考

来源:机房360 作者:yuxin编辑 更新时间:2013/9/25 17:19:18

摘要:大数据涉及到两个不同的技术领域:一是致力于研发可以扩展至PB甚至EB级别的大数据存储平台;另一个则是大数据分析,关注在最短时间内处理大量不同类型的数据集。


  
  数据备份
  
  信息作为现代企业的核心资产,一旦发生数据损坏或丢失,小则带来不同程度的经济损失,大则关系企业生存。因此,现在企业对重要数据备份都不得不高度重视。在大数据之前,企业需要备份的数据量通常在GB级-数十TB级之间,上百TB的数据量的企业非常之少。从备份技术角度看,全备份/增量备份/差异备份的备份窗口会很大,CDP的并发I/O捕获和处理能力要超强,否则大量数据都来不及备份。从备份数据量看,备份所需要的存储空间至少生产数据量的一倍以上,这个成本是巨大的。还有重点的一点是,大数据通常都是分布式采集、存储和处理的,实现统一的数据备份对备份系统是个技术挑战。或许,大数据天然不合适采用备份技术,而需要由存储系统本身的机制来解决。
  
  长期存储
  
  信息有生命周期,金融/商业/财务/通信/法律等很多数据都需要遵从法规保存相应年限,一些重要的科学实验数据和历史资料甚至要永久保存。大数据作为现代企业有重要价的资产,长期保存基本都是必要的,比如10-20年甚至永久。长期存储,看似很简单的事情,实际上有很多问题需要解决。几百个TB或者PB级的大数据,假设是非活动的历史数据,采用什么介质进行存储?磁盘,磁带,还是光盘?采用离线还是近线方式?如何监控巨大数量存储硬件设备的状态?采用什么方法来保证海量数据的完整性?如何发现长期存储中的问题并修复?需要的时候如何简便快速地查询和获取数据?另外,还需要考虑存储所占用空间和能耗问题。面对这些问题,我们就会发现大数据长期存储也是一个很大的挑战,一方面需要提高存储介质的持久性、智能性、可靠性等,另一方面需要信息生命周期管理系统进行完善的管理和监控。
  
  数据查询
  
  数据访问是存储系统最基本的功能之一。传统的数据访问方式,都是根据文件名来定位和访问数据。文件名标识具有一定的表意性,但非常不足,很难通过文件名对数据本身的内容和特征进行理解。这种查询访问语义非常差,需要用户给出准确的文件名,否则就无法进行定位和访问。随着文件数量的不断增加,它将给用户对数据的访问带来很大的困难。现实世界中,人们主要根据事物的特征记忆和区分不同的事物,而非简单的名字。在实际应用中,如果能够提供基于文件属性和内容的数据访问方式,丰富的语义将会极大地增加数据的表意性,从而大大方便用户的使用,提高数据访问效率。
  
  Internet中,用户在Web搜索引擎中输入内容关键字就可以查询到自己想要的数据。数据库系统中,使用SQL语言查询记录,可以指定相关条件对查询记录进行筛选。由此可见,与传统的数据访问方式相比,基于数据内容和属性的数据访问方式具有很强的语义,能有效提高数据定位和访问效率,可以很大程度上降低用户的使用复杂性,适合于各种数据存储系统,尤其是分布式存储系统。目前,自然语言处理和WEB语义网络都有了长足的发展,大数据管理中如何能实现基于语义的数据访问方式,不仅可以提高了查询效率,而且符合人们的思维模式,能够提供更加友好的数据访问界面。
  
  责任编辑:余芯

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/2013925/n380252873.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
转载声明:凡注明来源的文章其内容和图片均为网上转载,非商业用途,如有侵权请告知,会删除。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片