机房360首页
当前位置:首页 » 技术解构 » eBay:如何分析海量存储非结构性数据

eBay:如何分析海量存储非结构性数据

来源:eNet硅谷动力 作者:linux编辑 更新时间:2011-6-15 13:41:33

摘要:eBay开发了可同时处理结构与非结构性数据的平台Singularity,找出非结构性数据中可结构化的部分,再进行分析,解决数据存储只能分析结构性数据的这一挑战。为了解决非结构化数据不容易分析的难题,eBay将所有数据从结构到非结构分为4种,在结构化的数据中可以直接用快照备份以及数据存储去分析处理数据的关连性,半结构化的数据则由他们自行开发可同时处理结构与非结构数据的平台Singularity处理,非结构化的数据则由Hadoop的技术处理。

  eBay擅长利用数据存储进行网站行为分析,但近年来由于动态网页普及,增加了不少半结构化或非结构化的数据,也使得eBay不能完全依赖专门分析结构化数据的数据存储系统。
  
  eBay分析平台高级总监OliverRatzesberger表示,近年来在分析数据碰到最大的挑战就是半结构化与非结构化数据。他认为,现有的数据存储系统分析结构化数据的能力都很好,但是却无法同时处理结构与非结构化的数据。于是,他们决定先建立一个能够同时处理结构与非结构性数据的平台,再放进数据存储中进行关连性分析。
  
  eBay分析平台高级总监OliverRatzesberger表示,今年将把Hadoop的技术整合进Teradata的数据存储系统中,协助分析海量数据。
  
  eBay拥有全世界最大的数据存储系统,对eBay来说,必须靠着不断分析买家在网站上的浏览行为,来增加买家与卖家交易的机会,让买家更快更精准的搜寻到所需要的产品等。举例来说,去年eBay曾经推出让买家可以退货的服务,只要买家在eBay上购买任何商品,一旦发现问题,eBay都可以保证让买家退货。Ratzesberger表示,这些都是透过分析买家浏览网站的行为后,所规划的服务,也确实提高了销售额。
  
  Ratzesberger表示,2002年时,eBay的数据量大约为10TB,2009年时,数据量已经到了2PB,近2年,数据量增加的更快,几乎是每年成长了2倍的数据量,现在,eBay每天就有50TB的数据量。而其中很大一部分就是源自于非结构化数据与半结构化数据的分析。
  
  就以网页点击率来说,eBay过去会先点击分类特性,像是IP地址、时间、URL、使用者所使用的浏览器等,放置在不同位置交叉分析。不过,现在网页都属动态页面,网页的画面总是不断变化,这就增加他们分析顾客购买行为改变的困难度。
  
  为了解决非结构化数据不容易分析的难题,eBay将所有数据从结构到非结构分为4种,在结构化的数据中可以直接用快照备份以及数据存储去分析处理数据的关连性,半结构化的数据则由他们自行开发可同时处理结构与非结构数据的平台Singularity处理,非结构化的数据则由Hadoop的技术处理。
  
  将半结构化的数据集中放置单一区域,再找出可对应数值
  
  eBay是在4年多前建立了Singularity的平台,可将半结构化的数据转化成为结构化的数据后,再建立分析模型,减少需要分析数据的量。以网页点击率来说,过去的位置仍保留,其他较为复杂的数据就放置在另一个位置中,在选取分析数据时,就可以特定时间,经过相对应的数值匹配,找到符合的概念与数值,再将这些数值加入模型中计算。Ratzesberger认为,只将半结构化数据中有需要的部分拉出来作分析,这种作法对分析非结构化数据是很有帮助的。
  
  2年半前,eBay在这个平台又加入了Hadoop的技术,主力在于分析非结构化的数据,可以平面文件的方式储存非结构化数据,再进行转化。Ratzesberger表示,现在这个平台可以处理结构与非结构化的数据量已达40PB,eBay还打算在今年进一步将Hadoop的技术整合进Teradata的数据存储系统中,有利于处理大量的数据。
  
  责任编辑:linux

本文地址:http://www.jifang360.com/news/2011615/n657922900.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
更多
推荐图片