机房360首页
当前位置:首页 » 分析 » 腾讯赵伟:HIVE在腾讯分布式数据仓库实践

腾讯赵伟:HIVE在腾讯分布式数据仓库实践

来源:机房360 作者:yayo编辑 更新时间:2012-12-2 17:24:43

摘要:在12月1日“Hadoop生态系统”主题分论坛,腾讯高级工程师赵伟首先介绍了他们的TDW核心架构,HIVE,MapReduce,HDFS及PostgreSQL构成。赵伟分享了最核心的HIVE模块在TDW中的实践经验;HIVE是一个在Hadoop上构建数据仓库的软件,它支持通过类SQL的HQL语言对结构化数据进行操作

  中国IT界技术盛会——Hadoop与大数据技术大会(Hadoop&BigData Technology Conference 2012,HBTC 2012)于2012年11月30日-12月1日在北京新云南皇冠假日酒店隆重召开。本次大会以“大数据共享与开放技术”为主题,聚焦于Hadoop与大 数据,力邀数十位国内外Hadoop及大数据技术应用的产学界人士和实践企业,探讨大数据技术生态系统的现状和发展趋势,并围绕Hadoop与大数据热点 技术和应用实践进行深入解析。

  赵伟2009年加入腾讯,任职于数据平台部。一直从事海量数据处理平台研发工作,精通Hive、Hadoop、PostgreSQL等技术。今天他演讲的主题是腾讯分布式数据仓库介绍, HIVE在TDW中的实践和TDW HIVE接下来的工作。

  腾讯高级工程师赵伟

  腾讯分布式数据仓库,简称TDW,基于Hadoop、HIVE、PostgreSQL进行的大量定制和优化。TDW是腾讯最大的分布式系统,是腾讯公司级数据仓库;集中了各个业务中的有价值的数据。为腾讯内部提供离线的海量数据处理和分析的服务。包括数据挖掘、产品报表和经营分析。

  这是TDW的特性。得益于底层的Hadoop,TDW是在存储和计算方面都具有容灾备份功能及线性扩展性。支持基本的SQL语言,除了SQL语言还支持一些高级的DB特性,比如说窗口函数、数据挖掘的函数,也支持过程语言、多维分析功能,这个是像Oracle这样的商业数据库所具备的。TDW也允许跑Map Reduce,我们有文本和结构化,也支持列存储,也支持ProtoBuf的数据解析,放在其他的DB里面我们可以在TDW里面提取。

  TDW提供两种开发工具,一个是集成开发工具TDWIDE,还有一个类似于客户端的工具。TDW还有一个任务调度系统,用户可以在上面用拖拽的方式来配置工作流之间的依赖。TDW也有自己的系统DB,类似于MySQL和Oracle元数据的DB。用户可以通过TDW的SQL访问数据,也可以把元数据和常规TDW中的表进行关联或者是互操作。TDW也支持一些其他的,比如说showprocesslist、select的表达式,这也是对用户高效使用特性的提高;还有insert values,实际上它是不支持单行数据的插入,TDW是支持单行的。还有show create table,还有表格的注释等等。蓝色的部分是Hadoop和HIVE提供给TDW的特性,其余的都是腾讯团队通过研发来实现的。

  这个是TDW的核心架构。其实TDW全部的架构还包括周边的调度系统和数据流转系统。上图只是最核心的部分,由四个大块组构成。首先是HIVE,它作为腾讯的查询引擎作用是将SQL翻译成MR或者是PGSQL。其次是HDFS和Map Reduce:HDFS主要是分布式存储的功能,而Map Reduce是并行计算。最后,PostgreSQL提供小数据的存储计算的功能。用户提交了数据行以后,HIVE会判断如果是TDW中一个普通的表则会进行Map Reduce的计算把结果返回给用户。如果他发现这张表是DB存储引擎的表会把SQL翻译成PG的SQL。Postgre在这儿主要是作为腾讯的一个配置,作为一个结果表和配置表的存储的地方。因为这些表是需要经常update、delete。另外它需要跟外部进行整合,Postgre也提供了其他语言标准的接口。这是TDW主要的核心架构。

  TDW的运营现状,在腾讯TDW机器的设备总量超过了5000台,最大的单集群的节点是超过了2000个节点。TDW覆盖了腾讯内部90%以上的产品。集成开发环境的活跃用户每天有200个以上。每天在系统上提交的分析SQL数量超过5万。这5万条SQL翻译成的Map Reduce Job大概有10万以上。TDW在最近半年服务的可用度是达到了99.99%。每个月服务不可用的时间少于5分钟。

  责任编辑:yayo

本文地址:http://www.jifang360.com/news/2012122/n881642730.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
更多
推荐图片