机房360首页
当前位置:首页 » 技术前沿 » 行业厂商推出管理Hadoop集群新的可视化工具

行业厂商推出管理Hadoop集群新的可视化工具

来源:机房360 作者:Harris编译 更新时间:2016-4-28 7:09:35

摘要:Hadoop生态系统组成部分的广度是其优势之一,但这也是一个弱点:行业开发商可以找到一个流媒体框架,适合几乎任何大数据用柱状数据存储或其他类型的架构模块,而如何将这些碎片组合在一起,对于应用程序来说是具有挑战性的。

     Hadoop生态系统组成部分的广度是其优势之一,但这也是一个弱点:行业开发商可以找到一个流媒体框架,适合几乎任何大数据用柱状数据存储或其他类型的架构模块,而如何将这些碎片组合在一起,对于应用程序来说是具有挑战性的。
  
  用于管理Hadoop大数据系统的新工具以不同的方式寻求解决这一问题。其中包括来自BlueData软件的Hadoop部署自动化工具,来自LinkedIn公司的开放源代码软件,以及Hortonworks的ApacheAmbari诊断增强工具,这些软件和工具可以获得更好的可视化操作,并帮助Hadoop集群健康发展。
  
  当Hadoop的系统投入生产使用,可以得到更好的管理工具的需求是最迫切的。这通常意味着一次性的Hadoop工作转移到集中集群运行与其他部门一起工作,通常将各种各样的Hadoop组件放在一个单一的系统。设置不同的配置,并在处理作业中分配优先级,而这个工作是艰巨的。
  
  BlueData公司发言人表示,启动BlueData正在寻求应对EPIC软件平台的挑战,简称弹性私人即时集群。该软件支持ApacheSpark处理引擎,以及来自Cloudera和Hortonworks的Hadoop分布。此外,BlueData平台使用Docker容器技术,其封装的应用及其配套软件作为一个独立的单元,对Hadoop的部署提供多租户的方式。
  
  BlueData的诞生
  
  BlueData继续关注用户的痛点,今年3月为多租户部署推出了一个支持Hadoop的工作的基于服务质量优先级分配政策,并提高了处理和增加配额的执法能力。
  
  “Hadoop的配置是一种痛苦,我必须为陪审团提供一个陪审员。”佐治亚大学计算机科学助理教授奎因说。奎因和参与自己的研究项目的一部分学生需要创建Hadoop环境。作为首席研究员,他的工作涉及使用Hadoop来支持计算机视觉和模式识别,可以整合各种数据类型,包括推特(Twitter)数据的大规模研究。
  
  奎因使用BlueData的EPIC平台证明了一个概念项目,取得了一部分的良好效果的。“现在我们可以细分出就业机会,他们都有自己的虚拟池,在这里我们可以设置优先级。”他说。
  
  他认为使用容器的一个好处是,他们提供了一个更轻的软件堆栈。奎因能够与BlueData的工具运行自己的自定义容器。虽然这种工作仍然需要精通技术,他说,他看到BlueData工作可以缓解开发技能的要求。
  
  对于奎因来说,从POC到生产要解决成本的问题。他判断BlueData的经济学有利于在亚马逊网络服务(AWS)云建立,但表示,他仍然需要吸引其他研究人员分担投产的成本。(EPICBlueData企业的定价为每个物理核心处理器的成本为500美元,但有批量折扣。)
  
  亚马逊公司的Hadoop的平台在延时系统与运行弹性MapReduce方面,可以其弹性计算云相媲美。奎因说,“在一般情况下,与AWS平台相比,其速度比AWS更快。”
  
  采用Hadoop与以往的技术相比,从开发到经营管理的飞跃是痛苦的。一个问题是调整工作,确保他们不互相争夺Hadoop集群资源。
  
  LinkedIn公司的数据科学家和工程师经常会发现自己辛辛苦苦跟踪性能问题时,他们的工作已经写入开始在生产中定期运行,LinkedIn公司的Hadoop开发团队的技术主管,资深软件工程师卡尔•施泰因巴赫表示,让工作有效运行是一项艰巨的任务,因为Hadoop的许多组件,认为ApachePig,HBase,Spark,MapReduce等许多组件可以结合起来,对这些一大堆的虚拟表盘和旋钮,需要正确设置。
  
  “Hadoop是强大的,但是从用户的角度来看它是混乱的。”施泰因巴赫说。“如果你喜欢按钮,它会给你想要的更多的按钮。”
  
  一段时间以来,LinkedIn公司已经分析了Hadoop的处理流程,并建议他们的开发人员如何改进。而随着Hadoop在更多的应用中运行,这变得更加困难。因此,LinkedIn公司已经创建了自动化的工艺性能监控和调节工具。作为对Hadoop的吉祥物,其监控软件被称为大象博士。
  
  一个Hadoop集群的视图
  
  对Hadoop的部署最佳做法进行“训练”,通过大象博士观察处理活动,并在数据中心就如何调整自己的Hadoop工作,这需要数据科学家和其他人的意见。
  
  “它的工作方式非常接近类比医学。”施泰因巴赫说,“如果你去做检查,发现你的血压很高,医生就会告诉你需要减少盐分,并坚持吃药。
  
  大象博士具备同样的功能,他说,工作在集群上运行,创建日志和指标。该软件从Hadoop集群的YARN资源管理器检索这些数据并运行,它决定了工作的执行。Hadoop作业所有者可以通过一个可视化仪表板看到由此产生的可用信息。
  
  施泰因巴赫表示,LinkedIn公司日前推出了Apache2.0版本许可证的开源项目,并提供了大象博士代码。预计在未来的版本中,将更好地整合Spark和资源使用的可视化,以及对算法的更新。
  
  Hadoop的可视化管理指标
  
  新的仪表盘和可视化数据也被添加到Ambari,这是Hortonworks公司开发的一个开源的Hadoop管理工具。而推出的Ambari2.2.2版本将包括预建的仪表盘,可以让Hadoop的系统管理员对使用的跨集群资源和集群整体健康指标实现可视化。
  
  Hortonworks公司产品和联盟营销副总裁马修•摩根表示,通过仪表板提供的信息可以显著扩大监测能力,以及通过Ambari管理大型集群的能力。
  
  Hortonworks也正在整合分别提供了数据管理和安全管理能力的Atlas和Ranger的开源技术,。该联动目前作为技术预览,让通过应用Atlas元数据标签的IT团队对数据进行分类,然后用Ranger执行基于标签的数据访问策略。
  
  Hortonworks,LinkedIn和BlueData并不孤单,而通过技术人员的努力将为大数据管理员带来更清晰的Hadoop集群视图。Hortonworks公司的竞争对手Cloudera已经推出了ClouderaManager的更新版本,旨在更加深入地了解Hadoop的工作负荷活动,并启动Pepperdata创造了一个支持自动调整工作负载的Hadoop集群管理器。
  
  编辑:Harris
  

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/2016428/n248181253.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片