机房360首页
当前位置:首页 » 大数据 » 实时大数据分析:网络分析的一种新方法

实时大数据分析:网络分析的一种新方法

来源:机房360 作者:litao984lt编译 更新时间:2014/5/9 8:56:06

摘要:在大数据讨论领域出现了一个新的课题:实时大数据分析(RTBDA)。RTBDA是大数据分析的一个关键要素和增值命题,特别是在掌握了海量信息的基础上,采取积极主动的措施进一步实时检查数据信息所累积的有价值的洞察。这一战略已成为许多互联网/通信行业的OTT(Over The Top)公司的基石。OTT公司继续在网络上持续产生海量的流量,而这些数据流量并不能对企业的营收增长带来多少贡献,已然成为网络电信运营商的一大困扰。

  RTBDA还尚需要一定的磨练,特别是在电信网络环境中。幸运的是,发展该战略所需要的技术已经具备;但仍有改进的余地。

  RTBDA概述

  当被分解到其最简单的形式时,大数据分析包括两部分,以便将自身与数据仓库和商业智能进行区分:

  实时行动

  分布式,并行处理

  大数据分析能够解决处理大量无关且不能存放在一个单一的服务器或数据库的数据集所带来的普遍的挑战问题。而这个问题可以通过使用分布式并行处理分布在多个服务器的大型数据集得以解决;每台服务器处理并行数据的一部分。大数据分析可以与结构化和非结构化数据工作,因为它并不需要一个特定的结构。这种做法的一个例子将使用Hadoop的MapReduce,其也可以看作是大数据对今天的深远影响。

  尽管目前有方法来处理大量的数据,大数据处理缩小以便能够在指定的时间内完成。现在,时限这一概念比以往任何时候都越来越都多的与“实时”相关。

  尽管RTBDA仍然是一个相对较新的概念,但其解决了实时主动或被动的采取措施的需求。而这是基于互联网内容和服务提供商们了解到了正在发生的事情,检查情况并实时采取行动。

  理解“实时”电信

  在实时大数据分析:新兴架构大会上,迈克巴洛问道,“所谓的实时到底有多'实时'?”“这取决于你的目标,问题的答案会有动态的变化。在某些情况下,秒或毫秒就足够了,而在另一些情况下,实时需要更快。

  这个问题是从电信方面很有趣。它揭示了当前的电信运营商们如果想要成功的解决OTT公司所带来的流量挑战所必须面临的一个潜在的弱点。这样的话,目前在电信行业所能够接受的“实时”的标准就显得不再足够了。

  此前,电信网络使用面向连接的技术。程序只能进行集中在一个高度结构化的进程,前一分钟的网络与后一分钟并没有多大的修改,甚至时间跨度一小时也不会有太大改变。在这些情况下,在一致的时间间隔从网络上收集信息就知道发生了什么。该协议的管理信息丰富,能够从一个协议聚集大量的洞察力。在这种情况下,“实时”可以在几秒钟之内甚至几分钟内定义,这就是为什么他们通过每5到15分钟收集呼叫详细记录(CDR)就能充分获得完全的洞察力的原因了。

  同样的情形在今天已经不再可能。向LTE的过渡使电信运营商完成过渡到基于以太网和IP的数据包网络,其功能与面向连接的技术和协议是完全不同的。

  IP网络的一个基本原则是:网络是自给自足的。网络提供了流量传输的通道,并依据流量拥堵和其他情况进行网络路径重定向。这个特点使网络能够迅速就相关的改变做出回应。缺点是无法确切地预测流量。这种情况又因以太网和IP协议变得复杂,缺乏面向连接的协议所能提供的同等水平的管理信息。

  分组传输网络(Packet networks )本质上也是动态的,因为其设计初衷是为多个用户共享相同的基础设施提供服务的。在较长的一段时间,网络的消耗看起来很低,但在现实中流量传输需求很大,可能消耗掉所有可用的带宽。在这种情况下,对IP网络应该做出反馈,确保流量是在稳定的网络上传输。最终,在网络中可能从一个IP包或以太网帧到下一个发生变化。

  电信网络管理和数据分析的中心问题是他们都依靠事件详细记录(EDRs),CDRs和IP详细记录(IPDRs)来深入了解实时发生的状况。

  在过去,“实时”这一定义每隔几分钟就已经足够了。当我们考虑到以太网帧在10 Gbps网络可以以每帧短短67纳秒的时间在之间以太网帧传输,我们就开始理解在一个分组传输网络的“实时”指的是什么了。在现如今这个快节奏的环境“实时”的概念已经不仅不是分钟,也不是秒来。今天,其是以纳秒为时间间隔了。

  实时评估

  使用CDRs,EDRs和IPDRs进行大数据分析是一个好主意,这取决于企业正在努力完成的任务。大数据分析可以以两种方式制定决策:

  实时决策

  根据趋势及预测分析加强规划,以及服务和网络的优化

  利用明细记录、以及其他结构化和非结构化数据源进行优化和规划是必要的。这些记录包括丰富的信息,帮助预测有用的趋势。除非辅以分组网络的实时信息,提供关于发生了什么的精确细节,否则这些信息将无法提供一个完整的视图。

  不幸的是,详细的记录不能用于实时决策,因为其只是每5至15分钟的时间间隔进行收集。这个时间间隔与我们对什么是真正分组网络实时的理解不兼容。其需要不断收集,存储和分析真正的实时网络信息,进行决策。要理解网络正在发生什么,必须对所有相关的以太网帧与IP数据包进行实时审查。

  通过以这种方式捕获和存储网络信息,我们不仅具备了能够分析使用实时信息的能力,同时也可以为我们提供一个了解在信息网络发生了什么事件的基础的详细可靠的方式,以补充其他大数据的活动的洞察。

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/201459/n403058526.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
转载声明:凡注明来源的文章其内容和图片均为网上转载,非商业用途,如有侵权请告知,会删除。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片