机房360首页
当前位置:首页 » 大数据 » 大数据实时处理技术发展趋势及中国移动实践和展望

大数据实时处理技术发展趋势及中国移动实践和展望

来源:机房360 作者:Mary编辑 更新时间:2013/12/5 16:41:50

摘要:随着移动互联网用户流量激增,手机数据化、宽带化趋势明显,4G、M2M也大大加快了移动网络数据业务和流量增长。面对巨大流量,移动运营商面临巨大的挑战。借助云计算技术和运营商优势,发挥管道优势,促进业务创新,将大数据信息转化为商业价值是电信运营商目前的当务之急。

  2013中国大数据技术大会(Big Data Technology Conference,BDTC)上,中国移动通信有限公司研究院业务支撑研究所所长孙少陵为我们分享中国移动在大数据这方面的一些观点,以及中国移动的一些实践。

  目前IT发展最热门三个词,移动互联网、云计算和大数据。

  移动互联网目前的发展趋势

  昨天工信部正式向中国移动、中国联通、中国电信三家发布了4G的牌照,也意味着中国正式启动了4G无线宽带的时代。全球移动互联网用户数的增长非常快,比传统互联网增速高三倍。

  流量增长的情况

  移动互联网流量增长速度也非常快,到2012年底移动互联网流量占比超过整个互联网的13%。在现代手机端移动通信里面现在出现了一个2/8的分布:现在用户使用移动互联网上网的业务和传统的通信业务(打电话和发短信)这个时间比变成了8比2的关系。对于运营商来讲最主要的变化是变成了一个主要提供流量的运营商。从提供流量和从提供话音短信的价值来看这个有一个测算,也就是说移动通信网它的话音投入产出比大概是流量数据投入产出比的5到6倍,所以对移动运营商来说直接的挑战,就是用什么样方式,弥补原来在电话和短信上流失的价值。

  孙少陵觉得不管是云计算、大数据还是移动互联网,某种意义上给移动运营商都带来了机遇,如何抓住这个机遇运营商还需要做很多事情。

  4G和物联网对整个移动通信数据的增长带来了非常大的促进作用:首先,移动通信4G的带宽基本上可以达到50到100兆,不久的将来我们在任何地方使用手机,使用移动网络的感觉就跟在家里使用wifi是一样的。所以说移动通信带宽迅速放大实际上给整个流量的增长带来了很大的推动作用。

  M2M

  从某种意义上来说,通过物联网可以社会信息化触角延伸到任何一个角落。过去的通信主体更多是人,现在很多东西包括我们平时在生产过程当中使用的一些装备,包括我们监测交通、监测天气等等,都是有M2M的设备不断地采集各种各样的信息。这里也有一个预测数据,2014年物联网的终端设备跟智能终端的设备将在数量上持平,这两个趋势将为大数据带来一些变化。

  关于大数据产业与领域优势分析

  谁在提供大数据服务?谁适合进行大数据业务?我们首先想到互联网公司,实际上互联网公司就是数据公司。根据百度前两天提供的数据,它的数据量现在大概有一千个PB的规模,每天处理几十个PB,互联网公司在数据利用上面走得很快,它真正通过数据的利用产生价值,颠覆了很多传统产业。但某种意义上不是和传统行业在既有商业模式下竞争,可以通过对数据的把握,数据的挖掘通过变通的方式获取价值。

  电信运营商具有很大的数据挖掘潜力,目前来说运营商数据的商业利用主要有三个大方面:一、改善用户体验。二、助力市场决策。三、优化网络质量。

  用户体验运营商要向互联网学习。运营商都在提供增值业务,中国移动有飞信、有音乐,还有139邮箱等等,在产品设计、系统优化和UI交互式的优化方面,其实还有一些比较传统的手段,比如找客户做市场调研之类的。但互联网公司是很少做这个事情,用户每天的访问,能发掘社会很多的特征,挖掘出用户的消费取向,这个为产品设计带来最真实的第一手资料。这一点运营商也在变化,通过对于数据的统计、分析、挖掘来进行业务推荐、客服、建立知识库为整个产品的创新提供支撑。

  市场营销的支撑。运营商有几类数据,首先是用户帐号,现在基本上手机都是实名制,用户在运营商登记的帐号信息有年龄性别等等,是比较真实的最基础的数据。第二是协议类型,例如你使用什么套餐,什么业务,你是使用流量高的还是话音高的,你每月消费量多少,其实这里面可以体现出很多东西,比如说你的消费能力,一个月消费10块钱和一个月消费1000块钱的用户,消费能力肯定不一样,这种消费能力延伸开了可以帮助你做其他方面业务营销的支撑。第三是业务类型,比如说这个用户选择中国移动的游戏类或者阅读类、音乐类,都代表他个人的一些兴趣爱好、特点和取向。第四是访问的URL,用户经常看什么网站?比如说经常看体育类的网站,这里我们就会发现这个用户可能对体育类的产品和相关服务会有兴趣。第五是终端信息,因为我们实际上在网络上可以通过各种渠道获取用户在使用什么样的终端。这个终端信息一方面来说对运营商自己做业务来说非常重要,因为每个终端的能力不一样,每个终端的特征不一样,就是每个终端适合使用的业务不一样。

  中国移动是有自己的终端公司的,什么样的终端好卖?用户喜欢终端什么样的功能?什么样的特征?对我们自己使用开发终端也有价值。还有上行下行的流量,通过这些数据首先我们可以分析流量,就是说我所有的业务在所有网络当中流量流向变化情况,这里面也许蕴藏着某种信息。比如说什么地方发生了一个比较大的事件。举个例子,前一段时间四川的地震,四川那边电话局立马负荷飞速的往上涨,流量流向可以通过这个发现。用户行为的分析,移动通信有位置信息、地理信息,手机号码可以知道你的注册地,我既知道你常驻在什么地方,又知道你经常漫游在什么地方,所以这方面数据非常有意思。还有流量,一些帐单的查询,用户对流量消费非常关注,他希望有详细的上网记录可以查询之类的,为了提供用户透明消费支持等。

  优化网络质量。作为运营商中国移动一直强调的服务是电信级,全年的可靠性在五个九。中国移动很大一部分员工在做线网的监控,线网监控一方面比较耗人,另一方面网络结构越来越复杂,层次越来越多,一旦发生故障到底出在什么地方很难查找。大规模的数据挖掘可以帮助做网络的故障定位和故障排查。IP网和无线网送来大量的日志数据,这个日志数据通过模型建立、分析,确实对网络运营成本有比较大的降低。

  在运营商的实践过程当中,中国移动对数据挖掘,数据处理,数据分析的实时性需求越来越迫切。

  第一,实时这种流式数据的处理。数据有动态产生的特征,这是大数据的特点。这种数据动态产生,我们不能等到批量产生、批量处理,很多数据稍纵即逝,跟位置和时间的关联性非常强,我们必须及时处理,来了数据处理,处理完马上送上去,也许马上使用,流式处理在解决这样的问题。

  第二,海量数据的快速处理。要实现这种交互式。中国移动现在有些省公司在做整个公司的生产分析时,不再依赖花好几天时间整一个报告把数据报上来,而是有一套系统,这个系统里面你可以看到当月所有生产的数据,KPI数据,他的收入,用户增量,流失量,可以挖掘到每个小区带来多少收入,每个地市、县区、每个基站带来多少收入,流量是多少。这个需要一个快速海量处理。对于大量的IO操作限制了对于交互式的快速反应。现在图计算更多是通过消息而不是通过IO的文件方式做数据处理。像内存式的计算结合很多新的系统,像SLD、CSIO这些东西,可以在这方面做很大提升。

  在中国移动内部,是把云计算和大数据放在一块说的,在中国移动传统体系架构里面,很大程度上依赖于昂贵商用的硬件和软件,如现在交易数据库还有分析型的数据库大量使用甲骨文、DB2等商业数据库。使用小型机服务器,像EMC昂贵盘阵的系统。这种架构实际上存在几个问题:第一个在非结构化处理方面能力不足,第二系统成本非常高,中国移动小机的数量可能比PC数量还高。第三硬件平台的兼容性很差,惠普的硬件跟IBM的系统,没有办法做无缝的跨平台。第四个扩展性,传统的系统都是属于TB级系统,支持PB级分析交易能力是有限的。所谓云计算,中国移动认为你要把这种商用的硬件尽量用消费级的产品,就是说我们像X86、还有RM等等这样一些PC服务器用它代替,把整个系统的架构改成横向扩展的方式。

  在Hadoop正式发布之后,半年时间中国移动启动了相关研发工作。在国内,中国移动介入Hadoop比较早,后面也在不断的进行跟踪,也参与每年在美国的Hadoop会议,同时在Hadoop社区这种开源社区积极提交。为了支持云计算和大数据的研究和开发,目前实验室里把这个系统扩到了一千多个节点。

  中国移动的大云产品,融合了云计算和大数据两方面的工作,大数据方面我们同时关注分析型的产品和交易型的产品。分析型产品目前主要基于Hadoop,在Hadoop这块目前结合自己需求做中国移动的分支BCHadoop,所以现在把BCHadoop也做了一个开源,在今年CCF的创业大赛上,中国移动出的这两道题基本上在中国移动BCHadoop上进行实现。另外在Hadoop基础之上做了做了一个数据仓库和一个数据挖掘系统,主要基于中国移动自己的经营需求做了分类规则等等的方法,在社区文本挖掘方面做了相关算法和工具,在搜索引擎方面也做了一些工作。

  在交易类的产品目前中国移动在内存的数据库上,内存的KIH还有流式计算,还有分布式的交易数据库等方面都在开发,也在线网做了试点,这方面借鉴像淘宝等互联网公司的经验。

  运营上在大数据的使用上面中国移动都会做一些什么样的工作?

  第一个在网络优化方面,正如前面所述;第二精准营销方面,实际上在移动通信和移动互联网方面,市场竞争是很激烈的。现在移动运营商,像中国移动提出来一个微营销,微营销就是要关注你每一个用户的特点。营销动作要根据每一个不同用户进行差异化。我们基础必须有一个大数据,对用户进行精确的画像,对线网发生动作及时采集快速反映。这里举几个案例,像位置类的业务,我们运营商经常有时候会在某一些营业厅有特定终端的优惠套餐,这样回馈用户的营销活动。比如说有一个用户移动到离营业厅比较近的小区,从我们市场部门希望给用户推送一个消息,告诉你说我营业厅正在做某一个业务的推荐。当然做这个事情的前提你不能没事去给用户推送这些消息,因为现在大家对垃圾短信很反感,所以你怎么知道这个用户对你终端和套餐感兴趣,这需要有后台处理和挖掘的工作。比如说这个用户目前使用终端类型是什么?过往几年使用的终端是什么?某种意义上可以透露这个用户是不是特定某一个品牌的忠实粉丝。还有最近这个用户是不是在网上游览跟这个特定手机相关的网站,所有这些东西其实有可能让我们了解这个用户会不会对三星和苹果的手机感兴趣。同时它要发现这个用户经过我的小区在很好时机把这个消息推送下去,他要走到别的地方这个消息最佳时机就失去了,这是实时分析实时采取动作一个典型的案例。

  还有一个案例比如说像有一些用户他经常出差去某一个地方,我们有两城一家的套餐,你定这个套餐整个漫游费长途费没有了,对这些用户你要有识别。这个用户经常到某一个城市,他在机场开机你可以推送一个消息告诉他说这个套餐可以为你省钱。我们还有很多新的业务,比如说中国移动去年推出的灵犀,实际上是用户人机对话的系统,某种意义上有点像自动化的客服系统,这个系统用了云识别,实际上后台有一个比较大的数据库,这个需要我们把很多知识结构化,然后在后台能够快速为用户提出的问题找到相关的答案。

  还有物联网,物联网刚才我们说了它实际上每天都在送大量的信息。比如说我们在无锡那边做过太湖蓝藻的监测物联网应用,它需要对数据实时的采集、实时的处理。中国移动在国内国外开源和标准化方面做了很多工作,就是跟Hadoop相关主要我们现在建立了一个开源社区。最主要原因是什么?运营商在使用Hadoop的时候往往有它自己的一些特点。我们首先把一些线网急需的需求在我们自己的分支里面实现,同时推动主线逐渐把它移植进去。

  最后孙少陵所长对大数据的进行展望,指出,大数据的未来是机器智能,是真正大数据未来发展的终极目标。现在像谷歌等在deep learning方面做了很多的公司,像人机交互、语音识别也是大数据广义的范畴,通过机器来学习知识,把数据形成知识,知识变成智能,真正给我们社会信息化做出推动的作用。

  责任编辑:Mary

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/2013125/n487854641.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
转载声明:凡注明来源的文章其内容和图片均为网上转载,非商业用途,如有侵权请告知,会删除。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片