机房360首页
当前位置:首页 » 云计算资讯 » 孙少陵:电信运营商基于大数据的商业智能应用思考

孙少陵:电信运营商基于大数据的商业智能应用思考

来源:机房360 作者:GOCN编辑 更新时间:2012/11/30 11:58:57

摘要:中国移动通信研究院云计算研究所所长孙少陵表示,中国移动已经走到商业智能分析阶段,需要实现BI系统集中化,将两级结构专为集中化架构;实现数据模型标准化,并将各系统的数据统一存储和处理。在实践中,移动发现Hadoop在高效索引、数据存储和查询优化方面确实还有问题,性能较低等问题,他呼吁中国移动与生态系统的更多伙伴共同丰富Hadoop。

  孙少陵:各位专家大家上午好!非常高兴有这么一个机会跟大家交流一下。运营商对大数据的商业智能的利用是怎样的考虑。刚才程主任提到了未来的发展趋势或者说现在已经产生的趋势是很多的传统企业已经在考虑大数据的应用,作为运营商实际上我们也是一种传统的企业。所以可能分享的信息会具有一定的代表性。我们看基于大数据的商业智能运营商有什么样的想法,最后是基于大数据的应用和研发的实践。结合中国移动自主研发的大云的系统,首先全球的数据量是在高速地增长。现在有一个新的模式,18个月是计算机有史以来的全部信息的一部,等于是呈指数级增长的态势。信息也逐渐变成了企业的战略资产,比如说企业越来越多地需要应用后台的数据进行用户行为的分析和进行市场决策的支持,以及做一些网络优化等方面的分析。

  同时为了满足政策法规的要求和国家对信息管制的要求,实际上我们也需要保存和采集大量的数据。所以,数据量的增长应该说对于所有企业尤其是包括像运营商这样的企业是一个目前正在发生的事实。大数据对目前的信息产业带来了非常大的潜在的机遇,对大数据来说我们面临什么样的机遇和挑战呢?首先,我们认为在网络这个时代,实际上运营商是处在一个数据交换中心的地位。随着互联网的发展和越来越繁荣,运营商的管道可以抓取世界大部分的数据,尤其是用户在使用数据和信息的行为等方面,这些实际上都体现在运营商的平台中采集的到大量的日志的信息和流量的信息,这些信息存在着大量商业利用的价值,怎么样利用这里存在着不光是技术上的问题还有法律上的问题。


  所以对运营商来说这么大的数据给我们带来了什么样的机遇?

  首先,改善了用户的体验。传统上来说,运营商在做业务的设计、做用户体验优化的时候,可能更多地做一些市场调研等事情。实际上,随着大数据的产生我们发现用户每次的点击行为,我们都可以采集到用户对业务的偏好,他的一些行为特征。基于这些行为特征可以很好地改进产品的设计,我们可以在现场进行推荐和咨询,或者是采用外呼的方式。如果通过数据分析和挖掘,可以把外呼的范围缩小的话,实际上某种意义上给我们运营成本会带来很大的节约。

  第二,优化网络质量。实际上运营商的网络现在是越来越复杂了,作为中国移动的一个移动运营商来说,我们有无线接入网,现在有2G、3G、WiFi,未来还有LTE。当然还有其他的业务平台,所有的这些系统实际上这种网络优化是一个非常复杂的事情。现在对于网络优化的实质性要求也非常高,一旦比如说我们的基站出现了故障,必须在非常短的时间内进行定位和修复。这种大数据为我们的网络优化给我们带来了很大的潜在的机遇。通过端到端的网络质量的分析,对一些故障的发现很快可以进行网络的优化和故障的定位,所以这对我们来说是非常大的机遇。

  第三,助力市场决策。随着互联网公司对于某些传统电信业务的进入,市场竞争越来越激烈。通过业务资源和财务多方面的综合分析,让领导进行快速的市场决策,这在市场竞争中可以形成不对称的竞争优势。所以,这实际上对运营商来说也是非常大的机遇。

  最后,刺激业务的创新。很多的专家提到数据实际上是有很大的价值,有很多的公司渴望能得到运营商手里握有的大量数据,但这些数据在怎么样的法律法规允许的条件下进行采访和共享,这涉及到很多的问题。这方面不管怎样说,对运营商来说是一个潜在的机遇。未来,我们可能会基于这些信息来推出一些新的业务,形成运营商新的竞争力。当然,大数据,这么多数据给BI系统带来了很大的挑战,所有运营商的状况都差不多。说的是中国移动的情况但比较具有代表性。首先商业智能系统是分散建设的,因为运营商一般是两级结构、甚至是三级结构,有总部、有省、有地市,这些分散很难进行资源的共享。比如说专业系统上,我们有一些专业系统。同时这些系统可能分级建设。

  这样的话,一方面造成了资源的重复建设,应用的重复开发。同时有一些数据科学家和分析人员的专家资源也没法儿形成共享。

  第二,数据分散存储标准化程度比较低。因为目前不同系统的建设主体是不一样的,尽管集团有统一的数据模型的标准,但实际上最终实施的话多少有一些差异。所以数据模型不统一,造成了跨系统的综合分析非常地困难。第三,目前运营商大部分是以数据仓库为商业智能的核心,传统的数据仓库采用的是小基加盘阵高性能一体机的建设,所以建设的成本是非常高的。目前整体来说,运营商的商业智能是以处理传统的划单、日志这些结构化数据来设计的。对新型的比如说互联网还有一些上网日志等一些新型的数据,包括一些图像等非结构化数据,目前的BI是没有能力处理的。

  最后,主要是对内部提供服务的,实际上没有考虑对外进行商业利用的事情,这对运营商如何解决用户隐私保护的问题也带来了很大的挑战。

  从运营商的商业智能大数据的初步架构来看有一些不成熟的想法。首先,未来我们的商业智能系统会逐渐地走向移动化,从现在的两级架构变成了全网一级。同时,实现数据模型的标准化,把各系统的数据进行统一的处理,把很多的详单数据进行统一处理。

  这样的好处是首先通过集约化实现数据的标准化。第二,通过数据集中化来实现各系统的综合分析,同时也有利于快速地进行数据分析和决策支持。因为现在很多的数据应该说是在二级、省内或者是地市系统里。现在如果从公司整体来说做数据分析和决策支持,往往是需要省公司定期地提供一些汇总数据。所以这实际上对分析的实时响应还是存在一定的问题。

  集中化的商业智能系统首先面临着海量数据存储的压力。集中化的商业智能系统一方面面临着数据规模大,数据处理复杂,同时不同类的用户存在着混合负载的问题。首先从数据规模上来说,我们预测到2015年的时候,结构化的数据是需要3.7P,非结构化数据是4.4P。这是保守的需求,我们数据存放的时间是非常短的。但正像前面所说的,有很多的数据是企业的战略资产,有很多的互联网公司对这类数据是永远不删除的。实际上运营商未来数据存储的容量需求应该还是不断地扩大的。

  目前我们采用的传统的数据仓库成本还是很高的,目前公司扩容的压力还比较大。

  第二是数据处理的复杂性。目前我们面临着很多新型数据的处理,包括非结构化和半结构化的数据,所以这方面是需要引入新的技术来进行处理的。同时,还需要对结构化和非结构化数据进行混合深度的数据挖掘。最后是混合负载的多样性,传统的数据仓库和我们的商业智能的应用大部分是属于固定应用,属于报表类的应用。未来会出现大量的临时统计的需求,也就是说ad-hoc的统计需求,刺激还会有一些突发性的自助分析的需求。所以,目前以数据仓库为核心的架构现在还不能满足业务要求。实际上我们也分析过,未来大数据商业智能到底走什么样的技术路线,作为传统企业和运营商来说有一个背景,从整个企业的组织形式来说,传统来说是以应用为主而不是说以研发为主的。所以实际上自主研发的能力是比较弱的。很多应用实际上是买商业成熟的软件或者是请外面的合作伙伴帮我们开发。这就决定了,应用开发实际上跟下面的平台是没有办法非常完美地优化和设计的。相当于下面的平台跟上面的应用必须有一个比较清晰的接口。这实际上对整个技术选择来说应该也是一个很重要的影响。对潜在的几种技术做了分析,包括传统的数据仓库,指通过小型机加盘阵的高性能的硬件,也包括了软硬件一体化的新型的数据仓库。我们都归为基于高性能硬件的数据仓库。

  第二种是新型的基于X86的数据库。第三类是Hadoop分布式系统。从复杂多表关联分析这方面来看,目前关系型数据仓库这方面会有更的优势,因为通过这种索引和分区建的技术保证多表关联的效率会比较高,而Hadoop目前缺少高效索引,因为现在我们无法支持次级索引。而且整个的数据存储没有做得非常地优化,查询优化这一块应该说对Hadoop来说基本上算是空白,所以从整体性能上来说,Hadoop目前还是在这方面比关系型数据仓库还是要差一些。

  关系型数据仓库是为结构化数据处理,当然很多的数据仓库目前跟Hadoop相集成提供一些非结构化数据库的处理能力。但关系型数据仓库是不支持非结构化数据的处理的,而Hadoop的能力非常强。

  实时相应有关关系型数据仓库和X86的通用平台都有比较好的整体优化,所以响应的实时性会比较高,而Hadoop目前的优化比较少,所以实时性这块差一些。而且做单相查询的性能是比较好的。但比较复杂的处理这方面的性能就会差一些。从数据规模来说,整体上来说,这三类技术都可以达到PB级,应该说都是大数据系统。但Hadoop相对而言的扩展性会更好。在可靠性这方面,目前高性能硬件的数据仓库,首先在硬件方面有高可用性的保证,所以这方面会相对来说好一些。X86的数据仓库和Hadoop都是基于软件来解决可靠性的问题,可靠性应该说是稍微差一些。从采购成本上来说,传统的数据仓库肯定是最贵的,MPP数据仓库居中,Hadoop因为是采用开源软件,所以它的采购成本是最低的。从运维成本来说,目前传统数据仓库MPP的的水平是一般。从外围的工具支持和可视化工具,和自主查询工具和分析工具,这方面在传统的关系型数据库是比较丰富的,所以,实际上对未来集中化的商业智能的构想,大体上有这么几方面的初步考虑。首先,从技术路线来说,我们会选择数据仓库跟Hadoop混搭的方式,借鉴了关系型数据仓库在传统应用支持方面以及在复杂的查询和分析方面的快速响应能力,同时也借鉴了Hadoop的非结构化数据处理能力以及存储的低成本。当然了,为了实现上层应用能够更方便地进行下层数据的使用,实际上考虑未来会实现透明访问层。它会屏蔽下面Hadoop跟数据仓库的使用细节,让用户在使用这些数据的时候尽量地无感知。这是另外一个构想。

  第三,在数据的ETL采集预处理的环节,我们会尽量多地采用Hadoop和分布式ETL的方式,提高数据转换的效率,同时降低成本。最后,考虑到运营商实际上是比较庞大和分散的组织架构,我们公司对商业智能的需求也是比较多。所以,前面几位专家提到的,我们把云计算的概念引入到大数据里面,未来形成一个商业智能的pass平,这个平台会实现平台建设和数据存储的集中。但应用开发可以让各个省公司和地市公司自行进行应用开发。上载到平台上分析出结果。这可以很好地解决平台集中化和应用需求分散化的矛盾。

  下面简单介绍一下中国移动“大云”的项目,它包括了几个产品线,我们包括了一些数据挖掘和ETL以及和索引相关的东西,比如说数据采集还有自然语言处理等等。在刚才提到的未来商业智能的架构中,目前在数据采集的层面,在ETL方面做了一些工作来实现海量数据的抽取转换和快速加载。在数据存储和处理层这方面做得工作比较多,首先是基于Hadoop HBACE(音)等系统,主要是面向大量的结构化的数据处理。同时也构建了一个BI PaaS,基本上实现了向BI应用的开发托管和分享的环境。同时,实现了BCPDM的功能,通过这种方式来实现商业智能方式中经常使用的算法,包括了一些ETL操作。最后还有一些非结构化数据处理的工作,包括了网页的采集还有索引,包括自然语言的处理的能力。

  大云也结合了无线网的实验试点目前在摸索未来商业智能系统如何构建。这里实际上是在信令监测系统中做的内部的尝试。信令监测的数据量是非常大的,A+Abis采用的是空中接口和信令信息,一个中等规模的小公司每小时的数据量是30亿条。同时为了快速地进行故障定位,现在有一个比较苛刻的要求,实现60个信令监测统一指标的复杂查询要求1分钟之内返回结果。在实践的过程中发现,如果要是没有一些特殊处理采用Hadoop生态系统中的工具,实际上在处理这样的应用的时候是具有一定困难的。当然了,这个系统实际上主要是用HBACE,我们通过一些技术实现了优化基本上可以达到这样的性能水平。

  第二个应用是在互联网内容分析系统中的应用,传统的商业智能主要是分析自己的结构化数据,主要是划单数据。但目前发现很多增值业务是需要了解用户更深层次的使用习惯和使用需求。这些使用习惯某种意义上来说,从用户在互联网访问的行为中是可以进行一些挖掘的。这个系统实际上根据用户访问过的网页,把这些网页采集过来以后进行分次分类,通过网页的类别,比如说这个用户经常访问的是体育类的网页,某种意义来说可以把这个用户打上体育的标签,未来可以针对性地推荐体育类的手机报等新的业务。这个系统首先是要支持基本的搜索引擎的功能,比如说采用爬虫进行网页采集和分析,通过自然语言理解来进行网页的分析和分类。目前我们是通过BC-SE来实现的。

  第二,网页采集进来以后要采用结构化的大数据存储系统Hugetable进行系统分析。最后通过PDM数据挖掘系统进行深度的社交网络、用户偏好的分析,最终实现这样的目的。

  在实践的过程中整个环境的发展有自己子想法和建议,感觉目前Hadoop是在数据、系统的扩展性方面有非常强的优势。同时在实时处理和应用开发的方便性上,还有外围工具的丰富性这方面还存在着需要改进的工作。首先,在数据实时处理这块目前应该HBACE是实时系统,但它只支持主件的实时查询。如果说有比较复杂的汇总类的或者是复杂计算的查询,HBACE现在支持的并不是很好。因此我们是希望Hadoop社区未来会做进一步的工作。第二在编程接口上,目前Hadoop的Hive和Pig是类似接口的API,但作为传统企业来说有大量的既有的应用是基于标准C口做的,所以如果要是Hadoop能支持标准C口的话,对应用的迁移是非常好的,因此我们希望未来Hadoop能支持标准的SQL99。

  第三是在外围工具支持下,总体上是在管理工具、分析工具等等Hadoop比传统的数据仓库还是少一些,因此我们呼吁Hadoop的产业链能共同地把Hadoop这块丰富起来,未来能够让Hadoop更有效地在商业系统中使用。以上是不成熟的想法,这是基于互联网海量信息的化学反应,必将会现有技术和法律法规产生相应的变革,中国移动愿意跟产业各方共同抓住大数据的机遇,为社会更多的价值。谢谢大家!

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/20121130/n333242696.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
转载声明:凡注明来源的文章其内容和图片均为网上转载,非商业用途,如有侵权请告知,会删除。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片