孔宇华：驾驭大数据,如何实现大数据的应用性_机房360

摘要：

　　孔宇华：我前几个礼拜想在大会讲什么的时候就上了CSDN的网站，我在网站看到了一些题目，其中一个是怎么让大数据平民化、大众化。上面有一个抽奖，也提了很多一些大数据的情况，所以我觉得今天讲怎么样让大数据更加地平民化、更加大众化是一个很好的题材。我想感谢这几位同事所做的一些讲解。刚才几位嘉宾也说到了，在大数据的问题上应用案例落地，怎么让一些比较传统的公司使用大数据是一个需要我们研究的问题。

　　大数据是天时地利人和，让它发挥价值也是需要天时地利人和的。不仅在技术方面、在人员方面、流程放慢都需要注意。现在在座的各位我相信对大数据都有一定的研究，现在大数据开发得很好的公司都是左边的一些公司比较技术性的公司，在座的各位计算机科学的人才比较注重编程Javy，C，C++，编程人员有一些Hadoop大数据的方案，他们关注大数据的应用的平台是想可以得到比较灵活的应用。另一方面有一些比较传统的，有一些传统的非技术型的公司，计算机科学人才数量比较少，维护和管理的是DBAs，他们关注的是应用。所以在一个大数据的落地方案里，我们讲应用怎么样大众化是需要按不同的企业、不同的行业、不同的社会的需求来定位什么叫做易于使用。

　　现在讲大数据有四个方面，易用是我们需要关心的。我有四个手指如果要拿东西是比较难的，可是五个手指就不一样了。什么是大拇指呢?就是易用化，让大数据更加容易用地到上面。

　　其实大数据在数据仓库里面很早以前就开始做海量的数据，但他们以前是用SQL来分析的，用SQL是比较高层的，但SQL比较容易重复使用，有一些比较麻烦的、比较复杂的Map Reduce程序，SQL就比较容易做出来。但SQL在一些问题的匹配上比较弱，有SQL来表达一些问题比较复杂。SQL在查询优化器做的选择比较低效。因此SQL用UDF来做补偿。第一，UDF不是一个并行设计的框架。第二，跟数据模型的关联很大，很难把一个数据模型搬到另外一个数据模式上。所以现在大规模的互联网公司找另外一些平台。Map Reduce就有一些平台来处理大数据，各位都很熟悉。需要用到Map Reduce，那么在座的各位很会编程和代码的人可以用Hive。还有另外一些像database以前有的，还有一些优化在这里面就没有了。

　　我们为什么就不能有一个可以轻易地重复使用的、易用的而且能够处理大量数据的工序呢?我们在4、5年前就就SQL-Map Reduce的结合。我们加进一些数据库方面的技术，我们的出发点是在数据库这方面，所以我们已经有很多数据库方面的优化像index等等。之后我们觉得Map Reduce、大数据这方面有很多可参与很好的框架，之后我们把Map Reduce的框架建立在一个数据库上面，应用方面很多传统公司的分析师可以用SQL来访问这个平台，这是一个大数据平台。因为这是一个SQL的平台，很多现成的BI的工具也可以马上地放到平台上使用。

　　另外一个方面，软件开发人员也可以很容易用到这个平台来写平常的Map Reduce，所以它兼容了SQL的好处，也兼容了Map Reduce的好处。

　　另外在应用方面很少有传统的公司想写一个Map Reduce的功能包来用。那更好的应用方法是把一些经常用的功能提供给企业、提供给这些人，提供给社会，他们就可以马上利用到功能包，怎么把结构建起来，怎么分析我的数据，因为我们想做到的其实就是，如果我们的分析工具很完善，他们只要想到了怎么分析就可以了。我们建了50个功能包，让不同的企业和行业做这样的分析。刚才我讲到从SQL这方面出发结合了Map Reduce的分析。中间是一个路径分析的功能包，如果用Map Reduce来写这个程序可能还会更长更复杂。如果让一个分析师来写他是没法儿想到的。但他用这样一个办法来写的话，又很容易写到，如果他要改也很容易改。因为做数据分析不是分析一次就完了，要不断地分析，分析一次可能得到更加多的信息和问题需要问，所以是重复性的，如果你需要修改一个分析的程序要很复杂的话，分析师的工作就没办法做到了。所以这是一个比较好的方法让他们得到他们需要得到的信息。

　　对于开发人员，在座的各位如果想写新的功能包怎么写呢?也应该考虑另外一层用户的应用，我们不能只考虑到分析师也要考虑到开发人员的应用。

　　现在国内和国外很多的企业都开始知道数据库不是一个完整的企业数据框架，都需要在上面做一些增加接受非结构化的数据，然后在结构化的数据上做更加深的另外一个角度的分析。在现成的数据仓库里面现在看到了比较常见的框架是旁边有一个探索的平台，利用一个平台做快速的结构化、非结构化的数据的探索，做SQL和SQL以外的分析来得到更加大的数据的价值。Hadoop也会在这个框架里起到一定的作用，它可以进行大量的数据的搜集，ETL数据加工、数据储存的作用，可以建立更加好、更加优化的数据平台。

　　基于这样的平台我们也出了一个方案，它可以结合Aster的数据挖掘平台和Hadoop的一些机器一起联合然后中间有一个比较宽的连接器，可以从Aster到Hadoop，以及通过Hortonworks做访问。而且这种分析不用把整个数据全部地table拿过来，因为我们可以把一些需要的列、行拿过来分析就可以了。所以就大大地减少了数据搬移的需求，只需要把你需要分析的数据搬过来就可以了。

　　下面讲一下数据分析，刚才我们讲了数据平台的问题，现在我们讲一下应用方面大数据在传统的公司是怎么利用起来和应用起来的，而且他们注重的是什么东西。我们关心的是产品关联。因为我喜欢吃皮蛋瘦肉粥，我每次去超市会先买皮蛋之后再买大米，如果超市知道客户喜欢吃这个的多，那么他们会搬在一起，这样客户就方便多了。所以很多的超市想知道这样的产品跟另外一些产品的关联度比较大。其实，超市已经开始做了产品的关联了。他们以前怎么做?是用SQL来做，这方面做得比较慢，因为SQL在做产品关联的时候不是最好的平台，它表达出来的也不是表达得很好。以前一个集团做一个这样的关联需要四个小时，而他们的分析师可以可以想象到，给你一个产品关联要回去等四个小时，下一个人做这样子的关联的需求，他要在这个关联后面跑八个小时，所以造成了什么样的情况?他们的分析师对关联有一种恐惧感。导致他们后来根本就不做这种关联的要求了。用我们的关联的功能包做分析的时候，两分钟以内就可以实现13个集团超市的分析，改变了整个公司分析师对产品关联的认识。而他们不仅仅可以做全美国超市的产品关联，再下面他们可以做其他区域的产品关联还有其他方面的产品关联。他们做的第一个产品关联是从13周到8年的产品关联，因为13周的产品关联看的时间看不进去，2004年到2011年美国发生了很多的事。客户的行为在这中间肯定也改变了很多事。在他们关联的时候就可以看到这一类产品其实是饮料的产品，跟其他的产品之间关联的变化，他们还可以看到最高的那一曾是麦片跟chess，他们也可以看到麦片跟chess有一些反关联的趋势。第三条线是纸巾和juce的关联，从2004年到2011年的趋势是下降的。

　　这对他们代表了什么?暂时还不知道。我刚才说分析是第一层，是比较肤浅的。但因为有这个工具可以在两分钟之内作出这样的分析，可以接着再做下一步的分析。如果分析需要四个小时的话，可能就没有那么多的耐心做下一步的分析了。在这个基础上可以做不同区域的分析，不同年龄组的分析，一个超市在一个大学城的旁边跟在一个住宅区旁边的需求肯定会不一样的。在城市、郊区也肯定有区别。所以，因为有这个工具他们就可以更快地得到这种信息。在座的各位可能会问那在Hadoop上做这个东西行不行?也肯定行。但这些公司想得到如果在Hadoop上面做，肯定要建立一个比较大的Hadoop团队来维护然后来开发这样一个软件。他们现成的系统里是不支持人员的天时地利和人和的，人就不合。所以就需要在一个更好的、更易用的工具里面来做这样子的分析。之后下一步分析出来了会把一些production的分析方面上面，之后做一些探索的平台。

　　所以在supervalu方面，他们看到的第一是应用，不仅仅是IT人员的角度，也从业务人员的角度看看是不是能接受的。第二，易用的范围是怎么维护的。第三是速度，怎么样让他更快、更简易地得到新的从数据中提取到精华。

　　所以我想鼓励在座的各位在开发新的大数据平台、开发大数据产品的时候要考虑到易用。怎么样考虑到你的用户和后端的人员是哪些人，他们是用SQL的还是做代码的。你是要用大数据来解决什么样的问题哪方面的问题，之后再从这个应用的需求方面再推断你需要大数据的平台和技术上的需求。

　　谢谢大家!

JIFANG360.com - 机房360

孔宇华：驾驭大数据,如何实现大数据的应用性