谷雪梅：数据的应用价值及相关技术_机房360

摘要：2012年9月6日，华胜天成2012中国IT服务峰会暨云战略及产品方案发布会。本届“峰会”将会吸引各行业1000多CEO/CIO以及业务部门和IT部门的管理者参加本次活动，同时也将是全球顶级IT企业的聚会盛宴。更为重要的是，华胜天成将在本次峰会上发布其新时期的云战略，并将隆重发布云产品及解决方案，与嘉宾共同探讨云计算实践之道。

　　谷雪梅：我今天跟大家分享四方面的实践：一是Google搜索引擎公司里面我们使用的大数据的规模；二是应用场景及商业价值；三是大数据的存储技术；四是大数据的查询与挖掘。
　　
　　首先，看一下大数据规模。大家知道互联网进入每个人的生活以后，数据已经成规模的上涨了，我们做一个简单的对比，比较早的时候大家做科学计算的时候，无论是用户数、精确度、可靠度的要求，数据量都是比较小的。随着越来越多的数据产生，后面大数据会应用到股市交易、基金排序等等，但是数据量都会有一个上限。但是人类还会生成很多数据，对搜索引擎来说有一个非常大的挑战，就是对数据量的整理、挖掘。在今天已经处理的数据量是10的15次方。给大家讲一下这些数据从那里来的？首先是网页的数量，现在Google能够处理的网页数量是在千亿以上，因为网页只是互联网数据上的一小部分。其他的数据类型比如说视频、个人邮件等等都到达了这个量级。还比如想处理更多的图片数据，因为大家经常讲一个图片它所代表的内容比1000个字节还要多，所以我们也希望能够对于图片有更多的理解，它同时也有类似的数量。
　　
　　假设我们能够存储这些数据，我们需要一些什么呢？首先，我们需要硬件和网络需要存储，需要管理这些硬件，需要分布式的计算，所以不可能用于单机或者比较少的硬件设备处理这些数据的时候，需要做全球规模的数据分布计算。有了比较基础的架构，下一步就是存储，存储事实上也是非常有技术含量的工作，需要很多的算法，需要非常好的数据结构，把这些数据存好，以方便后面的查询、计算。在这个基础上下一个层次就是继续学习，还有人工智能的办法进行检索，得到数据云的精华，得到大家想知道的那些知识。
　　
　　综上所述，Google的大数据理念是三个词：第一是智能，只有数据是不够的，我们在数据中要看到一些什么，这就是智能的部门；第二是要迅速，一个数据如果你需要花几天、几个月去计算的话，事实上它已经失去价值了；第三就是规模，我们认为互联网的数据还会增长，不光是用户会生成很多数据，今天听了王总等嘉宾的演讲，我们也发现企业也会生产数据，政府也会生成很多数据，这些数据应该怎么处理？Google和很多其他的业界的同行需要面临的挑战。
　　
　　下面给大家稍微介绍一下，大数据有一些什么样的应用场景？以及有什么样的商业价值？在之前大家都意识到如果我们对数据的理解很深刻，那么它的商业价值是很大的，这一点上我们没有疑问，我们只是看看数据到底能做些什么，能够生成数据价值。几个简单的应用，大家在日常生活中也用过，比如说趋势预测、Google翻译、个性化搜索和情感分析、Google语音识别等，还有很多很多，我举两个例子给大家介绍一下。
　　
　　先来看一下趋势的分析，在互联网之前如果我们需要了解这个社会上发生的事情，他们做的方式有调查，还可以通过统计局每个月的记录做一些报表分析等等，这些就会有严重的数据滞后。搜索引擎在这方面弥补了过去的一些不足，因为它可以实时的掌握用户的脉搏，通过用户对于搜索词的关注度，很快的理解现在社会上的热点是什么。它的商业价值其实也是显而易见的，对于用户来说如果搜索引擎了解他们目前感兴趣的话题，搜索引擎就可以为他们带来非常精准的、实时的广告体验，在搜索排名上也会找到热点话题，对网页进行更快速的抓取和索引，使用户能够得到他们现在关注话题的最新消息。对广告主来说，它的商业价值就是很快的知道现在用户在关心一些什么，他们应该在什么地方投入一个广告。当然，同时还印发了很多新的商业模式，甚至社会运作的模式。
　　
　　我今天在演讲的时候，《中国好声音》特别好听，所以给大家抓取了一个《中国好声音》的趋势图，大家可以看到从8月份《中国好声音》一直占据着搜索引擎的排行榜，很有意思的是，大家可以看到它是每个星期都会有一个高峰，大概是在星期五之前，下一期中国好声音播放的时候发生的。同时，大家还可以看到星期四《中国好声音》就开始热了，如果你想通过《中国好声音》来做搜索广告的话，可以考虑投放的时间，就应该和大家开始对搜索词进行大量搜索的时间相同。比如说星期一到星期三可以做一些好的时间等等，这是非常简单的直观的应用。基于这种趋势，大家还可以做很多的事情。举个简单的例子，《中国好声音》是中国大陆现在非常热的话题，但是如果有的企业想做欧洲、南美、非洲等等或者其他国家的广告的话，你知道当地人最关心的话题是什么吗？现在还好，世界上至少还有一家搜索引擎的公司，会把自己的服务基本上遍布了全球200多个国家，可以利用Google的趋势图，了解这个世界很多的角落发生的热点话题，可以为广告主甚至我们的用户关心当地的情况提供一些实时的索引，也帮大家做一些商业上的决策。
　　
　　Google机器翻译，机器翻译是人类很长时间以来一直很热衷的话题，因为我们希望跟更多的人和其他文化、其他语言进行交流，但是如果我们只是靠提高算法，让算法更智能是达不到这个目的的，之到目前位置还没有任何一个算法可依达到这个目的，把翻译质量像经过训练的翻译专家那么高，还没有。但是有意思的是，当我们能够搜集足够的互联网上文本样本的时候，机器翻译做的不错，不敢说能够比专业人士做的更好，但是还是比之前的一些有长足的进步。它的商业价值是显而易见的，还是回到刚才的那个例子，越来越多的企业走出国门，你未必能够找到专业人士，对全世界共同的语言进行机器翻译，当你想投放广告的时候，想使用当地人能接受的语言的词语，怎么办？至少可以先用机器做一个版本，再能找到更好的专业人士的时候，在这个层次上提高，这样可以大大降低了成本。对用户来说，它的价值也是非常显而易见的，我们可以用于科研、学习、娱乐等等，尤其在当今世界一体化的情况下，我们非常关注这个时间其他地方发生了什么，这个时候机器翻译它是多语言对多语言的翻译，并为你提供很多的你不了解的内容。
　　
　　一个很简单的对比是这样的，目前Google做的比较好的是英汉，中文和英文之间的翻译，另外就是阿拉伯语和英文之间的翻译，所以中国在这方面几乎是毫无疑问的世界领先的水平，它的表现来自于我们对数据的分析。
　　
　　为什么数据规模能够有如此亮点的表现？这是给大家展示的三个算法，这三个算法由不同的科学家发明的，在非常小的数量级的情况下，大家看下面的那条线（PPT），在数量级非常小的时候表现是最差的，但是随着数量级的增长，比如超过100万方，它已经能超越其他一些算法，如果你的数量再高的时候，已经是表现最好的了。Google没有在很多算法上进行非常深入的研究，但是我们利用了海量的数据，同样得到了其他公司所不能达到的精度。
　　
　　后面两个是和大数据相关的技术，一个表达方式就是巧妇难为无米之炊，你没有数据，不能存储的时候，后面就讲到了智能化处理海量数据，这都是无稽之谈。所以，我们首先最重要的是在公司里面做的就是存储。现在Google的存储系统，就是云计算中心是遍布全世界非常多的地方，在硬件系统上面至少是上万台机器的计算集群，机器与机器之间利用网络的连接，单机上是硬盘，并且正在逐渐的往互联SST的方式转移，并且提供更快速的数据的检索。软件系统在单机首先要想做好存储就要做好单机运行和数据分析，把报告汇总到集群，就是汇总到一个数据中心，主要负责运行文件系统，管理数据中心内部所有的文件。如果有些数据正在工作的话，我们要依赖全球范围的存储管理，把这些数据打包到其他的数据中心区，把它查询和计算转移到别的数据中心区。这大概是一个Google存储系统的架构，基本上是一个层级的架构。Google文件系统在2003年对外发布，主要是依赖于非常便宜的硬件系统，进行了很好的设计和不断地恢复，使得它作为低成本高效能的文件系统一直运行到今天。虽然这个技术并不是很新的，有将近十年的历史，但是现在还在Google内部发挥了很多作用，因为海量的存储，每当用户在Google做一个搜索，我们都会记录跟用户很多相关的信息，每天在增长的海量的数据是用文件系统进行存储的，但是这个文件系统在技术上越来越不能够达到Google的要求，因为我们现在不只是做网页的存储，而且要做视频、邮件等等，有各种文件需要在文件系统里面存储的时候，我们又开发了新一代的Colossus，主要的特点是集中了现在在计算机界最领先的技术。有很多时候你不需要做原始的数据，给大家举一个例子，之前跟国内云计算的领军人物讨论，他面临的问题是什么呢？比如说我有很多数据平时并不需要看它，但是在发生灾难的时候肯定需要看，在那种时候我需要知道我要看什么数据。这怎么办呢？他需要看到的原始数据，而原始数据的量不能太大了，我们需要对它进行特别的处理。
　　
　　下面是数据读写的技术，主要是硬件还不能够带来百分之百的正确性，所以需要一定的办法，当数据写错的时候我们需要把它纠正过来，包括后面的预测、规划，刚才讲到了数据中心不可能是百分之百，所以我们需要预测，在什么时候需要维护数据中心，这个时候需要把数据移到其他的数据中心进行不间断的服务。我们希望所有的数据移动的时候不要太长的延时，也需要非常好的存储。所有的这些问题都需要找到非常好的解决方案，我现在跟大家分享的是在企业私有云的情况下，并不需要Google这么复杂的文件系统，但是各位CIO或者是企业的服务人应该考虑针对自己的情况有一些什么样的特别需求，并且根据这些需求做符合自己的解决方案。
　　
　　刚才我讲的文件系统是对非结构化数据的存储，我们怎么对结构化的数据进行查询呢？Google大表格：BlagTab。大数据的查询与挖掘这是最难的，因为数据量太大了。首先我们看一下这些数据能给我们带来什么？刚才除了给大家介绍了很多应用场景之外，数据可以让很多算法变得更聪明，给大家举一个很小的例子，就是在搜索引擎中的拼写纠错，当你拼一个外文名字的时候，十有八九不会拼对，尤其是名字不是那么的常用。举个例子，BrihneySpears…，小甜甜是一个歌手，包括很多英语的使用者对她的名字不一定能拼对，在Google发现了8000多个拼法，哪个是正确的呢？我们就看输入最多的，所带的搜索结果是正确的，这种方式给用户一个建议，当他拼错的时候告诉他正确的是什么，这就是一个海量纠错的结果。这个结果很简单，但是这个过程很复杂。
　　
　　我们在搜索的过程中会看到不同的词有不同的搜索频率，比如说奥运会，四年就会有一个高峰。西瓜这个词每年到夏天就有一个高峰等等。其实可以通过搜索的频率了解到用户正在关心什么，就像刚才说到的，这些是为广告主带来很多的价值。
　　
　　我们怎么挖掘呢？在技术上使用的还是非常简单的MapReduce的架构，把所有的数据存在一个大表哥里，Map就是在一个数据库里面进行操作，最后会生成一个你想要的结果，MapReduce会应用到很多方面，包括数据存储、数据分析、日志分析、搜索质量、以及其他数据分析。
　　
　　我们简单的做一个数据分析是不够的，我们就在上面做了一个Dremel，Dreme底层的任何人做过数据库都可以使用Dremel，Dremel下面调动很多的IP地址对数据进行查询和挖掘。Dremel主要的好处是可以在数千台机器上运行这个产品，再把结果生成之后返回到你的终端，他的优势比较简单，是因为它用大家熟知的语言，速度非常快，可以在几秒钟内处理大量的数据。现在Google已经把它开源，如果其他业界的各位朋友想使用，或者对你互联网内部进行关键数据的查询，并且基于查询进行机器学习的话都可以使用开源项目。
　　
　　最后总结一下，大数据其实已经给Google每天2300万美元的收入，而且我们也相信这个收入会进一步提高，同时我们也对用户带来越来越智能搜索和其他的服务，另外跟大家分享数据的潜力是无限的，依靠大家的聪明才智会想出很好的办法，借助现在已经有的存储查询技术，达到自己想要的结果。

　　责任编辑：yayo

JIFANG360.com - 机房360

谷雪梅： 数据的应用价值及相关技术

谷雪梅：数据的应用价值及相关技术