大数据带来的新价值来源_机房360

摘要：大数据最诱人或最可怕的地方在于，一旦数据科学家找到了足以应对海量数据的强大的处理能力，大数据本身一定具备的、全新却又无从预知的某种东西就会显现。

　　大数据最诱人或最可怕的地方在于，一旦数据科学家找到了足以应对海量数据的强大的处理能力，大数据本身一定具备的、全新却又无从预知的某种东西就会显现。这些现代数据的挖掘者将从我们从未注意过的日常行为中提取出与黄金、铝土矿或钽类似的数字等价物。

　　从分析的角度看，数量可观到足以被称为“大”的数据意味着我们从数据中获取见解的方式发生了构造性的转变。近半个世纪以来，我们一直在生产和搜集数字数据。因此，数据搜集并不是一个新现象。在电子计算发展的早期，大部分数据都已被结构化，这就意味着数据已预先格式化，并按照一定的顺序组织为离散单位。数据分析者通过关键词搜索数据，并将之分类和过滤为有意义的子单元。电子表格和数据库就是计算世界中我们肉眼看不见的基础。它们形成了数据生产和使用的组织矩阵。例如，数据分析师可以有效地创建一个相对简单的查询，在没有丢失大量重要资料的前提下对数据进行整合、读取和分析。这一过程我们称之为信息的结构化。报税表就是结构化的数据信息。珠子商店的库存信息也一样，尽管数以百万计的珠子可能有上千个不同的种类。100家珠子加盟店的库存信息汇总起来的数据量不可谓不大，但它们依然属于结构化的数据。因此，与结构紧密相关的是数据池的组织方式而非其大小。尽管构成我们今天数位生活的大部分数据仍然是结构化的，但是相比非结构化数据的迁移规模，它们只能是小巫见大巫了。

　　非结构化数据是数据分析者心中的宝藏，因为它意味着有待开发的巨大资源。比如，一张数码照片是非结构化的数据，数字文档、推特、博客文章、音频文件和数字视频莫不如是。据估计，目前网上多达90%的内容都是非结构化的数据。这也是很多公司试图更有效地挖掘这一“宝藏”的原因。举例来说，公司希望，如果我们在某一社交媒体软件上传一张数码照片，那么这张照片将自动生成这家公司能从中获利、有一定数量的结构化数据，诸如上传照片的账户、发布的时间和日期、添加的标签、点赞的其他账户以及元数据。然而，大多数公司却无法自动识别图像本身的内容。照片的像素阵列可能有它的组织性，但是这些组织性信息并不能显示照片的具体内容究竟是一头大象、一颗洋葱还是一栋摩天大楼。

　　假设有一个十几岁的女孩和她的朋友一起在一家社交媒体网站上上传了一条如何玩转滑板的视频，并在发布时添加了“滑板”的标签。为了对她和她的行为习惯有所了解，拥有该站点服务器的社交媒体公司会通过登入上传的文件类型(比如通过识别文件命名协议，像是.avi或者H.264)自动检测到她发布的视频文件。这家公司继而会将这些信息添加到有关“她”的数据库中(诸如姓名、电子邮件、“好友”的电子邮件、“好友”的数量等)。所有这些信息都是结构化的，但她发布的视频的内容是完全非结构化的。也就是说，内置于社交软件的分析引擎并不能识别它究竟是一条有关滑板的还是有关其他内容的视频文件，对具体的视频信息内容一无所知。实际上，这一条视频包含着数百万条信息：从她的衬衫颜色、拍摄当天的天气到现场其他人的名字，再到滑板玩家脚上的运动鞋品牌等。假如这家社交媒体公司想要从她以及其他人的滑板视频中获得一些真正有价值的信息，并将之出售给一家滑板公司，那么它就需要有人专门观看这些视频，从中识别并确定出现在视频中的运动鞋的款式或品牌。然后，他们需要录入这条滑板视频和发布到该站点的每一个滑板视频的相关数据。毫无疑问，以这样的方式挖掘非结构化的数据“宝藏”，费时费钱。况且，大多数公司根本无力承担为了能发现某种运动鞋的潮流趋势或是滑板玩家的购买习惯而使用人力进行搜索、汇总和分析数十亿条视频片段(其中大多与运动鞋无关)的费用。或许，这家社交媒体公司还想从网站视频中发现某些可以出售给猫粮公司的有价值的信息。如此一来，它也需要雇用专人查看数百万条“猫”的视频……以此类推。显然，这在经济上根本行不通。

　　尽管一家社交媒体公司可能无法从滑板视频中搜集太多信息，但它的确还有其他资源可用。数据大多自带隐藏的伴随数据——元数据。一张用智能手机拍摄并上传至社交媒体网站的数码照片不仅包含图片的文件信息与上传的时间和地点，还极有可能包含图像文件的exif数据(诸如照片拍摄者使用的相机或智能手机型号、镜头的品牌、分辨率、相机设置等)和拍摄地点的地理标记信息(如果相机或智能手机有内置的全球定位系统，事实上，大多是有的)。如果我们的滑板玩家在上传的图片中还标记了其他人，那么这家社交媒体公司就可以知道她和谁在哪里聚会。当然，她和朋友的数据还可以被交叉汇总，一幅“众生相”即可瞬间诞生。对掌握她个人信息的社交媒体公司而言，从她上传的视频中得到的数据经历了一个从非结构化到结构化、从混乱到有序的变化过程。

　　正如国际数据集团在其2011年的报告题目中所描述的那样：“大数据不是一种创建的内容，也不是一种数据使用，而是一种对所有关联数据的分析。”人们可以从这一描述中感受到大数据的影响。也就是说，数据不再被单独视之，而是有关数据的数据成了新价值的来源。

　　这也是很多人认为共享汽车公司优步是一家大数据公司而非一家汽车服务公司的原因。优步通过其在智能手机上的应用程序、数据库管理系统以及反馈结构生成了有关其客户、司机以及他们个人习惯的大量数据。优步可以将这些数据出售给那些意图了解人们的出行时间、目的地以及人们有可能需要的其他服务的公司或实体。譬如，一个交通管理小组肯定想要从一年当中每一天人们实时使用汽车的确切模式中获取重要信息。

　　从某种意义上来说，从结构化数据到非结构化数据的迁移就是从事实到意义的转变。在一条滑板视频上传之后，自动化的数据挖掘引擎会告诉我们当天室外温度约19℃，下着毛毛雨。然而，这些信息并不能传达出滑板玩家本身的勇气与投入。为此，我们需要另一个层面的数据处理。

　　光学字符识别、面部识别、机器学习、自然语言处理、计算机视觉、神经网络……所有这些都属于人工智能的分支领域。正是它们带领着我们无比接近自动化系统中前所未有的相变。例如，如果使用社交媒体软件的滑板玩家在上传照片的同时也启用了面部识别软件，那么她和朋友们的面部特征将会被记忆和识别。这就意味着只要她上传一张她和朋友们面部出镜的照片，不管她有没有添加标签、写上名字，社交媒体公司都可以在第一时间直接识别他们。另外，不论照片上的她是否戴着帽子或眼镜，有没有把头发扎起来，都不会影响该软件对她和她的朋友的有效识别。

　　以各种形式兴起和扩展的人工智能正是大数据崛起后的直接后果。一旦公司开始存储海量可用超级计算机进行处理的数据，人工智能便从一个小众的研究领域发展成为拥有海量数据的大公司(谷歌、微软、苹果、亚马逊和脸书)的未来主战场。但需要留意的是，它们和优步一样并非一家家的“数据”公司。换言之，数据搜集只是它们主要业务的副产品。然而，对数据的购买、出售、挖掘和分析现在是，未来更是它们自身商业模式的生命线。抛开灾变论者对眼中梦魇一般的电子人的担忧，当前和下一波技术革命浪潮一定涉及人工智能平台。从便捷的实时语言翻译到预测性管制的反乌托邦，人工智能将以它自身也无从预测的方式改变我们的生活。毫无疑问，我们使用的手机、电脑和各种应用程序会自动生成新的资源储备，而无论我们是否意识到，这些资源都会使他人从中获利。出租车司机将我们从一处送至另一处。看上去，优步的司机和出租车司机没有区别。然而事实上，优步真正获取的是有关我们的生活习惯、行为模式以及个人喜好的替代数据。这些数据恰是它保存在服务器上的巨大“宝藏”。随着海量数据集使机器学习的能力越来越强大，人类是否真的已经处于系统相变的边缘，处于从嵌套脚本相变为意识渗透的边缘?

　　无论是在蚂蚁或细菌生存的微观物理学中，还是数据变“大”的宏观物理学中，我们周遭的世界因其尺度与规模的不同而遵循着截然不同的物理规律。我们原本对于日常事物的认知被颠覆：结伴打车回家成了数据集，一段午后自带跑步路线图的锻炼却成了泄露秘密军事基地地理位置信息的出口，尺寸明显不同的数码图片看上去却毫无差别，一个细菌真的可以同时存在于两个位置。然而，或许最引人注目之处在于，这一切都源于硅……也就是智能。尺度与规模就是如此神奇。因和果之间似乎不再有必然的联系。

　　责任编辑：张华

JIFANG360.com - 机房360

大数据带来的新价值来源