机房360首页
当前位置:首页 » 大数据 » 大数据分析的光荣与陷阱——从谷歌流感趋势谈起

大数据分析的光荣与陷阱——从谷歌流感趋势谈起

来源:网络来源 作者:机房360 更新时间:2016/3/1 14:02:39

摘要:本文从谷歌流感趋势2009年前后表现差异谈起,讨论了大数据分析容易面临的大数据自大、算法演化、看不见的动机导致数据生成机制变化等陷阱,以及对我国大数据产业发展的借鉴。本文认为,为健康发展大数据产业,我国需要防范大数据自大风险、推动大数据产业和小数据产业齐头并进,并强化提高大数据透明度、审慎评估大数据质量等方面的努力。

  如今,大数据常常倚重的一个优势,是社交媒体的数据大大丰富了各界对于个体的认知。这一看法常常建立在一个隐含假定之上,就是人们在社交媒体分享的信息都是真实的、自发的、不受评级机构和各类评估机构标准影响的。但是,在互联网时代,人们通过互联网学习的能力大大提高。如果人们通过学习评级机构的标准而相应改变社交媒体的信息,就意味着大数据分析的评估标准已经内生于人们生产的数据中,这时,不通过仔细为人们的行为建模,是难以准确抓住的数据生成机制这类的质变的。

  从数据生成机构来看,他们对待数据的态度也可能发生微妙的变化。例如,过去社交媒体企业记录保存客户信息的动机仅仅是本公司发展业务需要,算法演化也是单纯为了更好地服务消费者。但随着大数据时代的推进,“数据为王”的特征越来越明显,公司逐渐意识到,自己拥有的数据逐渐成为重要的资产。除了可以在一定程度上给使用者植入广告增加收入之外,还可以在社会上产生更为重要的影响力。这时就不能排除数据生成机构存在为了自身的利益,在一定程度上操纵数据的生成与报告的可能性。比如,在Facebook等社交媒体上的民意调查,就有可能对一个国家的政治走向产生影响。而民意调查语言的表述、调查的方式,都可能受到数据生成企业自身利益的影响。

  简而言之,天真地认为数据使用者和数据生成机构都是无意识生产大数据、忽略了人们行为背后趋利避害的动机的大数据统计分析,可能对于数据特征的快速变化迷惑不解,即便看到模型预测表现差,也难以找到行之有效的克服方法。

  前车之鉴

  目前,我国高度重视大数据发展。2015年8月31日,国务院印发《促进大数据发展行动纲要》,系统部署大数据发展工作。《纲要》认为,大数据成为推动经济转型发展的新动力、重塑国家竞争优势的新机遇,和提升政府治理能力的新途径。《纲要》指出,2018年底前,要建成国家政府数据统一开放平台,率先在信用、交通、医疗等重要领域实现公共数据资源合理适度向社会开放。与此相应,近年来多地成立了大数据管理局、业界学界对于大数据的分析利用也予以热烈回应。因此,了解大数据分析的优势与陷阱,对我国的经济发展和实证研究具有极其重要的意义;而GFT项目折射出的大数据使用中可能存在的机会与问题,都值得关注。

  (一) 防范“大数据自大”带来的风险

  GFT案例表明,如果认为大数据可以代替小数据,那么过度拟合问题可以带来巨大的估计误差。这一点在“大众创业、万众创新”的今天尤其需要关注。这是因为大数据作为目前“创新”最闪亮的新元素被高度推崇的,而我国经济处于转型时期的特征,使企业或者机构面对的微观数据不断发生动态变化。如果在数据挖掘中忽略这些变化,往往要面临过度拟合带来的损失。

  例如,互联网金融以大数据计算为业务基础,其健康状况就与这类偏误的严重程度密不可分。 根据中国P2P网贷行业2014年度运营简报和2015年上半年的运营简报,在图一我们可以推算2006年到2004年间和2015年1-5月间月均新增问题平台数,并与2015年6月新增问题平台数作比较

  新增问题平台的大幅增加原因虽然有多方面,但是从数据分析方法的局限是不可忽视的原因。由于还没有合法的数据共享机制,P2P平台在甄别客户质量时,往往只依靠自身渠道和从社交媒体等挖掘的数据,并采用数据挖掘方法建立相应建立模型。在数据分析中,不少P2P平台往往疏于查考自身样本的代表性、也忽略宏观经济数据和其他微观数据所包含的信息。由于互联网金融公司出现时间短、又主要成长于经济繁荣期,如果单单依赖有限的数据渠道,数据挖掘与机器学习过程对新常态下个体行为没有足够的认识,在经济下行时仍然根据历史数据而低估逾期率,导致高估平台健康状况,最终不得不面对问题平台不断增加的局面。

  (二) 大数据和小数据齐头并进大势所趋

  大数据和小数据各有优劣。简而言之,小数据通常不会假定该数据就是总体,因此收集数据前往往需要确定收集数据的目标、根据该目标设计的问卷或者收集方法、确定抽样框。在数据采集后,不同学者往往可以通过将新收集数据与不同数据的交叉验证,来评估数据的可信度。小数据在收集上有变量定义清晰、数据生成机制基本可控、检验评估成本相对较低等优点,但是缺点是数据收集成本高,时间间隔长、颗粒度较粗。

  大数据的优势就包括数据体量大、收集时间短、数据类型丰富,颗粒度很细。但是,由于大数据往往是一些企业和机构经营活动的附带产品,因此并不是通过精心论证的测度工具生成。另外,由于大数据的体量很大,交叉验证数据的可信度、不同学者采用相同数据独立研究以检验数据的前后一致性等工作难度较大。这些特点意味着大数据本身未必有科学研究要求的那样准确、可靠,在数据分析中就需要对大数据适合研究的问题有较清晰的认识。

  在与小数据互为补充推动研究与认知方面,大数据大有可为。将大数据与小数据相结合,可以大大提高数据的颗粒度和预测精度。比如对CDC流感发病率的预测研究发现,将GFT采用的大数据和CDC的历史数据相结合的模型,其预测能力比单独运用大数据或者小数据要好很多。

  大数据往往可以实时生成,对于观察特定社区的动态具有小数据无可替代的优势。比如,美国在“九一一”之后,出于快速准确估计在某个特定小社区活动的人口的需要而启动了“工作单位和家庭住址纵向动态(LEHD)”项目,该项目将人口普查数据、全国公司数据、个人申请失业保险、补贴、纳税等记录联通,可以对社区在短时间内的“新陈代谢”作出较为全面的刻画。

  这类的数据结合研究,对于了解我国社会经济状况的动态变化会十分重要。一个可能的应用是,将城市人口、工作状态、性别、年龄、收入等小数据采集的信息,和实时产生的交通状况相结合,来预测人们的出行特征,来解决城市交通拥堵、治理雾霾等问题。另一个可能的应用是,推动人民银行征信中心个人征信系统数据和民间征信系统大数据的结合,建立高质量的中国个人征信体系。

  另外,我国经济处于转型时期,有不少政策亟需快速评估政策果效。以小数据为基础,利用大数据数据量丰富的优势,可以通过互联网做一些随机实验,来评估一些政策的效果,也是可能的发展方向。

  在过去的十多年中,我国在通过非官方渠道采集小数据、特别是微观实证数据方面取得了长足进展。在多方努力下,更多经过严格科学论证而产生的数据可被公众免费获得并用于研究。例如,北京大学的“中国健康与养老追踪调查”、“中国家庭追踪调查”,都由经济、教育、健康、社会学等多领域的专家协同参与问卷的设计和数据采集的质控。在这些努力下,小数据的生成机制更为透明,交叉验证调查数据的可信度等实证研究的必要步骤也更为可行。

  但是,目前在小数据的收集和使用、政府和有关机构的小数据开放运用方面,我国还有很大推进空间。只有在对涉及我国基本国情的小数据进行充分学习研究之后,我国学界和业界才能对经济政治社会文化等领域的基本状况有较清晰的把握。而这类的把握,是评估大数据质量、大数据可研究问题的关键,对推进大数据产业健康发展有举足轻重的作用。

  因此在政策导向上,为要实现大数据、小数据相得益彰推动经济发展的目标,在促进发展大数据的同时也要大力发展小数据相关产业,推动小数据相关研究与合作,使大数据与小数据齐头并进、互为补充。

  (三) 提高大数据使用的透明度,加强对大数据质量的评估

  大数据面临的透明度问题远比小数据严重。在GFT案例中,Lazer等人指出,谷歌公司从未明确用于搜索的45个关键词是哪些;虽然谷歌工程师在2013年调整了数据算法,但是谷歌并没有公开相应数据、也没有解释这类数据是如何搜集的。我国大数据相关企业的数据,也鲜有学者可以获得并用于做研究的例子。

  与透明度相关的就是大数据分析结果的可复制性问题。由于谷歌以外的研究人员难以获得GFT使用的数据,因此就难以复制、评估采用该数据分析结果的可靠性。因此利用大数据的研究难以形成合力,只能处于案例、个例的状态。

  另外还要注意到,如果数据生成机制不清晰,研究结论难以复制,而算法演化也表明,最终数据往往成为使用者和设计者共同作用的结果。这种数据生成的“黑箱”特征,容易成为企业或者机构操纵数据生成过程和研究报告结果的温床。唯有通过推动大数据的透明化、公开化,我们才能在大数据产业发展之初,建立健康的数据文化。

  因此,在大数据时代,为了更好利用大数据,需要采取相关措施,增加在大数据生成过程的透明度方面的努力。例如,采取措施推进数据生成企业在妥善处理隐私信息后,定期公布大数据随机抽样数据、要求数据生成企业及时公布数据算法的变更,鼓励采用大数据的研究实现可复制性、便于交叉验证等。

  结语

  目前有些流行观点认为,在大数据时代,技术容许人们拥有了总体因此抽样不再重要、另外由于数据挖掘术的进展,只需关心相关关系而不必再关心因果关系。而GFT的实例表明,即便谷歌公司用于GFT计算的是数十亿的观测值,也不能认为谷歌公司拥有了流感人群的总体。误认为数据体量大就拥有了总体,就无法谦卑结合其他渠道的小数据,得到更为稳健的分析结论。而GFT估计的偏误原因,从来都离不开人们的主动的行为– 无论是谷歌公司自己认为的GFT的流行导致更多人使用该搜索、还是Lazer等人认为的算法变化、丢弃异常值。因此,不明白数据生成机理变化的原因而只看相关关系的后果,于谷歌是GFT的计算偏误丢了脸,而对热情地投身于采用大数据到创新、创业中的中国民众和相关机构来说,则可能是不得不面对重大的意外经济损失。

  责任编辑:余芯

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/201631/n690878738.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
转载声明:凡注明来源的文章其内容和图片均为网上转载,非商业用途,如有侵权请告知,会删除。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片