大数据的国家战略_机房360_中国绿色数据中心

摘要：我们正在经历一场由大数据引发的社会革命。人类生活中的一切活动，每次购买，每次对话，每次社交，每次移动，甚至我们的身份和身体的变化都成为信息收集、存储、分析和使用的对象。多样化的数据、巨大的数据量以及它们潜在的商业价值已经开始对社会经济和公民隐私产生深远的影响。

　　我们正在经历一场由大数据引发的社会革命。人类生活中的一切活动，每次购买，每次对话，每次社交，每次移动，甚至我们的身份和身体的变化都成为信息收集、存储、分析和使用的对象。多样化的数据、巨大的数据量以及它们潜在的商业价值已经开始对社会经济和公民隐私产生深远的影响。

　　当大数据快速向社会的各个方面渗透时，政府与公民、政府与企业、政府与政府之间的关系正在发生变化。如同任何一种新科学(如核物理)出现一样，政策会对这门科学的应用产生深远的影响。科学既能造福人类也可能危害人类，大数据也不例外。有远见的国家战略和政策一定是在保护公民隐私权的前提下，加速数据信息的自由流动，鼓励创新，催生新产业，创造新就业，进而促进国家的经济繁荣。

　　从借鉴比较国外政府的经验入手，研究制定适合国情的大数据发展战略和发展路径，是继续深化政务电子化，加快实现中央提出的健全国家治理体系与治理能力现代化的明智之举。

　　美国的大数据战略布局

　　以美国为代表的发达国家在推进大数据应用上已形成从发展战略、法律框架到行动计划的完整布局。2009年1月21日，现任美国总统奥巴马宣誓就职后的第一个工作日就签发了“开放政府”备忘录，指导新一届行政当局从开放政府数据源、建设开放型政府入手，以数字革命带动政府变革。“开放政府”的目的简洁明了：改进公众服务，提升公众信任，更有效管理公共资源和增进政府责任。

　　互联网时代的开放型政府，首先必须开放政府数据。5月20日，美国政府开放数据的门户(Data.gov)上线，第一批47个政府数据源向社会开放。2009年12月8日，奥巴马签发“开放政府数据”行政令，要求在45天内所有政府部门无一例外必须向社会开放3个有价值的数据源。经过12个月的运行，Data.gov升级到2.0。政府开放的数据源达到2.5万个。2011年9月20日，白宫正式启动“开放政府国家行动计划1.0”，首批26个开放政府项目向社会公开。2012年3月29日，在公开政府数据源的22个月后，启动联邦政府大数据行动计划，宣布了由政府资助的分布在13个部委的84个大数据项目，其中多数项目基于不同部门的开放数据源，联合民间企业协同展开，如癌症和心血管疾病研究，等等。2013年5月9日，总统签署开放数据政策(Open Data Policy)。2013年12月5日，“开放政府国家行动计划”进入 2.0，又添加23个政府开放项目。

　　在逐步扩大开放政府数据源，启动开放政府项目和部署政府主导的大数据项目后，2014年1月17日，奥巴马指定白宫法律总顾问波德斯塔领导行政当局与总统科技顾问委员会合作，综合评估“大数据”和公民隐私产生交集后已经带来和将会带来的新问题。作为综合研究的一部分，奥巴马要求超前思考“大数据”对人类社会的影响，重点研究现有技术和未来技术会对现行法律带来哪些挑战，哪些法律和政策需要修订或制定以适应变化，评估探讨“大数据”会从哪些方面影响我们的生活方式和工作方式，影响和改变政府与公民之间的关系。美国总统希望得到建议，如何通过政府和民企之间的合作推动创新，在最大限度降低公民隐私风险的前提下，保证信息的自由流动，创造更多的商业机会和就业机会。

　　2014年3月，美国政府向全社会发出公开征询，希望民众从不同层面提出看法，为政府的大数据战略献计献策。征询从五个维度展开：

　　第一，收集、存储、分析和使用大数据对公共政策的影响是什么?例如，当政府利用大数据后，美国目前旨在保护消费者隐私权的法律框架和隐私保护策略，能否化解大数据分析带来的新问题?

　　第二，如果政府采取更多的举措，给大数据的科学研究更多的资助，能为政府带来哪些可量化的收益?哪些类型的大数据分析技术会对公共政策带来新挑战?有哪些政府部门和特定行业在使用大数据技术时，应该被政府和公众更多地关注?

　　第三，哪些关键技术和技术趋势将影响大数据的采集、存储、分析和使用?哪些新技术或新做法，在保护隐私的同时能实现大数据的有效利用?

　　第四，监管政府和私营部门处理大数据的政策框架及法规应该有何区别?例如，执法部门、政府服务、商业、学术研究，等等。

　　第五，跨行政区、跨国家使用大数据会带来哪些法律问题?如当前的国际法律、法规或规范的适当性?

　　2014年5月，由美国总统科技顾问委员会执笔的报告提交奥巴马。报告提出五大建议：

　　第一，政府制定政策时应更多关注大数据的实际使用，较少关注数据收集和分析。

　　第二，在政府各个层面的政策规范制定中，不应关联特定技术而应指明希望得到的结果。

　　第三，为推进大数据技术的应用，白宫科技政策办公室和政府网络信息技术研发部门须大力合作，强化国家在用于保护隐私技术方面的研究，加强与隐私相关的社会科学的研究。

　　第四，白宫科技政策办公室还应与高等教育和职业教育合作，鼓励和增加培养隐私保护专业人员。

　　第五，美国应当在立法上保持在国际上的领先地位，加快修订国内法律法规，鼓励采用新方法新技术应对新的隐私需求。

　　美国总统科技顾问委员会建议：新的政策应该侧重于研究对个人信息的具体用途是否会对个人隐私产生不利影响;政策制定的重点应放在利用数据的结果上，也即用个人数据分析在“做什么”，而不是“如何做”，以避免政策成为技术进步的障碍;政策框架应能加快开发商业化大数据技术，这些技术不仅包括新的研究领域和潜在的技术选项，而且应包含能消除对隐私权不利影响的新技术新方法。通过政策的引导，能更有效地利用大数据技术，让美国在立法和商业上在全球继续保持领先地位。只有解除对个人隐私受到侵犯的担忧，才能最大限度地利用大数据的好处。最后，该委员会呼吁，更多的科学和专业人士共同努力，以充分尊重隐私的方式，开发和使用大数据技术。

　　有分析人士认为，美国政府的经验可以给其他国家以启示。

　　首先，国家的大数据发展战略不仅仅是一个技术发展纲要。尽管它针对一门新兴科学和相关技术，但应该重点研究此项技术会给未来社会和公民生活带来何种冲击，以完善法律框架、政策框架为要，配之以恰当的财政计划、项目计划及合作计划。

　　第二，政府是集数据收集、数据使用和公民隐私保护为一体的最终仲裁者，所以必须充分考虑科学与公民、科学与政府、科学与工业以及科学与科技之间的互动关系，制定的法律政策既要能鼓励利用这项技术更多造福人类，同时又能抑制利用其危害人类。

　　第三，政府资助的重点应放在科学研究(如数据科学)，应当用诸如合同或购买的方式激发鼓励民间企业开发应用技术。

　　第四，科学和技术是现代文明的基础，历史上每次重大科学技术的出现，都引发了巨大的社会变革，因此，政府在关注特定科学和技术的同时，要资助和鼓励相关社会科学的探索争鸣。

　　目前无论从哪个角度看，大数据仍处在初始阶段。尽管企业和媒体对大数据时代的到来表现出空前热情，但政策制定者、社会法律学者和科技人士应当对此保持清醒并对已经面临的和将会出现的问题有所准备。

　　出台推动大数据产业链的导向性政策

　　今天数据积累的速度远远超过数据能被处理和被利用的速度。2013年全球产生的数据中约22%有可能被用作分析，但结果只有5%实际被分析利用。预计到2017年，全球又会积累超过4倍于今天的数据量。这必然导致存储设备、数据中心和电力消耗的快速膨胀。绝大部分数据在分立分治的系统中快速堆积，这些数据互不相识互不来往，除了消耗资源，尚未产生任何价值。纵向累积的、缺乏多维度关联的数据的确越来越大。但这并不是“大数据”，只不过是“数据大”而已。

　　在我们刚刚步入大数据社会时，不妨做一些前瞻性思考。比如，应当从物理层面审视和规划数据如何收集、存储、处理、传输和共享;从数字产品生产层面考虑研发什么样的分析工具、使用什么样的软件平台和基于什么样的环境(如开放代码);从使用层面考虑引进培养什么样的人才和训练什么技能，以及在更广义的范畴考虑如何形成大数据思维和文化，大数据将会对未来企业与人、政府与人的关系有何影响，等等。

　　大数据社会要求人们学会用一种全新的方式打量这个世界，工具、技术、技能和人才缺一不可。要及早部署和投资在以下方面：

　　数据分析工具和软件平台：人工智能(AI)技术，自然语言处理、模式识别、机器学习、预测分析、数据熔炼、信号处理和元数据管理，等等;大数据要求同时在数十数百甚至数千台服务器中进行大规模并行运算，目前使用的大多数关系数据库管理系统、桌面数据库和可视化软件包已很难满足需求，因此仍须关注MPP数据库、分布式文件及分布式数据库的发展。

　　数据分析人才和算法模型：培养训练会使用大数据分析语言工具的人才只是整个需求的表层。再深入一层，要让大数据发挥作用，跨行业顾问、分析师和有行业经验的编程人员缺一不可。融合技术和艺术，能将“抽象”概念形象化的语言、工具及人才尚不多见。没有数学模型很难想象数据如何“大”起来，数据只有通过算法模型才能被电脑解读，但数学模型在政治、社会和金融等领域只能逼近现实而无法再现现实。所以如何建立能精准模拟世间万物的数学模型，是集理论研究与应用开发为一体的重要地带。

　　把数据质量的管控权交给使用端

　　当人类让数字讲话、把决策权更多移交给“大数据”时，第一个重要问题就是数据的质量。“垃圾进、垃圾出”这句话早在50年前就被用来描述自动化处理数据时的质量问题，此话今天依然有效。研究表明，知识工作者平均花近一半的时间在寻找数据、验明数据、修正数据、剔除不靠谱的数据。数据质量问题可能发生在收集、存储、处理、传输和分享整个过程中的任何一个环节，但第一个关口仍是数据录入端(记录或采集口)。大多数情况下，数据输入端很少知道数据使用端为什么需要这种数据，用这些数据做什么。当使用端发现问题时,除非是系统性问题，大多被随手解决，少有追根溯源式纠正问题。

　　那么数据的质量如何保证，谁应对质量负责呢?解决数据质量的问题，更多是在管理而不在技术。行之有效的方法是把数据质量的管控权更多地转给使用端(业务条块)，建立数据“原料方”和“生产方”之间直接的客服关系，形成制度和方法从数据源头和元数据层面控制质量。

　　进入大数据时代，一个“大”字很容易掩盖一切。现实情况是，我们可用的数据越来越多样化，但其中大部分的数据是使用者在只知其来源不知其如何产生、质量被如何管控的情况下被使用的。因此，要想让人们信赖基于大数据的决策，对所有数据源提前测试和试验便必不可少。不管数据是大是小，真实可靠最重要。只有逼真的模型、精准的分析，才能体现大数据的价值。过去没有数据是瞎子摸象，现在数据太多是大海捞针。大数据很容易使人们的关注点从因果关系移动到相关关系。大数据分析的结果常常能帮助人们回答“是什么”而不是“为什么”。肤浅地使用大数据，有可能引导人们止步于探究事件背后的深层原因，满足于了解现象之间的联系并利用这种联系得出似对非对的解读。

　　在可预见的未来，我们面临诸多挑战：技术挑战会出现在从信息搜索、数据捕捉、存储、传输、共享、分析直到可视化全过程。另外必须面对大数据对社会人文领域的挑战。法律层面，更开放的网络会带来更多的数据窃用、滥用和非法监控。一旦强大的新型数学数据工具出现，如何控制它不至于作恶?大数据技术日新月异，由大数据、深度学习引发的新一轮人工智能技术会对人类未来造成什么样的冲击，是摆在科学和社会学者面前的另一个重大课题。实事求是地讲，不论拥抱还是排斥这种新形式的数据科学，“精灵”都再也装不回瓶子里了。

　　责任编辑：DJ编辑

JIFANG360.com - 机房360

大数据的国家战略