机房360首页
当前位置:首页 » 大数据 » 大数据热潮的分析与审视

大数据热潮的分析与审视

来源:文章摘自《自然辩证法研究》2015年9期 作者:清华大学孙辰朔、万剑锋、刘山松 更新时间:2015/10/8 14:28:14

摘要:大数据热潮方兴未艾,但若要探究何谓大数据的问题以及大数据现象何以如此兴盛的原因,我们的眼光就不仅仅只停留在它时下的具体表征上,还要对产生它的理论根源做深入分析。大数据,冠之大于数据也。从造词法的角度看,它必然与数和数据有关。因此,如果要将大数据的历史脉络梳理清晰,可以以数和数据为线索。

  一、大数据的历史溯源

  1. 大数据,首先是源于数的概念

  数作为人类认知自然世界的载体和产物,贯穿于人类历史发展的各个阶段。从古希腊唯物主义哲学家阿那克西曼德开始使用“本原”一词,到泰勒斯提出“万物源于水”,人类逐渐摒弃玄异,开始借助经验观察和理性解释看待世间万物,这种理性思维的萌芽为数的产生提供了前提。毕达哥拉斯学派所持“数即万物”的思想,以及创立基于数的自然哲学,实际上是把数看作了世界万物的本源。之后形成的柏拉图主义、唯名论等,也将数提升到本体论的高度。同样地,中国古代文明中诸如道家学派“道生一,一生二,二生三,三生万物”,《易经》中关于天地“天一、地二、天三、地四”,《论语》中关于为人处世“益者三友、损者三友”,这些将数字赋予意义的说法,譬如,“一”与宇宙本源,“二”与阴阳论,“三六九”与等级衡量,虽然带有一定神秘主义色彩,但足以见得数对古人世界观的巨大影响。可以说,数在人类了解自然世界、理解客观存在的过程中扮演了极其重要的角色,数的出现为人类提供了理性和正确认知世界的方法论雏形,也是数据与大数据的演化开端。

  2. 大数据,更是源于数据的概念

  相比古代文明对于数的认知模糊而虚幻,随着自然哲学的发展,特别是将数据融入科学研究范式的定量研究方法出现后,人们将客观事物用数据表征和分析,逐渐发现了量变质变规律,使万物源于数的本体思想开始变得清晰和具体。例如,物理学家伽利略在天文学上做的定量观测,可为航海者测算精度;化学家拉瓦锡基于定量分析提出的物质不灭原理;生物学家孟德尔根据实验数据推导出的遗传定律等。这些实例充分说明,以科学数据为媒介的定量描述正是奠定现代科学研究的基础。

  二十世纪五十年代以来,随着电子计算机的诞生,人类社会步入信息化时代,“把现象转变为可制表分析量化形式的过程”〔4〕104,即数据化成为这个时期的重要标志。进入二十一世纪,人们将过去积累的大量观测数据、理论仿真数据当作研究对象,通过探究其内在统计规律,挖掘数据潜在价值,形成了崭新的数据科学,其在与其他领域相互交融的过程中,催生了一批新的研究方向,如生物信息学、计算社会学等交叉学科应运而生。大数据正是在这个背景下被推出的新兴概念,关于它的定义,目前学术界关于这个问题只形成了几种典型概念,但尚未达成共识。其中比较有代表性的“5V”理论指出,“大数据是无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集,具有规模性(Volume)、多样性(Variety)、高速性(Velocity)、精确性(Veracity)和价值性(Value)这五大特点”。无论在哪种定义下,大数据的概念都是源于技术层面而远远超越技术层面的,即先从技术角度解释数据与大数据的区别,再谈大数据的特点及带来的变革。后者往往包含其带给人类生活物质世界的巨大影响,以及带来的一场以数据化思维探究事物之间的关联性而非因果性、舍精确性而求复杂性的思维革命。

  3. 大数据诞生:自然哲学演化的必然结果

  从唯物辩证法基本范畴角度来看,如果说大数据是信息科学与商业价值邂逅而产生的偶然结果,那么其背后蕴含的世界观、生活方式、思维方式的转变,在人类社会发展历程中出现却是必然的。首先,数作为理性思维的工具替代超自然论是人类认知世界方法进步的必然结果。古希腊自然哲学的理性之光,尽管还有些微弱,但从根本上照亮了一条指引后世的正确道路,把人类从愚昧和玄异中解放出来。继而,数据成为定量精确的描述语言是自然科学研究发展的必然结果。“从科学技术发展历史来看,科学数据之所以成为重要的研究手段,源于其精确性、一致性和易交流性的特征”〔2〕39。最后,随着历史数据的累积与信息科学的不断发展,人们开始寻找一种分析和利用大量数据的新方法,大数据的最终出现有着历史的必然性。

  二、大数据热潮的成因探究

  从数到数据,再从数据到大数据,大数据概念的形成可以在自然哲学演化的历史长河中找到根基。时至今日,虽然科学界对大数据还尚未形成广泛认同的统一认识,但其掀起的热潮却迅速蔓延于人类生活的物质世界,更在主观世界引起了思维革命。然而,从科学史的角度来看,很多对后世产生深远影响的科学研究成果,往往经历了十几年甚至几十年的发展和演化。以量子力学为例,从二十世纪初普朗克提出黑体辐射定律开始,到狄拉克提出量子电动力学的原型为止,其初步建立历时近三十年,为其做出贡献的不乏AlbertEinstein、ErwinSchrodinger等伟大的物理学家,且至今仍有建立在这些基础之上的科学研究,譬如量子计算和量子控制。大数据作为新兴概念面世未久却有如此之大的影响,是哪些因素所引致?

  1. 信息科学为大数据热潮拉开帷幕

  大数据源于信息科学,它的热潮序幕正是在近十年来信息科学迅猛发展的背景下拉开的。首先是作为支撑技术与基础平台的云计算,其在海量数据存储、分析与管理等方面提供的技术支撑〔5〕152,为大数据的存在提供了科学前提。二是源于一批大数据处理工具的诞生,使得人们开始利用数据挖掘知识。美国《连线》杂志主编安德森就曾指出,“60年前计算机使得信息可读,20年前因特网使得信息可达,10年前搜索引擎将互联网变成一个数据库;如今,像谷歌这样的公司仿佛正在一个巨型的人类社会实验室里处理有史以来最多的数据”〔6〕。这段话说明,大数据产生的源头在信息科学,正是后者近些年来的蓬勃发展为大数据热潮打下了基础。

  2. 新方法论构成大数据热潮的表现形式

  大数据诞生于信息科学的摇篮之中,而由它所引发的一系列革命却远远超越信息科学的范畴。例如,在谈到其对科学研究方法的影响时,有院士认为“大数据引起了人们对科学研究方法论的重新审视,同时正在引发科学研究思维与方法的一场革命”〔7〕649。一言以蔽之,大数据之所以能使人眼前一亮,关键在于它引起的方法论变革,可以主要归纳为两个方面。

  一是从因果性到相关性。科学向来与因果有着不解之缘,从古希腊哲学家亚里士多德的“四因说”,到现代信息论的因果观;从解析宏观物体运动规律的经典力学,到揭示微观粒子运动规律的量子力学,科学技术就是为世间万物寻找因和果的方法论。然而,大数据引发思维革命的强劲之处,正在于其不再把小数据时代白箱的因果关系奉为金科玉律,而把关注焦点置于获得黑箱输入输出的相关关系。这种变革产生的原因是,与小数据时代数据精确且结构单一不同,大数据的多源异构、冗余稀疏性质,使得要理清所有事物的因果关系几乎成为不可能事件。当人们退而求其次地选择黑箱时,发现了一种新的观察世界的方法。“相关关系很有用,不仅仅是因为它能为我们提供新视角,而且提供的视角都很清晰;而一旦把因果关系考虑进来,这些视角就有可能被蒙蔽”〔4〕88。通过先进处理技术探索海量数据之间的关系,可以构筑一个更清晰更透明的世界,这是大数据带来的第一个方法论变革。

  二是从精确性到复杂性。对于小数据而言,最重要的是标准统一与精确绝对;而大数据是一门集复杂性、多样性为一体的方法论。这就如同中药与西药在认知论上有所区别,最终导致了治疗方法论的差异。前者扎根于中国古代哲学思想,基于宏观经验,强调整体与混杂,形成了以辨证论治为治疗特点的中医理论体系〔8〕3。后者基于亚里士多德的生物哲学,讲究定量与精确,逐渐形成了生物医学体系。事实上,大数据更提倡融合这两种模式的优势,即以定量的数据化思维为蓝本,加以多样性与复杂性,带领人们进入一片尚未涉足的领域。“相比依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事实的真相”〔4〕46,阐述的就是这个道理,这是大数据带来的第二个方法论变革。

本文地址:http://www.jifang360.com/news/2015108/n034573025.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片