数据之舞：大数据与数据挖掘_机房360

摘要：数据不是信息，而是有待理解的原材料。但有一件事是确定无疑的：当NSA为了从其海量数据中“挖掘”出信息，耗资数十亿改善新手段时，它正受益于陡然降落的计算机存储和处理价格。

　　头脑里的大数据

　　人脑是终极的计算机器，也是终极的大数据困境，因为在独立的神经元之间有无数可能的连接。人类连接组项目是一项雄心勃勃地试图绘制出不同脑区之间相互作用的计划。

　　除了连接组，还有很多充满数据的“组”：

　　基因组：由DNA编码的，或者由RNA编码的(比如病毒)——全部基因信息

　　转录组：由一个有机体的DNA产生的全套RNA“读数”

　　蛋白质组：所有可以用基因表达的蛋白质

　　代谢组：一个有机体新陈代谢过程中的所有小分子，包括中间产物和最终产物

　　连接组项目的目标是“从1,200位神经健康的人身上收集先进的神经影像数据，以及认知、行为和人口数据”，圣路易斯市华盛顿大学的连接组项目办事处的信息学主任丹尼尔·马库斯(Daniel Marcus)说。

　　项目使用三种磁共振造影观察脑的结构、功能和连接。根据马库斯的预期，两年之后数据收集工作完成之时，连接组研究人员将埋首于大约100万G数据。

　　20名健康人类受试者处于休息状态下接受核磁共振扫描，得到的大脑皮层不同区域间新陈代谢活动的关联关系，并用不同的颜色表现出来。黄色和红色区域在功能上与右半脑顶叶中的“种子”位置(右上角黄斑)相关。绿色和蓝色区域则与之关联较弱或者根本没有关联。图片来源：M.F.Glasser and S.M.Smith

　　绘制脑区分布图的“分区”是一项关键的任务，这些脑区最早于两到三世纪之前通过对少量大脑染色被识别出来。“我们将拥有1,200个人的数据，”马库斯说，“因此我们可以观察个人之间脑区分布的差别，以及脑区之间是如何关联的。”

　　为了识别脑区之间的连接，马库斯说，“我们在受试者休息时获取的扫描图中，观察脑中的自发活动在不同区域之间有何关联。”比如，如果区域A和区域B自发地以每秒18个周期的频率产生脑波，“这就说明它们处于同一网络中。”马库斯说。“我们将利用整个大脑中的这些关联数据创建一个表现出脑中的每一个点如何与其他每一个点关联的矩阵。”(这些点将比磁共振成像无法“看到”的细胞大得多。)

　　星系动物园：把天空转包给大众

　　星系动物园项目打破了大数据的规矩：它没有对数据进行大规模的计算机数据挖掘，而是把图像交给活跃的志愿者，由他们对星系做基础性的分类。该项目2007年启动于英国牛津，当时天文学家凯文·沙文斯基(Kevin Schawinski)刚刚蹬着眼睛瞧完了斯隆数字巡天计划拍摄的5万张图片。

　　阿拉巴马大学天文学教授、星系动物园科学团队成员威廉·基尔(William Keel)说，沙文斯基的导师建议他完成95万张图像。“他的眼睛累得快要掉出眼窝了，便去了一家酒馆。他在那里遇到了克里斯·林托特(Chris Lintott)。两人以经典的方式，在一张餐巾的背面画出了星系动物园的网络结构。”

　　星系是一个经典的大数据问题：一台最先进的望远镜扫描整个天空，可能会看到2000亿个这样的恒星世界。然而，“一系列与宇宙学和星系统计学相关的问题可以通过让许多人做相当简单的分类工作得以解决。”基尔说，“五分钟的辅导过后，分类便是一项琐碎的工作，直到今日也并不适合以算法实现。”

　　星系动物园的启动相当成功，用户流量让一台服务器瘫痪了，基尔说。

　　斯隆巡天的全部95万张图片平均每张被看过60次之后，动物园的管理者们转向了更大规模的巡天数据。科学受益匪浅，基尔说。“我的很多重要成果都来自人们发现的奇怪物体，”包括背光星系。

　　这是星系动物园志愿者们发现的差不多2000个背光星系之一。它被其后方的另一个星系照亮。来自背后的光令前景星系中的尘埃清晰可辨。星际尘埃在恒星的形成中扮演了关键的角色，但它本身也是由恒星制造的，因此检测其数量和位置对于了解星系的历史至关重要。图片来源：WIYN 望远镜, Anna Manning, Chris Lintott, William Keel

　　星系动物园依赖统计学、众多观察者以及处理、检查数据的逻辑。假如观察某个特定星系的人增加时，而认为它是椭圆星系的人数比例保持不变，这个星系就不必再被观察了。

　　然而，对一些稀有的物体，基尔说，“你可能需要40至50名观察者。”

　　大众科学正在发展自己的法则，基尔补充道。志愿者们的工作“已经对一个真实存在的重大问题做出了贡献，是现存的任何软件都无法实现的。鼠标的点击不该被浪费。”

　　这种动物园方法在zooniverse.org 网站上得到了复制和优化。这是一个运行着大约20项目的机构，这些项目的处理对象包括热带气旋、火星表面和船只航行日志上的气象数据。

　　最终，软件可能会取代志愿者，基尔说。但是计算机和人类之间的界线是可互换的。比如说超新星动物园项目在软件学会了任务之后就关闭了。

　　我们惊讶地得知志愿者们积累的庞大数据是计算机学习分类的理想材料。“一些星系动物园用户真的很反感这一点。”基尔说，“他们对于自己的点击被用来训练软件表达出明显的怨恨。但是我们说，不要浪费点击。如果某人带来了同样有效的新算法，人们就不必做那些事情了。”

　　学习的渴望

　　人们长久以来改进对图像和语音的模式识别的努力已经受益于更多的训练，威斯康星大学麦迪逊分校的克拉考尔说。“它不仅仅是有所改善，更是有了实际的效果。5到10年之前，iPhone上的Siri是个想都不敢想的点子，语音识别一塌糊涂。现在我们拥有了这样一批庞大的数据来训练算法，忽然之间它们就管用了。”

　　随着数据及通讯价格持续下跌，新的思路和方法应运而生。如果你想了解你家中每一件设备消耗了多少水和能量，麦克阿瑟奖获得者西瓦塔克·帕特尔(Shwetak Patel)有个解决方案：用无线传感器识别每一台设备的唯一数字签名。帕特尔的智能算法配合外挂传感器，以低廉的成本找到耗电多的电器。位于加利福尼亚州海沃德市的这个家庭惊讶地得知，录像机消耗了他们家11%的电力。图片来源：Peter Menzel/ The Human Face of Big Data

　　等到处理能力一次相对较小的改变令结果出现突破性的进展，克拉考尔补充道，大数据的应用可能会经历一次“相变”。

　　“大数据”是一个相对的说法，不是绝对的，克拉考尔指出。“大数据可以被视作一种比率—我们能计算的数据比上我们必须计算的数据。大数据一直存在。如果你想一下收集行星位置数据的丹麦天文学家第谷·布拉赫(Tycho Brahe，1546 - 1601)，当时还没有解释行星运动的开普勒理论，因此这个比率是歪曲的。这是那个年代的大数据。”

　　大数据成为问题“是在技术允许我们收集和存储的数据超过了我们对系统精推细研的能力之后。”克拉考尔说。

　　我们好奇，当软件继续在大到无法想象的数据库上执行复杂计算，以此为基础在科学、商业和安全领域制定决策，我们是不是把过多的权力交给了机器。在我们无法觑探之处，决策在没人理解输入与输出、数据与决策之间的关系的情况下被自动做出。“这正是我所从事的领域，”克拉考尔回应道，“我的研究对象是宇宙中的智能演化，从大爆炸到大脑。我毫不怀疑你说的。”

　　责任编辑：余芯

[1] [2]

JIFANG360.com - 机房360

数据之舞：大数据与数据挖掘