盖瑞·马库斯(Gary Marcus):心理学教授,纽约大学语言和音乐中心主任,著有《吉他的起点:新式音乐家与学习科学》(Guitar Zero:The New Musician and the Science of Learning)《乱乱脑》。
我的意思并非是我们不应该相信大数据,或收集大数据,而是不应该把它当成魔法。虽然几乎所有的领域都受益于精心收集的大型数据集,但太多人甚至是科学家,都过分依赖大数据。从物理学到神经科学,近日,关于了解科学的讨论看起来有一半涉及大数据以及相关工具,比如“维数约简”、“神经网络”、“机器学习算法”和“信息可视化”等。
毫无疑问,大数据是这个时代的主旋律。就在写这篇文章的39分钟前(根据大数据为主的谷歌新闻),戈登·摩尔“对大数据大加赞赏”,45分钟前,麻省理工学院推出了一门大数据在线课程,大数据也被选为“年度最佳商业策略”。在那之前的几个小时,《福布斯》也发布了一篇关于大数据的文章,紧接着关于“大数据科学”的关键词搜索量达到了163 000次。
但是,科学从根本上依然围绕宇宙规律的探索,而大数据并不擅长的一件事就是发现定律。它善于检测相关性,数据集越可靠,发现其相关性的可能性就越高,即使是涉及多个变量的复杂数据。但相关性从来都不是一种因果关系,以后也不会是。世界上所有的大数据都不会告诉你,吸烟是否会导致肺癌,你必须做实验,了解致癌物、致癌基因和DNA复制等专业词汇的固有含义。仅将世界各个城市的烟民和非烟民的海量数据库制成表格,记录他们何时、何地抽烟,寿命以及死因的细节,这些数据无论包含多少兆字节,都不足以涵盖生物机制的多重复杂性。
如果说商界人士过于相信大数据让我感到紧张,那么看到科学家们亦是如此,我就更担心了。神经科学某些分支的专家已经持如下态度——“建好大数据,结果自然就明了了。”他们认为一旦拥有足够的数据,神经科学问题就能迎刃而解。
然而,这种想法并不正确。如果我们的猜想有理有据,那么可以用大数据测试一下,但它绝不该是我们的第一选择。只有我们知道自己在寻找什么的时候,才应该向大数据寻求帮助。
注:本文作者盖瑞·马库斯的《乱乱脑》已由湛庐文化策划,中国人民大学出版社出版。