维多利亚·施托登(Victoria Stodden):计算法律学学者,哥伦比亚大学统计学助理教授。
我们每天都要应付如雪片般蜂拥而至的计算结果、结论和数据。在专栏文章、政策辩论和公众讨论中,谁引用了数据,谁就好像可以一锤定音。其实我们需要知道这些数据是如何获得的,从而能够评估它们的相关性、可信度,求大同、存小异,进而做出更好的决定。实际上,弄明白一个数据来自何处就已经是一项艰巨的任务,更不要说它是如何被计算出来的。
这个问题很重要,跟人类的思维方式有关。在每天做出的成百上千的决定中,我们很少用谨慎的理性思维方法做事,比如收集相关信息,从中提取有用信息,然后进行比较。大多数情况下,站在那里左思右想、权衡利弊的,是那些可能会招致强奸、抢劫和失败这一类事情的人,不管是隐喻的说法还是真正发生。左思右想让人错过了生活的乐趣。所以,我们并不经常这样做,人们会基于数百万年练就的本能、直觉、经验而飞快地做出决定(趋利避害)。
然而,计算机特别擅长整合决策过程的各个部分,这方面我们不擅长。它们能够正确无误地储存大量数据,组织和筛选数据,进行令人眼花缭乱的快速计算,显示完美的计算结果。计算机不能(到目前为止)指导问题的解决或将结果置于一定的背景中研究。但对于某些重要的问题,它们能帮助我们做出更加明智的决定,这一点很宝贵。它们进行的大规模计算能解决极其复杂的问题,这是我们的大脑难以做到的。
更好地决策的目标,隐藏在当前围绕大数据的炒作背后,各行各业都要“循证”——政治、医学、实践、管理和一些热点问题,例如气候变化、财政预测、健康评估,甚至是你接触的网络信息。统计学已经用很长时间去研究如何从数据中推出可靠的结论了(例如置信区间、量化模型误差分布和可靠性概念)。
解释所得结论、公开透明地交流科学发现,都是为了让其他人能评价和理解这一结果,这是科学的审慎态度。我们需要时刻牢记这些观点,当看到新的计算结果时,应当掘地三尺找出统计数据的来源,知道这些数据是如何被计算的,以及我们为什么应该相信这些数据。但是,当结果被公之于众时,几乎没有人考虑这些。
我并不是说应该独自核查出现在日常生活中的每一个事实,即使我们想做,也没有足够时间。但是情况允许的话,我们应该有能力去核查,特别是核查在计算机协助下获得的信息。即使没有人真的去重复推理和计算的过程,人们有核查能力这件事本身,就会促使研究人员加倍小心、仔细工作。如果只有少数人核查结果背后的推理过程,他们或许能够发现问题,提供必要的相关说明,或者能够进一步证实原来结果的可信度。大多数情况下,这样的核查在技术层面上是可能的。
举例来说,当20世纪90年代新闻文章开始在互联网上出现时,我记得自己特别期盼统计数据之间的超链接——在文本上点击任何一个数字就能够知道它的来源。十多年以后,这依然没有成为一种惯例,人们列举“事实”而不提供它的来源。对进入公共视野的任何结论,获得结论的整个过程应被公开,包括用于推出结论的数据和进行数据分析的计算机程序——开放的数据、开放的资料来源、科学的可重复性。
如果我们不具备质疑结论的能力,就会自欺欺人地以为自己正受益于信息时代。但除了提供结论的人,没有人能够真正理解它,而我们还必须用这样的结论来做决定。那样的话,我们寻找真理的大门就会被关上。