再现性

时间:2024-11-30 20:26:08

维多利亚·斯托登(Victoria Stodden):计算法律学学者,哥伦比亚大学统计学助理教授。

再现性

我并不是要谈论淘汰再现性这一抽象的概念,或是降低这一概念在科学论述及科学发现中的地位,我想要说的是,我们应该重新对这个词进行明确的定义,弄清它究竟是什么意思,让不同工作环境中的科学家都能采用更恰当的术语。

当罗伯特·玻意耳(Robert Boyle)在16世纪70年代将“再现性”这一概念引入到科学论述中时,它包含了科学实验和科学发现两个方面,即演绎推理(如数学、逻辑学)以及弗朗西斯·培根(Francis Bacon)所提出的新工具——归纳法。逻辑演绎系统对如何进行正确的验证已经做得很好了,但对实验进行验证却困难得多。玻意耳尝试与罗伯特·胡克(Robert Hooke)建立一个真空室,他做了一个案例,无论是采用归纳、实证或发现哪一种方法,那些通过观察自然而得出的结论,都必须通过独立的复制来进行验证。然后,将实证研究发表,所发表的文章包含了关于程序、条款、设备和观测等详细内容,这样其他研究者就能重复过程,并推测结果。

应用当今普遍使用的计算机方法,实现以上内容就会变得非常复杂。计算机不像以前使用的任何科学仪器,因为它只是作为实现一种方法的平台,而不是直接作为一种工具。所以在应用时就需要创建附加的指令用于沟通,这些指令就是代码和数字数据,而它们也是玻意耳的复制研究想法的一部分。

这种通信差距并没有被计算科学研究团队忽略,从某种程度上来讲,这和玻意耳当时的情况有点像,科学界都在呼吁科学交流新标准的诞生,而这一次的新标准则包括了诸如数据和代码等数字对象。

近几年来,杜克大学将注意力集中于一个问题上,主要是为了解决基因组学通过计算机研究得出的结果不可重复的问题,美国国家科学院医学研究所也发表了报告,推荐了新标准,主要用于对计算机研究进行计算机检验的临床试验审批。

该报告建议,软件与计算检验首次关联后,将被固定在审批流程的初始阶段,之后就可以“持续使用”了。后来,在布朗大学举行的主题为“计算机学和实验数学的再现性”的研讨会上(我是协办方)形成了规范流程,即当发表计算机学的研究成果时,适当的信息应被包含在内,包括访问代码、数据以及执行细节。在这种情况下的再现性,应重新被定义为“计算机学的再现性”。

计算机学的再现性应与实证的再现性,或玻意耳版本的不可计算的实证科学实验的适当通信进行区分。这种区分很重要,因为传统的实证研究已经出现了对重复的怀疑。作为诺贝尔经济学奖得主,丹尼尔·卡尼曼曾说过:“我隐约看到了火车残骸。”这暗示他已经注意到了某些心理学实验的非再现性。

事实已经摆在眼前,科学研究不能再依靠产生“可验证的事实”来进行了。因为这样做会使我们将讨论的重点一直放在实证研究的再现性上,而不是计算机学的再现性。我们将这两种类型的“再现性”混为一谈,混淆了讨论的主旨,使讨论的重点变成试图建立一个再现性的标准。我认为,至少有一个以上的非再现性的独特资源,比如“统计再现性”。通过改进“研究-传播”的过程来查找再现性的问题虽然很重要,但是并不充分。

我们还需要考虑新的措施,以评估统计推断的可靠性和稳定性,这包括开发新的验证措施,并扩大不确定性量化的领域,这样不仅发展了统计信度的测量,而且当涉及大型的多源数据集或大规模模拟时,可以使我们对错误的来源有一个更好的理解。而且,我们还能够做一件更好的事情,那就是检测生成的统计报告中存在的偏差,尤其是在数据缺乏的前计算机时代。

实证科学、计算机学以及统计学,这三种类型的再现性都存在影响科学事实确立的严重问题。但每种类型的再现性都有不同的补救措施:对实证科学来说,是改进现有的通信标准和报告;对计算机学来说,是以计算环境可被复制为目的;而对统计学来说,则是以重复实验结果的统计检验评估为检验目的。这些是很宽泛的建议,每种类型的再现性可以根据科学研究环境的具体细节有不同的操作,但是混淆这些科学研究方法的不同方面,将会减缓我们解决那个由真空室开始的玻意耳旧论的进度。