通过统计学方法进行科学推理

时间:2024-11-30 20:26:06

格尔德·吉仁泽(Gerd Gigerenzer):社会心理学家,马克斯·普朗克研究所人类发展研究中心主任,著有《风险与好的决策》(Risk Savvy)。

通过统计学方法进行科学推理

作为一个年轻人,莱布尼茨有一个美丽的梦想:通过微积分学将世界上的每一个想法都用符号表现出来,这种普遍的微积分学将终结所有的学术争论。举例来说,Edge每一次激烈的讨论,都可被冷静的计算结果迅速解决。根据莱布尼茨乐观的估计,一些熟练掌握了微积分的人,五年后应该能够胜任所有工作。然而,包括莱布尼茨在内,至今尚未有人能够胜任所有工作。

尽管如此,莱布尼茨的梦想在社会各界依然欣欣向荣地发展。目前,莱布尼茨的梦想还未实现,只有一些替代方法能够被应用。在某些领域中,这种替代方法是多元回归,而在另一些领域则是贝叶斯统计,但使用最多的是零仪式(null ritual)。它的步骤如下:

1.设置一个“无平均差”或“零相关”的零假设,不要指定你自己研究假设的预期;

2.使用5%作为拒绝空值的约定值。如果表现出显著性,那就可以接受你的研究假设。假定值可以是p<0.05,p<0.01或p<0.001中的任何值;

3.总是执行此过程。

绝不会有人认为这一步骤与统计正确性有关。事实上,英国统计与遗传学家罗纳德·费希尔先生曾表示,这种做法是错误的,从一个实验到另一个实验,研究者不应该使用相同的显著性水平进行研究。著名统计学家耶日·内曼(Jerzy Neyman)和埃贡·皮尔逊(Egon Pearson)如果了解到现在的做法,一定会气得从坟墓里跳出来。贝叶斯也同样讨厌假定值。然而翻开任何心理学、商业或神经系统科学方面的期刊,你都有可能会看到连篇的假定值。这就有几个例子:2012年,作为管理学领域内一流的实践性期刊——《管理学会杂志》(The Academy of Management Journal),其中假定值的平均数为每篇文章116个。在2011年的《自然》中,刊登的所有研究人类的科学领域(如行为科学、神经心理学以及医学)的文章,其假定值出现的概率高达89%,这还是在不考虑规模效应、置信区间、功效或模型估计的情况下。

仪式,是一种庄严的礼仪,由有序安排好的行动组成。仪式通常涉及神圣的数字或颜色。在举行仪式的时候,既要避免思考为什么要执行这些操作,又要保证持续性,因为一旦停下来就会遭到惩罚。而零仪式包含了以上仪式所有的特点。

“5%”被认为是一个神圣的数值,据称它会告诉我们真正的效果和随机干扰之间的区别。在功能性磁共振成像研究中,因为数据被颜色取代,所以会有大脑被“点亮了”的说法。

这种对“5%”的错误理解非常令人震惊。如果神经病学家对统计有任何好感,他们都会将此计入《精神疾病诊断与统计手册》中。美国、英国、德国的研究表明,大多数研究者不理解(或不想理解)假定值的真正含义。他们混淆了假定值(p[数值Ho])与随机概率(p[Ho数值])的概念,并且对于类似“数值可以被重复的概率”的概念感到费解。这些令人吃惊的错误在一些顶级的期刊中出现。例如,为了研究两种方式的差异,有一种基本观点认为,我们应该对其差异进行测试。而不应该测试每一个平均值是否违背了共同的基线,如,“神经活动随着训练的增加而增强(p<0.05),但这并不在对照组(p>0.05)中”。2011年在《自然神经科学》(Nature Neuroscience)刊登的一篇论文中提及了一篇关于神经科学分析的文章,这篇文章也曾刊载在《科学》(Science)、《自然》、《自然神经科学》、《神经元》(Neuron)、《神经科学杂志》(The Journal of Neuroscience)等杂志中。这篇文章表明,尽管有很多人都做了他们应该做的,但却有更多人使用了不正确的程序。

虽然仪式完全没有任何意义,但不执行仪式会引起极大的焦虑。在一项研究中,当互联网参与者被问到,在英雄主义和利他主义之间是否存在区别时,绝大多数人的感觉是这样的:2 347名受访者(97.5%)认为,这两者之间有区别;而另外58名受访者认为没有区别。然后研究者用这些数据进行了卡方检验,计算出c2(1)=2178.60,p<0.0001,然后得到了一个与实际情况不符的结论:认为两者之间有区别的人比认为没有区别的人多。

强迫症的一种表现是即使没有任何理由也会强迫性地洗手。同样地,研究人员总是要执行统计推断的这种零仪式,即使在有些情况下得不到任何有意义的结果,也就是说,当总体中没有随机样本可以抽取,或最初还没有总体的定义,甚至总体不适用重复的随机抽样的统计模型时,都不能将其称为是好的描述性统计。所以即使计算了一个有意义的假定值,也不能对总体进行清楚的描述。这个问题并不在于统计学,而是研究者错误地将其作为“自动推理机”使用了。

最后,就像强迫性地担心和洗手会干扰生活质量一样,对有意义的假定值的渴望也会破坏研究的质量。其实,显著性理论在很大程度上已经被有意义的假定值取代了。这种替代的目标引发了一些不好的行为,比如,将可疑研究进行有选择性地报告的行为作为多实验条件进行“处理”,或是在观察了数据对实验结果的影响后,将某些数据排除在外。根据2012年《心理科学》(Psychological Science)对2 000名心理学家进行的一项调查显示,超过90%的心理学家承认,曾至少有一次从事有问题的科学研究实践。这种为了制造有意义的假定值的大规模的“欺骗”行为,比一些罕见的公然欺诈行为更加有害。有害结果被大规模发表,但是却不能重复。在利用大数据进行遗传学和医学研究时,就曾遇到过类似的令人震惊的情况,当试图重复发表的研究结果时,发现根本是徒劳。

我的意思并不是要否定统计学的一切,统计学为研究人员提供了一套非常有用的工具。但现在是时候摆脱这些自动的、盲目的统计学仪式了。科学家们应该学习这些仪式,但并不需要他们自己来执行。