通过统计学方法进行科学推理-无名网

格尔德·吉仁泽（Gerd Gigerenzer）：社会心理学家，马克斯·普朗克研究所人类发展研究中心主任，著有《风险与好的决策》（Risk Savvy）。

通过统计学方法进行科学推理

作为一个年轻人，莱布尼茨有一个美丽的梦想：通过微积分学将世界上的每一个想法都用符号表现出来，这种普遍的微积分学将终结所有的学术争论。举例来说，Edge每一次激烈的讨论，都可被冷静的计算结果迅速解决。根据莱布尼茨乐观的估计，一些熟练掌握了微积分的人，五年后应该能够胜任所有工作。然而，包括莱布尼茨在内，至今尚未有人能够胜任所有工作。

尽管如此，莱布尼茨的梦想在社会各界依然欣欣向荣地发展。目前，莱布尼茨的梦想还未实现，只有一些替代方法能够被应用。在某些领域中，这种替代方法是多元回归，而在另一些领域则是贝叶斯统计，但使用最多的是零仪式（null ritual）。它的步骤如下：

1.设置一个“无平均差”或“零相关”的零假设，不要指定你自己研究假设的预期；

2.使用5%作为拒绝空值的约定值。如果表现出显著性，那就可以接受你的研究假设。假定值可以是p＜0.05，p＜0.01或p＜0.001中的任何值；

3.总是执行此过程。

绝不会有人认为这一步骤与统计正确性有关。事实上，英国统计与遗传学家罗纳德·费希尔先生曾表示，这种做法是错误的，从一个实验到另一个实验，研究者不应该使用相同的显著性水平进行研究。著名统计学家耶日·内曼（Jerzy Neyman）和埃贡·皮尔逊（Egon Pearson）如果了解到现在的做法，一定会气得从坟墓里跳出来。贝叶斯也同样讨厌假定值。然而翻开任何心理学、商业或神经系统科学方面的期刊，你都有可能会看到连篇的假定值。这就有几个例子：2012年，作为管理学领域内一流的实践性期刊——《管理学会杂志》（The Academy of Management Journal），其中假定值的平均数为每篇文章116个。在2011年的《自然》中，刊登的所有研究人类的科学领域（如行为科学、神经心理学以及医学）的文章，其假定值出现的概率高达89%，这还是在不考虑规模效应、置信区间、功效或模型估计的情况下。

仪式，是一种庄严的礼仪，由有序安排好的行动组成。仪式通常涉及神圣的数字或颜色。在举行仪式的时候，既要避免思考为什么要执行这些操作，又要保证持续性，因为一旦停下来就会遭到惩罚。而零仪式包含了以上仪式所有的特点。

“5%”被认为是一个神圣的数值，据称它会告诉我们真正的效果和随机干扰之间的区别。在功能性磁共振成像研究中，因为数据被颜色取代，所以会有大脑被“点亮了”的说法。

这种对“5%”的错误理解非常令人震惊。如果神经病学家对统计有任何好感，他们都会将此计入《精神疾病诊断与统计手册》中。美国、英国、德国的研究表明，大多数研究者不理解（或不想理解）假定值的真正含义。他们混淆了假定值（p[数值Ho]）与随机概率（p[Ho数值]）的概念，并且对于类似“数值可以被重复的概率”的概念感到费解。这些令人吃惊的错误在一些顶级的期刊中出现。例如，为了研究两种方式的差异，有一种基本观点认为，我们应该对其差异进行测试。而不应该测试每一个平均值是否违背了共同的基线，如，“神经活动随着训练的增加而增强（p＜0.05），但这并不在对照组（p＞0.05）中”。2011年在《自然神经科学》（Nature Neuroscience）刊登的一篇论文中提及了一篇关于神经科学分析的文章，这篇文章也曾刊载在《科学》（Science）、《自然》、《自然神经科学》、《神经元》（Neuron）、《神经科学杂志》（The Journal of Neuroscience）等杂志中。这篇文章表明，尽管有很多人都做了他们应该做的，但却有更多人使用了不正确的程序。

虽然仪式完全没有任何意义，但不执行仪式会引起极大的焦虑。在一项研究中，当互联网参与者被问到，在英雄主义和利他主义之间是否存在区别时，绝大多数人的感觉是这样的：2 347名受访者（97.5%）认为，这两者之间有区别；而另外58名受访者认为没有区别。然后研究者用这些数据进行了卡方检验，计算出c2（1）=2178.60，p＜0.0001，然后得到了一个与实际情况不符的结论：认为两者之间有区别的人比认为没有区别的人多。

强迫症的一种表现是即使没有任何理由也会强迫性地洗手。同样地，研究人员总是要执行统计推断的这种零仪式，即使在有些情况下得不到任何有意义的结果，也就是说，当总体中没有随机样本可以抽取，或最初还没有总体的定义，甚至总体不适用重复的随机抽样的统计模型时，都不能将其称为是好的描述性统计。所以即使计算了一个有意义的假定值，也不能对总体进行清楚的描述。这个问题并不在于统计学，而是研究者错误地将其作为“自动推理机”使用了。

最后，就像强迫性地担心和洗手会干扰生活质量一样，对有意义的假定值的渴望也会破坏研究的质量。其实，显著性理论在很大程度上已经被有意义的假定值取代了。这种替代的目标引发了一些不好的行为，比如，将可疑研究进行有选择性地报告的行为作为多实验条件进行“处理”，或是在观察了数据对实验结果的影响后，将某些数据排除在外。根据2012年《心理科学》（Psychological Science）对2 000名心理学家进行的一项调查显示，超过90%的心理学家承认，曾至少有一次从事有问题的科学研究实践。这种为了制造有意义的假定值的大规模的“欺骗”行为，比一些罕见的公然欺诈行为更加有害。有害结果被大规模发表，但是却不能重复。在利用大数据进行遗传学和医学研究时，就曾遇到过类似的令人震惊的情况，当试图重复发表的研究结果时，发现根本是徒劳。

我的意思并不是要否定统计学的一切，统计学为研究人员提供了一套非常有用的工具。但现在是时候摆脱这些自动的、盲目的统计学仪式了。科学家们应该学习这些仪式，但并不需要他们自己来执行。

通过统计学方法进行科学推理

【相关阅读】

最新文章

推荐文章