统计学显著性

时间:2024-06-27 14:26:08

查尔斯·塞费(Charles Seife):纽约大学新闻系教授,曾任《科学》撰稿人,著有《数字是靠不住的》(Proofness:The Dark Arts of Mathematical Deception)。

统计学显著性

“统计学显著性”这一概念是平庸的人、易受骗的人、不诚实的人以及无能者的福音。它将毫无意义的成果变成了某种可发表的东西,将浪费时间和精力变成了科学生涯的燃料。最初,它是为了帮助研究人员从统计学的偏差中区分出真正效果而设计的,但它已经成了一种用来掩饰胡说八道的定量工具。它是大部分的科学和医学文献不值得被记录的最大原因。

如果使用得当,统计学显著性的概念也仅仅是一个用以排除异常现象的工具而已。例如,你正在测试一种药物的效果。即使这种化合物是完全惰性的,但对患者来说,与安慰剂相比你的药物至少还有50%的概率是有效的。随机性可能使你的药物看起来是有效的。但药物和安慰剂之间的区别越多,与随机性有关的可能性就越小。所以统计学显著性的结果其实是以一个很随意的阈值为界限的。在大多数社会科学期刊以及医学文献中,如果纯粹的随机性能够解释你所得到的结果的概率小于5%,那么观察报告通常被认为是具有统计学显著性的。在物理学中,这个阈值通常较低,一般为0.3%(3σ),有时甚至是0.00003%(5σ)。但是它们代表的重要意义是相同的:如果你的结果足够醒目,可以通过阈值,它就会被认为是具有统计学显著性的。

大多数情况下,统计学显著性这个词都没有被正确地使用。如果你看了在同行评议的文献中发表的文章,你就会发现对统计显著性的测试永远不会只是单次观测,而是几次、几十次甚至上百次。研究人员在检查止痛药对关节炎患者的有效性的数据时,会试图回答之前提出过的问题:药物对缓解病人的痛苦有帮助吗?对患有膝关节疼痛的患者有帮助吗?背部疼痛呢?肘疼痛呢?剧烈的疼痛呢?中度疼痛呢?中度至重度疼痛呢?它对患者的关节活动范围有帮助吗?对患者生活质量的影响呢?每一个问题都是对统计显著性的测试,而且通常会以5%的行业标准来衡量。意思就是如果有5%的概率,随机性就会使一种毫无价值的药物看起来是有效的。如果测试10个问题,你答对了1个或1个以上,那么你被随机性欺骗的概率就是40%。通常在论文中会提出10个以上或更多的问题,这样就有可能从数学上矫正“多重比较”的问题(尽管规范并不会要求这样做)。同样地,也有可能因为没能回答一个主要问题而使随机性的效果受到影响,尽管在实践中这种“主要成果”表现出了令人惊讶的可塑性。但即使进行修正也经常不能考虑太多影响因素,否则会导致许多研究员的计算结果被破坏,例如在数据分类中,即使是非常微妙的变化都有可能对结果造成影响。例如,将疼痛划分为10个等级,那么“严重”的疼痛是7级以上还是8级以上呢?有时这些问题会被忽略,而有时则是故意被忽略,甚至是特意操纵数据。

最好的情况是通过计算来证明统计显著性是正确的,但这也并不会给你提供更多的信息。当然,相对来说偶然性的概率对你的观察结果也不会有什么作用。而且它也不会显示出实验是否被正确地设置,机器的校准是否被取消,计算机代码是否存在漏洞,实验者是否为了防止偏差而适当忽略了数据,科学家是否真正分辨出了所有可能的假信号源,玻璃器皿是否进行了正确的消毒,等等。当实验失败时,失败的原因有很多,有可能失败的责任并不是因为随机性,而是因为实验过程犯了很多低级错误。

当欧洲核子研究中心的物理学家宣布,已经发现中微子移动的速度超过光速时,6σ水平的统计学显著性(对于错误的详细的检查)并不足以说服聪明的物理学家相信欧洲核子研究中心团队是错误的。但研究结果不仅与物理定律冲突,还与超新星爆炸中对中微子的观测结果冲突。果然,几个月后,缺陷(很微妙的缺陷)终于出现了,否定了欧洲核子研究中心团队的结论。

在科学界中,出现错误的研究结论是非常常见的。比如,考虑到美国食品和药物管理局每年都要对几百个临床实验室进行检查的事实,大约会有5%的实验室涉及“存在严重的不良条件及实验做法”,这个结果实在令人震惊,导致他们得出的数据也被认为是不可靠的。当然这些做法中也不乏有彻头彻尾的欺诈。对检察员来说,这都只是极为明显的问题,我们很难想象,实验室中错误的实验数目的概率为5%的是两倍、三倍甚至更多。即使阈值设定为5%、0.3%甚至0.00003%,而实验数据被实验错误破坏的概率有可能达到10%或25%,甚至更高,那这样的统计有效性还有什么意义呢?当出现可怕的错误或是欺诈时,即使最严格的统计有效性结果也会失去意义。

尽管统计学家对这种做法提出警告,利用统计显著性以偏概全的发现还是经常被用于快速决策,无论观测结果是否可信或适合发表。这样做带来的结果就是,同侪审查的文献充斥着统计学意义上的发现,而这些发现都是不可复制并令人难以置信的,荒谬的观测结果的数量级甚至超越了最低可信度。无论研究过程是否应该认真严谨,对于本质上是定性的研究过程,“统计显著性”的概念已变成了定量支撑。如果没有“统计显著性”,科学会发展得更好。