迪安·奥尼什(Dean Ornish):美国预防医学研究所创始人兼所长,加州大学旧金山分校临床医学教授。
人们有一个常见的错误认识,认为大样本的研究总是比小样本的研究更可靠,而随机对照试验就是试验中的金科玉律。然而,越来越多的人认识到样本容量并不总是很重要,随机对照试验也可能会存在其特有偏差。我们需要更有创造性的试验设计。
对于任何科学研究来说,关键问题在于:“所观察到的实验组与对照组的差别有多大的可能性是由于干预而产生的?又或者是纯属巧合?”依照惯例,如果结果属于巧合的概率小于5%,那么就认为这个结果具有统计学意义,即确实属于有效结果。
随机对照试验的原理在于,将实验对象随机分成接受干预的实验组和没有干预的对照组,这样实验对象可能造成实验偏差的个体差异(已知的或未知的)对两组的影响程度是相同的。虽然理论上看起来很好,可是实际上随机对照试验可能存在特有偏差,从而降低实验结果的可信度。
例如,随机对照试验可能被用来检验改变饮食是否有助于预防心脏病和癌症。研究者选择符合某些特定标准的病人,比如有心脏病或癌症危险因素的病人。预期参与者将了解到该试验的详细内容,并被问及:“如果你被随机分配到实验组,那么是否愿意改变生活方式?”为了被选中参与研究,病人需要回答:“愿意。”
然而,如果该病人接下来被随机分配到对照组,她可能会自行改变生活方式,因为她已经详细了解到需要做出哪些改变。如果实验中只需给实验组发放新药品,那么就不会有什么问题。但是在行为干预实验中,被随机分配到对照组的病人很可能会做出部分行为改变,因为他们认为这些改变值得一试,或者认为研究者不会对他们感兴趣。又或者,他们会对于被分配到对照组感到失望,因此可能会退出研究,从而产生选择偏倚。
而且在大规模的随机对照试验中,常常难以做到给所有实验组中的对象足够的支持和资源,来保证实现规定的生活方式改变。因此,实际上实现的改变通常会不如研究者根据之前小规模试点研究做出的预期那样严格。
上述情况的最终效果就是:1.实验组实现期望的生活方式改变的可能性降低;2.对照组做出类似的生活方式改变的可能性提高。这就会减小两组之间的差异,从而减小实验结果的统计学意义。因此,行为改变带来的影响甚微这一结论,可能是错误的。这被称为II型误差,其含义是确实存在差异,但是由于实验设计的问题没能检测出来。
在妇女健康预防项目的饮食结构调整研究中,就出现了这种情况。该研究对近50 000名中老年女性进行了超过8年的追踪研究。实验组中的对象被要求减少摄入脂肪,每天增加水果、蔬菜和全麦的摄入,研究这是否能够预防心脏病和癌症。对照组中的对象则没有被要求进行饮食结构的调整。然而,实验组中的参与者并没有将饮食之中的脂肪成分减少到推荐水平,其食物中脂肪成分超过29%,而不是研究目标规定的低于20%。另外,他们没有大幅增加水果和蔬菜的摄入量。相反,对照组脂肪摄入减少差不多同实验组一样,还增加了水果蔬菜的摄入量,从而减少了对照组和实验组的差异,以至于这些差异不再具有统计学意义。研究者在报告中指出这些饮食结构调整不能预防心脏病和癌症,但是实验假设其实并没有得到充分检验。
矛盾的是,比起大样本研究,小样本研究中两组之间的差异似乎更显著。妇女健康倡议研究项目投入近10亿美元,但是并没有对实验假设进行充分的检验。小样本研究中,每个病人得到的资源会更多,可以花费更少的成本来使他们遵守实验规则。
另外,随机对照试验中一次只改变一个自变量(即实施的干预),然后研究因变量的情况,这种做法通常太过理想化。假如,你在研究运动锻炼对预防癌症的作用。你设计了一个实验,随机分配一组对象进行锻炼,而另一组不参加锻炼。理论上,似乎只有一个自变量。但实际上,当你安排人们参加锻炼的时候,不只是在让他们锻炼身体,还产生了其他影响,这些影响可能在解读实验结果时会使你感到困惑。例如,人们常常和同伴一起进行锻炼,而越来越多的证据显示,增加社交行为能显著减少大多数慢性疾病的风险。可能在实验中你还赋予了参与者一种有意义和有目的的感觉,而这也会产生治疗效果。并且当人们锻炼身体的时候,他们通常吃的食物也会更健康。
我们需要新的、更周到的实验设计和系统方法,要将上述这些问题也考虑在内。新的基因组方面的信息,能帮助我们更好地理解个体对于治疗的反应,而不是指望通过随机分配病人得出平均水平来消除这种个体差异。