多元回归,发现因果关系的方法

时间:2024-11-30 18:59:03

理查德·尼斯比特(Richard Nisbett):密歇根大学心理学教授,著有《智能与获得智能》(Intelligence and How to Get It)。

多元回归,发现因果关系的方法

你知道吗?摄入大量的橄榄油可以将死亡风险降低41%;如果一个人得了白内障,进行手术摘除的话,接下来15年内的死亡风险将比没有实施手术的患者低40%;耳聋会导致痴呆。

类似这样的说法,每天都会出现在媒体报道上。这些观点通常都是基于采用了多元回归分析方法(简称MRA)的研究。在MRA中,自变量同时与因变量相关。典型的研究目标是为了显示变量甲对变量乙产生影响,排除了其他变量的影响。换句话说,研究目标就是为了显示在变量丙、丁、戊处于任何水平的情况下,甲与乙之间都存在相关性。比如,饮用葡萄酒和心血管疾病的低发病率相关,而与社会阶层、体重超标、年龄等其他因素无关。该方法几乎可以适用于所有的科学领域,不过流行病学家、医学研究人员、社会学家、心理学家和经济学家尤其可能会使用这种方法。

有观点认为(通常是明确指出的,就算没有明确指出至少也一定有含蓄的表示)MRA可以揭示因果关系,这种观点其实是错误的。我们知道目标自变量(例如橄榄油摄入量)会和其他很多变量有关系,虽然检测方法难免有缺陷,甚至没有办法进行检测。每种变量的水平都是“自行选择”的结果,都可能会对因变量产生影响。

你觉得教室中孩子的数量对他们的学习效果有影响吗?看起来似乎是有影响的。但是一些MRA研究指出,排除其他因素,如学区内平均家庭收入、学校规模、智商测试表现、城市规模、地理位置等的影响,班级的平均规模同学生的表现是没有关联的。这表示:我们现在知道了无须再浪费钱来减小班级规模。

但是研究者是通过掷硬币来将从幼儿园到三年级的学生随意分配到小班(每班13~17人)或大班(每班22~25人)的。小班学生在标准化测试中有更大的进步,并且对少数族裔孩子的效果比对白人孩子的效果更显著。这不仅是一个对班级规模影响的研究了,可以代替所有有关班级规模的多元回归研究。

之所以可以这样说,是因为实验者选择了目标自变量的水平。即进行实验的班级有平均水平相同的老师,学生的学习能力、社会阶层也都相同,还有其他变量也都相同。因此实验组和对照组的唯一不同之处就是研究的自变量,即班级规模。

MRA研究试图“控制”其他因素,例如社会阶层、年龄、先前健康水平等,但是却不能回避控制变量是自行选择的这一问题。谁知道接受处理的人群和没有接受处理的人群之间到底有多少种差异呢?

就拿社会阶层来说。如果研究者希望研究社会阶层是否和某种结果之间存在关联,那么与社会阶层有关的任何因素都可能会促进或者抑制阶层本身的影响。我们可以确信的是,摄入橄榄油更多的人群,更富有,受教育程度更高,对健康有关的知识也更了解,并且更关注自己的健康(其配偶也更关心他们的健康等)。他们吸烟、酗酒的可能性更小,相较使用玉米油的人群,他们生活的环境中毒性很可能更小。他们还更可能是意大利后裔(意大利人寿命相对更长),而不是非洲裔(黑人通常有更高的死亡风险)。所有这些变量,都可以是社会阶层和死亡率关联的真正原因,而不是橄榄油摄入量本身。

尽管研究者试图要控制所有可能的变量,但是变量不能都完全被完美地衡量。这就意味着其对目标因变量的影响会被低估。比如,没有一种正确的方法来衡量社会阶层。教育程度、收入、财富、职业都是其中的一部分,而没有一种标准的方法来衡量这些因素,从而给出上帝眼中的社会阶层观念。

一位《纽约时报》专栏作家,哈佛大学博士,最近发表观点表示,MRA研究要优于实验,因为基于大数据的MRA研究,其研究的对象数量可以很大。其错误在于,认为相对少量的研究对象更可能导致错误的结果。

认为研究对象数量多总比数量少好,理由是我们更可能发现不明显的结果。但是我们对研究是否有信心,不是基于对象的数量,而是基于我们对结果的判断是否公正,以及该结果是否具有统计学意义。事实上,如果在少量样本中得到了具有统计学意义的结果,这意味着,在其他条件相同的情况下,该结果比在大样本中得到的相同结果更显著。

大数据有很多用处,包括带来MRA结果,而该结果表明,随机实验能提供明确证据来证明,一个明显的结果是否真实。2011年古列尔莫·毕卡蒂(Guglielmo Becutti)和西尔瓦娜·潘娜依娜(Silvana Pannaina)的MRA研究结果就是一个很好的例子。他们研究的是睡眠不足与肥胖之间的关系。其结果本身几乎是没有意义的。对于健康问题,各因素彼此之间几乎都是有关联的:超重人群有更严重的心血管问题、更严重的心理问题、吸毒问题、运动不足问题等。但是实验者已经进行了MRA研究所需的实验。使研究对象睡眠不足,发现他们确实体重增加了。不仅如此,研究者还发现了睡眠障碍对激素和内分泌水平的影响,这种影响会导致体重增加。

像所有基于相关性的统计方法一样,多元回归也有严格的限制:相关性并不能表明因果关系。不论检测多少控制变量,都不能解开错综复杂的因果关系之谜。自然所结合之物,多元回归万不能解。