统计独立性

时间:2023-11-21 21:09:03

巴特·卡斯科(Bart Kosko):南加州大学信息科学家、教授,著有《噪声》(Noise)。

统计独立性

是时候揭穿科学中关于“统计独立性”的谎言了。世界是通过大量的因果关系而相互关联的。重力与所有物体通过质量这单一的因果关系而连接在一起。世界本身就包含巨大的相关性。提出统计相关性并不意味着因果关系已经过时了,但这确实是一个数学事实。统计独立性意味着根本不存在相关性。但事实却相反,事件之间不是相互独立的而是相互关联的。就像大数据算法所关注的重点是更大的数据集的相关性。

统计独立性也是近代统计抽样技术的基础。它是随机样本的一部分,是政治民意调查和一些医学研究中使用的老式置信区间的基础,甚至是无分布辅助程序会越来越多地取代那些老式技术的模拟数据集的基础。

统计独立性的概念有点像白噪音的概念。咝咝声、砰砰声都是白噪音真实的样本,都代表了统计独立性的一个方面。白噪音的频谱是平坦的,但理想的白噪音具有无限带宽,因而其能量无限大,所以在现实世界中,白噪音是不可能存在的。但这并没有阻止一代又一代的科学家和工程师假设是白噪音干扰了被测信号和通信。

真正的噪音样本不是独立的,它们存在某种程度的相关性。干扰电子电路和雷达设备的热噪音,其频谱波动很小,看起来也几乎是平坦的,而真正的噪音频谱不会是平坦的,也没有无限的能量。真正的噪音是彩色的,如粉红色、褐色或其他一些令人紧张的颜色,这些颜色暗示了噪音样本之间相关性的接近程度。所以真正的噪音并不是白噪音。

这就暴露出一个令人深思的问题,我们几乎没有对统计独立性进行过测试。大多数测试最多也就包含两个变量,然后测量这两个变量(而不是数据本身)是否独立。大多数科学家很难为其命名,所以常见的做法是假定抽样事件是相互独立的。仅仅假设数据是不变的、平稳的,仅仅假设数据不但来自相同的概率分布,而且具有统计独立性。这样做的一个简单的理由就是几乎所有人都这样做,而且这种做法还被写进了教科书。这种假设是群体思维在所有科学中最普遍的实例之一。

我们经常进行统计独立性的假设,原因不是其真实的准确性,而是出于理论研究的需求,统计独立性使数学变得简单,使棘手的问题可以轻易被解决。统计独立性将复合概率拆分成个体概率的乘积(利用对数将乘积概率转换成求和,因为求和比乘积更容易计算)。进行大规模条件概率的实验,要求真实建立有卓越性能的实验。而连续的抛硬币实验是独立的,这就使实验者更容易变成“赌徒”。因为实验者普遍认为复合概率或联合的概率总是拆分条件概率的乘积。而所谓的乘法法则为此种分解方式提供了依据。独立性进一步减少到无条件的条件概率。这种做法没有考虑条件及统计相关性。

俄罗斯数学家安德烈·马尔可夫(Andrei Markov)的研究发现,在事件的发展过程中,每次状态的转移都仅与前一时刻的状态有关,这一研究结果是关于统计独立性研究第一次伟大的进步。现在我们仍然在全力对付这种数学上的马尔可夫链并且不断地发现惊喜。谷歌的搜索算法在很大程度上就依赖于寻找一个有限马尔可夫链的平衡特征向量。搜索模型假定,互联网冲浪者随机地从一个网页跳转到另一个网页,就像一只青蛙跳从一片荷叶跳到另一片荷叶。这种随机跳跃不具有统计独立性,但却是有概率的。也就是说,你现在正浏览的网页影响了你将要浏览的下一个网页。所以真正的网上冲浪涉及的是之前访问的几个网站之间的概率依赖关系。这种做法认为,人的意识不是一个马尔可夫过程。放弃对独立性甚至是马尔可夫链的依赖,可以为我们提供一种模型,这种模型可以用来模拟从分子扩散到语音转换的各种不同的数据流。

马克可夫链所表达的是,未来的事件仅与事件当前的状态有关,而与其过去的状态无关,我们现在要做的应该超越这种简单的理论。我们有强大的计算机来做这些工作,许多积极的理论家也会提供更多更深刻的见解。放弃统计独立性的支撑可以为我们带来更多研究成果。

科学需要认真对待其最喜欢的答案,也就是根据情况而定。