标准偏差

时间:2024-11-30 20:35:01

纳西姆·尼古拉斯·塔勒布(Nassim Nicholas Taleb):纽约大学理工学院风险工程系特聘教授,风险管理理论研究者,著有《反脆弱》《黑天鹅》。

标准偏差

标准偏差的概念已经让很多科学家感到混乱了,是时候将它从普通应用中淘汰,并使用更有效的平均偏差的概念来取代标准偏差了。标准偏差应该给数学家、物理学家和数学统计学家在推导极限定理的时候用。在这个计算机时代,已经没有使用标准偏差统计调查的科学必要了,如果在普通应用中继续使用标准偏差,尤其是在社会科学领域,如果越来越多的人还是机械地使用统计工具解决科学问题,那必然是弊大于利的。

如果有人让你计算你所在城镇过去5天气温的“日平均变化”(或是一家公司股票的价格,或是你叔叔的血压),这5天的温度数据分别是:-23,7,-3,20,-1,你要如何计算?

你会观察、计算数据的平方或求和求平均值然后再取平方根吗?或是取绝对值再求和然后计算平均值?这两种方法之间存在很大的区别。第一个方法计算出的平均值约是14.1,而第二个方法的平均值是11。第一种方法在技术上叫作均方根偏差,第二种方法叫作平均绝对偏差。平均绝对偏差比较符合“现实生活”的实际情况,它比第一种方法要好得多。而事实上,当人们在应用标准偏差进行决策时,他们会假设这就是预期的平均偏差。

对这两种方法的混淆是有历史原因的。1893年,伟大的卡尔·皮尔逊(Karl Pearson)针对之前被称为“均方根误差”的概念,提出了“标准偏差”的概念。至此,人们认为“标准偏差”就是“平均偏差”,这个想法自此流传开来。每一次报纸试图澄清市场“波动性”的概念时,都会被含糊地定义为平均偏差,然而却产生了标准偏差(更高)的数值度量。

但不是只有新闻记者会犯这个错误。我曾经看到过,在美国商务部和联邦储备局的正式文件中也将这两个概念混为一谈,甚至有一些监管部门在对市场波动性的报告中也会出现这错误。更糟糕的是,丹尼尔·戈尔茨坦(Daniel Goldstein)和我发现,大多数数据科学家(其中有很多是博士)在现实生活中也会犯糊涂。

这一切都是由一些不直观、不准确的术语造成的。丹尼尔·卡尼曼利用心理偏差的原理对这一现象进行了解释,他将这一现象称为“属性替代”(attribute substitution),也就是说,有些人会把平均偏差误认为是标准偏差,原因在于前者更容易浮现在脑海中。

(1)平均偏差在样品测量中比标准偏差更准确、更稳定,是因为平均偏差是固有权重,而标准偏差则使用观察本身作为其自身的权重,结果大,权重就大,因而就会出现轻尾分布。

(2)在方程式中,我们经常使用标准偏差,但最终却是在计算平均偏差的过程中对其进行改动(比如,在金融领域对期权定价的过程)。在高斯的世界中,标准偏差大约是平均偏差的1.25倍,也就是(Pi/2)的平方根。但当我们调整随机波动率时,标准偏差的值往往是平均偏差的1.6倍。

(3)许多统计学的现象和过程都有“无限方差”(比如,最受欢迎的帕累托80/20规则),但其实是有限的而且是正确的平均偏差。只要平均值存在,平均偏差就会存在。而反过来,(无限的平均偏差和有限的标准偏差)永远是不正确的。

(4)许多经济学家都已经摒弃了无限方差模型,而将其认为是“无限平均偏差”。这种做法实在是可悲,但却是事实。自从50年前,伟大的贝努瓦·曼德尔布罗特(Benoit Mandelbrot)提出了无限方差模型,经济学家就被这种混乱的概念吓坏了。

令人感到悲哀的是,这种不成熟的观点竟然可以造成如此大的误解。我们的科学工具比我们的直觉超前了太多,这已成为科学发展的一大问题。所以我以罗纳德·费希尔先生的一句名言作为结尾:“统计员不能逃避责任,他们要了解自己应用和推荐的方法”。

另外,在社会科学和生物科学中,与概率相关的问题并没有就此消失,但仍有一个更大的问题,那就是研究人员在使用统计学概念时并没有理解这些概念,却还吹嘘着“n of 1”或“n large”,他们将传闻当成信息,又将真正有用的信息误认为是传闻。大多数在论文中应用回归分析的人,其实并不十分清楚回归分析的意义,以及它能解释什么或不能解释什么。正是由于这些问题无法在现实中得到检验,而且也缺少风险承担机制,再加上一层又一层的假象,即使社会科学家在统计概率上犯了一些小错误,他们依然能够继续自己的研究事业。