标准偏差-无名网

纳西姆·尼古拉斯·塔勒布（Nassim Nicholas Taleb）：纽约大学理工学院风险工程系特聘教授，风险管理理论研究者，著有《反脆弱》《黑天鹅》。

标准偏差

标准偏差的概念已经让很多科学家感到混乱了，是时候将它从普通应用中淘汰，并使用更有效的平均偏差的概念来取代标准偏差了。标准偏差应该给数学家、物理学家和数学统计学家在推导极限定理的时候用。在这个计算机时代，已经没有使用标准偏差统计调查的科学必要了，如果在普通应用中继续使用标准偏差，尤其是在社会科学领域，如果越来越多的人还是机械地使用统计工具解决科学问题，那必然是弊大于利的。

如果有人让你计算你所在城镇过去5天气温的“日平均变化”（或是一家公司股票的价格，或是你叔叔的血压），这5天的温度数据分别是：-23，7，-3，20，-1，你要如何计算？

你会观察、计算数据的平方或求和求平均值然后再取平方根吗？或是取绝对值再求和然后计算平均值？这两种方法之间存在很大的区别。第一个方法计算出的平均值约是14.1，而第二个方法的平均值是11。第一种方法在技术上叫作均方根偏差，第二种方法叫作平均绝对偏差。平均绝对偏差比较符合“现实生活”的实际情况，它比第一种方法要好得多。而事实上，当人们在应用标准偏差进行决策时，他们会假设这就是预期的平均偏差。

对这两种方法的混淆是有历史原因的。1893年，伟大的卡尔·皮尔逊（Karl Pearson）针对之前被称为“均方根误差”的概念，提出了“标准偏差”的概念。至此，人们认为“标准偏差”就是“平均偏差”，这个想法自此流传开来。每一次报纸试图澄清市场“波动性”的概念时，都会被含糊地定义为平均偏差，然而却产生了标准偏差（更高）的数值度量。

但不是只有新闻记者会犯这个错误。我曾经看到过，在美国商务部和联邦储备局的正式文件中也将这两个概念混为一谈，甚至有一些监管部门在对市场波动性的报告中也会出现这错误。更糟糕的是，丹尼尔·戈尔茨坦（Daniel Goldstein）和我发现，大多数数据科学家（其中有很多是博士）在现实生活中也会犯糊涂。

这一切都是由一些不直观、不准确的术语造成的。丹尼尔·卡尼曼利用心理偏差的原理对这一现象进行了解释，他将这一现象称为“属性替代”（attribute substitution），也就是说，有些人会把平均偏差误认为是标准偏差，原因在于前者更容易浮现在脑海中。

（1）平均偏差在样品测量中比标准偏差更准确、更稳定，是因为平均偏差是固有权重，而标准偏差则使用观察本身作为其自身的权重，结果大，权重就大，因而就会出现轻尾分布。

（2）在方程式中，我们经常使用标准偏差，但最终却是在计算平均偏差的过程中对其进行改动（比如，在金融领域对期权定价的过程）。在高斯的世界中，标准偏差大约是平均偏差的1.25倍，也就是（Pi/2）的平方根。但当我们调整随机波动率时，标准偏差的值往往是平均偏差的1.6倍。

（3）许多统计学的现象和过程都有“无限方差”（比如，最受欢迎的帕累托80/20规则），但其实是有限的而且是正确的平均偏差。只要平均值存在，平均偏差就会存在。而反过来，（无限的平均偏差和有限的标准偏差）永远是不正确的。

（4）许多经济学家都已经摒弃了无限方差模型，而将其认为是“无限平均偏差”。这种做法实在是可悲，但却是事实。自从50年前，伟大的贝努瓦·曼德尔布罗特（Benoit Mandelbrot）提出了无限方差模型，经济学家就被这种混乱的概念吓坏了。

令人感到悲哀的是，这种不成熟的观点竟然可以造成如此大的误解。我们的科学工具比我们的直觉超前了太多，这已成为科学发展的一大问题。所以我以罗纳德·费希尔先生的一句名言作为结尾：“统计员不能逃避责任，他们要了解自己应用和推荐的方法”。

另外，在社会科学和生物科学中，与概率相关的问题并没有就此消失，但仍有一个更大的问题，那就是研究人员在使用统计学概念时并没有理解这些概念，却还吹嘘着“n of 1”或“n large”，他们将传闻当成信息，又将真正有用的信息误认为是传闻。大多数在论文中应用回归分析的人，其实并不十分清楚回归分析的意义，以及它能解释什么或不能解释什么。正是由于这些问题无法在现实中得到检验，而且也缺少风险承担机制，再加上一层又一层的假象，即使社会科学家在统计概率上犯了一些小错误，他们依然能够继续自己的研究事业。

标准偏差

【相关阅读】

最新文章

推荐文章