Clay Shirky:克莱·舍基:社会网络学家,著有《人人时代》《认知盈余》。
我们随处都会发现这样的情况:1%的人掌握了35%的社会财富;在Twitter上,2%的用户发送了60%的信息;在医疗系统中,治疗费用最贵的五位病人的治疗花费占总体的80%。这些数字让人吃惊,仿佛世界的正常秩序被破坏了,好像金钱、信息和资源的完全非线性分布才是世界的终极真理。
事实并非如此。或者更确切地说,它不应该如此。
一个世纪以前,意大利经济学家维弗雷多·帕累托(Vilfredo Pareto)对市场经济进行了研究。帕累托发现:无论在哪个国家,最富有的1/5人口都控制了整个国家大多数的财富。帕累托分布(Pareto distribution)延伸出很多其他概念——80/20原则、齐夫定律、幂律分布以及“赢者通吃”效应,这些定律的数据曲线走向基本一致:系统中最富有、最活跃或联系最紧密的个体最能解释整体的财富、活跃度和联系的紧密程度,它们远高于平均水平。
而且,这样的模式是递归的。体现帕累托分布的20%之中的20%也几乎解释了整体。如此逐步运算下去,一个整体中位于顶端的因素的重要性甚至会远远超过排名第二的因素。比如“the”这一单词在英语中出现的频率最高,它是排名第二的“of”出现频率的两倍。
这种模式非常常见,所以帕累托法则也常常被称为“可预测的不平衡”。哪怕经历了一个世纪的发展,但在对其的预测中我们依然常常失败。
我们预测失败的一部分原因来自高斯分布(即正态分布),我们接受的教育是:大系统的典型分布是高斯分布,也就是我们俗称的钟形曲线。在一个典型的钟形分布中(如身高),平均数与中位数相等。从美国女性中随机抽取100人,她们的平均身高是164.4厘米,而排在第50位的女性身高也同样是164.4厘米。
但是,帕累托分布却是递归的80/20原则,也就是平均数远大于中位数。这就意味着在这样一个整体中,无论如何测量,大多数人都低于平均数。就像以前经济学家讲过的一个笑话——比尔·盖茨走进一家酒吧,瞬间将里面所有人都变成了百万富翁,当然这指的是平均值。
帕累托分布也显现在广泛而复杂的系统中。就像“the”和“of”出现在10%的英语词汇中;历史上股市波动最大的一天造成的动荡是排名第10的波动日的两倍;网络相册的标签频次也遵循帕累托分布;地震的震级、书籍的畅销度、小行星的大小以及朋友间的亲密程度都是如此。因为在科学中太普遍了,一些特殊的图示中会将帕累托法则画成直线,而不是由不同部分组成的陡峭曲线。
尽管帕累托分布已经提出了一个多世纪,但通常呈现在人们面前的帕累托样本总是很诡异,阻碍了我们对世界真相的思考。我们不能再将家庭平均收入与收入中位数混为一谈,也不能认为狂热粉丝和一般用户在使用社交网络时做着同样的事,而那些外向的人并非只比一般人活跃一点点。同样,不要指望未来最大的地震或市场恐慌和历史最高值持平;一个系统持续的时间越久,就越可能出现影响力两倍于以前总和的事件。
我们对此并非无能为力。帕累托曲线下降时,曲线时而陡峭时而平缓,在一些情况下,我们可以通过政治或社会干预影响其斜率——税收政策能提升或降低收入最高的1%人口在总收入中的占比;同样,我们也有办法限制市场的整体波动,或者缩小医疗成本的变动范围。
但是,只有我们将这些系统假设为帕累托分布并在干预之后依然保持这个信念,我们才能开始正确地进行思考。这样,我们很有可能会在高斯分布的系统中使用帕累托法则。在发现帕累托分布100年后的今天,我们应该能对不平衡的模型进行预测,并切实期待它的实现。
注:本文作者克莱·舍基著作《人人时代》《认知盈余》中文简体字版已由湛庐文化策划,分别由浙江人民出版社、中国人民大学出版社出版。