为什么很多事情找不到原因?
吉尼斯世界纪录中最高的人是罗伯特.瓦德罗,他的身高是2.72米,体重是222公斤,比姚明还高了接近半米。世界上最矮的人身高只有55厘米,体重12公斤。前者的身高是后者的4.94倍,体重是后者的18.5倍。你觉得这么大比例的差异算不算很夸张呢?其实并不是,因为在身高、体重这方面,生物都是符合泊松分布的。
不严谨地说,泊松分布的图像就像一个倒扣的钟形。之所以说不严谨,是因为泊松分布是用来形容离散对象的,比如收集身高数据时其实我们是把连续的数字分割成1.71、1.72这样离散的值。对于离散的数值,泊松分布的图形也是倒扣的钟形。如果这种形状的分布对应连续的数据,就是大家更加熟悉的正态分布。一般来说,泊松分布中离散的值如果能分出15个档次以上,那么就可以用正态分布的数值计算方法来近似估算泊松分布的取值。
但在生活中我们有时候遇到的数字差异就不是这样的,比如各国的GDP。根据2014年的数据,美国的GDP是17.4万亿美元,中国是10.4万亿美元,日本是4.6万亿美元。这是前三名。看最末几位:倒数第三名是马绍尔群岛,1.93亿美元;倒数第二名是基里巴斯,1.81亿美元;倒数第一名是图鲁瓦,3800万美元。正数第一名的GDP差不多是倒数第一名的46万倍,和身高的差异相比这个差值就太大了。这类的统计分布也很多,比如统计每个人年收入差异也远超过几倍这个数量级。如果我们把刚刚说的第二种数据分布用图像画出来是什么样呢?纵轴我们规定是年收入不低于这个数值的总人数,图像是一个越接近Y轴越陡峭,然后随着远离Y轴就甩出一个长长的尾巴的图形。你可能觉得这种情况并不怎么出乎意料,都是明摆着的事,但世界上还存在着一些其他东西的分布也有类似的规律,你就不一定能察觉到了,比如莎士比亚的英文原著。我们把每个英文单词出现的次数都统计出来,你可能会发现莎士比亚所有著作中一共用了2万个不同的单词,那么我们就给这2万个单词排序,比如the用了3180次,排第1;and用了2940次,排第2;I用了2350次,排第3;to用了2150次,排第4;of用了1950次,排第5,等等。1万名的顺序都排出来,结果就发现这样一条规律:每个单词出现的频率和它名次的β次幂存在很精准的反比关系。
这项统计莎士比亚著作词汇分布的事儿真的有人做了,最后得到β值等于1.132。这个分布图形如果按我刚刚说的规律画出来,和各国GDP的图像是一致的。而这个规律不论你多么熟悉莎翁的作品都是想不出来的。数据的这种分布规律有个专有名词,叫幂律。幂律分布就和我们刚刚说的泊松分布完全不同了。如果我们再把莎士比亚著作中的词汇频率统计加和一下,就会发现20%的单词用掉了全部著作80%的篇幅。这就是著名的二八定律,比如:20%的人占据了80%的社会财富,20%的人喝掉了80%的啤酒,公司里20%的人做了80%的具体工作,20%的畅销书占据了80%的市场。而这背后的规律就是因为这些东西按幂律分布。
财经栏目里提到20%的人占据了80%的社会财富时,他们可能会忽略幂律的无标度属性。比如,如果我们再对这20%的高收入人群进行统计,就会发现,这些人财产依然会集中在其中更加富有的20%的富豪中。如果继续在下一个层级去统计,还会发现这样的规律。这就是在幂律中的无标度属性。
关于幂律有一篇开山之作,这篇论文把幂律、自组织临界、分形这些理论结合在一起,是Bak、汤超和Wiesenfeld三个人写的。最著名的例子就是沙堆的例子。一个沙堆,你不断在顶部往下洒沙子,沙堆越来越高。大多数时候可能没洒多少沙堆就会崩塌;但偶尔可以堆到很高,沙堆才会突然崩塌,这种崩塌的规模往往很大。如果统计崩塌的规模和对应规模的频率,就会发现也是呈现幂律分布。他们甚至用超清高速摄像机仔细地观察每一粒沙子下落砸到沙堆的情况,想找出沙堆崩塌的原因,但最终没有找到什么特殊的因素。虽然最后终有一粒沙子是罪魁祸首,导致崩塌的出现,但你决不能把沙堆崩塌归因于那粒沙子。
还有一些你根本想不到的场景中存在幂律,比如微博上转发次数的排序、森林火灾、大洪水、地质灾害,它们发生的规模和频率也一样呈现幂律。我们经常会花时间和精力分析一个特殊事件——有时候是天大的好事,有时候是天大的坏事——发生的原因,总结经验,希望今后再次成功;或者吸取教训,希望今后避免。这是因为作为灵长类中的人类,我们十分渴求规律,我们需要把事物简化,好让信息进入大脑。想记住完全随机的信息是件极其困难的事,所以找出引人注意的大事件发生的原因是我们的天性。但其实很多大事件的发生没有特殊原因,只不过它们在幂律下必然会发生。
为什么会有这么多样本的分布是按幂律展开呢?其实有一个隐藏在底层很不容易察觉的规律,这个规律就是这些样本不独立。不独立是说某件事发生与否,取决于同类事情是否发生。之前举例说的莎士比亚的作品中单词出现频率的例子其实需要特别注意,它统计的是英文原著中单词出现的频率。单词是否出现跟语法结构密切相关,是语法把很多词联系在一起,词与词之间有很强的关联,而不是随机排列。但另一个研究就很有意思了,它研究的是莎翁作品的中文翻译版。如果去统计每个中文“字”的话,幂律一下子就消失了。为什么会这样?比如“朱丽叶和罗密欧相约在午夜的花园”,这里“朱”、“丽”和“叶”,“相”和“约”,这些字之间并没有什么内在逻辑把它们关联在一起。后来这份研究继续对中国古代著作做了分析就发现,秦朝以前的作品,单个字出现的频率是符合幂律的,但秦朝之后越接近现代幂律的属性就越弱。到了现代语言中,这种和字相关的幂律就完全看不出来了。只有当我们把现代中文作品——比如莫言的著作——中的词作为一个单位,幂律才会出现。学过古文的同学可能知道古代汉语中通常是单个字代表一个词,“有朋自远方来,不亦乐乎?”的意思是:“有朋友从遥远的地方来,不是令人高兴的吗?”差不多每个字都是一个词的浓缩。所以在先秦文字中,幂律出现的比例比较高。
刚刚我们说了,对符合幂律分布的事件而言,通过找平均值来解决问题是没希望的。但至今关于幂律分布的知识还没有出现在教材中,这主要是因为凡是和幂律相关的事情往往包含非常复杂的过程,我们甚至没法收集完整数据,比如地震、火山爆发。另一个原因是幂律往往包含人的因素,大都不是理工科的研究对象,文科类专业即便学统计学也不会比理工科更深入。幂律分布其实分析起来比较复杂,相当多种类的幂律分布是根本不存在期望值和方差的。而在统计学这门课中,核心内容就是期望值、方差、线性回归之类的内容,所以导致不少人对幂律不熟悉。
也许沙堆的问题能让我们意识到:一个看上去很有视觉效果,或者听起来很轰动的事情,其实并没有特殊的诱因,它只不过是又一粒沙子落了下来。我们在生活和工作中总是避免不了用非理性的习惯去找原因。那么如果我们从另外一个角度去考虑呢?我们怎么做出一件轰轰烈烈的事情?比如不少人在公司负责新媒体的运营,希望早点出现单篇阅读量10万+的文章。通常的做法就是,搞个抽奖活动或者多发文章,但这些不能常态化的做法收效甚微。这时我们不妨想想沙堆的例子,沙堆之所以会有大型崩塌,并不是因为落下来的那粒沙子比其他沙子重、下落速度快,而是因为之前每一粒沙子之间有紧密的摩擦关系,是所有沙子共同的作用让它们在地球的重力场下形成了一个沙堆样子的东西。只要沙堆出现了,在你洒沙子的过程中,总有机会形成一次大型崩塌。如果这些沙粒之间没有紧密的作用,而是像水一样平铺开来,就很难有崩塌出现。新媒体运营也是如此,产生巨大的传播效果就好像让沙堆崩塌那样,当你每篇文字都能激起读者的共鸣,你就一定程度上轻轻地把读者联系起来了。当你写出很多这样的内容,你的沙堆就会越堆越高并最终崩塌。任何一个做得好的公众号都有这样的特性。这种分布规律形成了,就不用担心没有流量和传播效果了。
幂律无处不在,但它在生活中很多地方经常以我们意想不到的方式出现,有时候甚至可以告诉我们一个更深一层的道理:很多看上去不得了的事情,它的发生并没有一个与众不同的理由。知道了这一点,我们就能更坦然地面对大事件,而不会经常陷入一些无意义的思考。
解读
当一件事情发生,尤其是当这件事已经是灾难,或者已经极为显著而不能忽略时,我们总希望找到原因。找原因的念头有时候非常强烈。但这篇文章就专门列举了很多服从幂率分布的场景,在这种条件下,根据传统思路去找原因一定会失败。
幂率分布什么时候会出现呢?在样本的分布不独立,即互相影响时。这一点是复杂系统通常都具有的特性。复杂系统很难建立数学模型,只有在某些特殊条件下才能进行分析。什么是复杂系统?比如人群的行为就是。每个人如何行事,不光由他自己当前的状态决定,也由周遭其他人的行为决定。所以社会学、经济学等学科听上去好像是文科,其实它们在科学化的方向上有极大发展空间。
科学不能解释的很多东西都是因为它们属于复杂系统。这种复杂系统在短期还可以模拟,长期演化下则没有数学模型可以预测。所以,凡是能对复杂系统中出现的事件煞有介事地分析出其中原因的,都不可信。有时候那些分析貌似极有道理(比如股票预测),但其实只是另一种形式的心理安慰。毕竟给一个显著的事情找到原因,心里会感觉踏实些。
一件事的发生有时候没有什么特殊的原因。能坦然地接受这样的结论会让我们内心多一分平静,这可能是这类思考方式带来的直接好处。