伊曼纽尔·德曼(Emanuel Derman):哥伦比亚大学金融工程学教授,曾先后在贝尔实验室、高盛集团和所罗门兄弟公司任职,著有《宽客人生:从物理学家到数量金融大师的传奇》《失灵:为什么看来可靠的模型最终都会失效》。
在我成长的环境中,有很多物理学家的工作方法是观察世界,对其进行实验,提出假设、理论以及模型,再进一步进行实验,然后利用统计学的方法分析结果,从而将心中的想法与实际情况进行比较。这其中用到的统计学,只是他们进行确认或否定研究结果的工具。
但现在,尤其在社会科学领域,科学家越来越喜欢将统计学和数据科学作为一种知识和真理的来源。有些人甚至宣称,计算机辅助的统计学分析模式将取代我们传统的发现真理的方法,不仅在社会科学和医学领域如此,在自然科学领域也将会如此。
我们必须警惕,不要太过于迷恋统计学和数据科学,而放弃了发现自然伟大真理的经典方法(人类亦是自然的一部分)。关于经典方法,一个很好的例子是行星运动第二定律的发现,它是在17世纪由开普勒提出的,而事实上第二定律相比于模式的识别和描述并没有应用太多的法则。
开普勒第二定律表达的是,太阳和一个移动的行星之间的连线,在相同的时间内扫过的面积是相同的。这种行星运动的深刻对称性意味着,行星越靠近太阳,它沿着轨道运动的速度就会越快。但请注意,在行星和太阳之间实际上是没有线的。开普勒惊人的洞察力离不开对第谷·布拉赫数据的思考,以及长期的冥思苦想和灵感的爆发,最终他才想到利用一条无形的线来完成并检验他的假设。数据、灵感、假设以及最后与数据的比较是一个有着悠久历史的过程。开普勒第二定律其实是角动量守恒定律,牛顿的运动定律和重力理论也都是在此基础上提出的。牛顿的理论能够快速地被大众接受,也是因为开普勒的三个定律已经被验证是正确的。在牛顿诞辰300年的时候,约翰·梅纳德·凯恩斯(John Maynard Keynes)的一篇文章中关于牛顿是这样写的:“我猜测他早期的卓越是因为他直觉的力量,一个人所能被赋予的最强大、最坚忍的力量。”
统计学这个领域,本身就有点像卡利班(Caliban),它发源于数学和自然科学之间的孤立地带。它既不是一种纯粹的语言,也不是一种纯粹的关于自然的科学,它是一些用于测试假设的技术的综合。隔离的统计数据只能寻找过去的趋势和相关性,并假设它们将持续下去。但是,相关性不等于因果关系。
科学是一场战争,我们要在混乱的数据中寻找原因和解释。不要太迷恋数据科学,到目前为止,数据科学主要在广告和说服力方面比较有优势而已。数据本身不会发出声音。正如开普勒的传奇故事告诉我们的,根本不存在“原始”数据。选择要收集的数据,以及如何对数据进行思考,需要对无形的事物具有深刻的洞察力。如果想要对收集到的数据产生好的直觉,需要采用传统的方法:直觉、建模、理论化,最后才是统计。