疫情之下,重读《信号与噪声》,如何在危机中筛选正确的“信号”?| 充电

2020-03-07
今天,我们来分享书籍《信号与噪声》。

「充电」是创业邦推出的干货类栏目,旨在服务于繁忙都市下的互联网人、创投人士、企业家,成为碎片化时代的充电站。栏目以分享优秀书籍、电影、商业史、管理理论、精彩演讲为主题,希望能够帮你获取现学现用的足料干货,找到海量信息里最具价值的思想与内容。

今天,我们来分享书籍《信号与噪声》。作者纳特•西尔弗,是美国最具影响力的预测专家之一,检视了从飓风到地震、从经济到股市、从NBA到政治选举在内的众多领域的预测事例。本书旨在回答一个问题:如何才能从繁杂的海量数据中筛选出真正的信号,从而做出接近真相的预测。

图片来源:图虫创意

文:Dexter

连日来,全球多个国家新冠肺炎疫情升级。

世卫组织宣布,将新冠肺炎全球风险提至最高级别,全球疫情防控进入“决定性时刻”。世卫组织提倡,每个国家必须为所有可能发生的情况做好准备,任何国家都不应抱有侥幸心理。

面对持续肆虐的疫情,上海市新冠肺炎医疗救治专家组组长、复旦大学附属华山医院感染科主任张文宏,在2月28日接受媒体专访时表示:“现在中国的答卷正在交上来,确实2-4个月有可能控制住疫情,但是我们预测到了开始,没有预测到结果。”

科学的发展历程告诉我们,这个世界是一个复杂的系统。对于复杂系统,需要保持谦卑的态度,承认过去的经验不一定正确,更多依靠观察而非理论,去描述进而预测这个世界。

只有不断试错,不断完善自己的模型,才能无限逼近我们寻找的信号。

能预测总统大选的人

纳特·西尔弗,1978年出生于美国一个知识分子家庭。

他热爱棒球,早在童年时就是底特律老虎队的球迷,并且从少年时代开始,就热衷于收集和分析各种球员的数据。

2000年,纳特·西尔弗成为毕马威的一名经济咨询顾问。

不过,他似乎并不喜欢这份工作。两年后,他开始利用业余时间分析棒球,并为棒球杂志撰写评论,这是他预测分析事业的开端。

棒球和很多球类运动不同,它有着更丰富、更精确的数据统计。

西尔弗利用每年出版的公开数据,配合自己设计研发的一套数据模型,来判断一个投手的能力,并为棒球刊物撰写文章,预测球员的表现。

2004年,他从毕马威辞职,靠着风靡一时的德州扑克养活自己。

2007年,还在为棒球杂志写作的西尔弗开始撰写政治分析专栏,这个专栏后来演变成了538网站。

2008年美国大选,西尔弗的关注者从棒球迷扩展到全体公众。

因为在这一年,西尔弗利用自己研发的棒球数据预测模型,成功预测了美国大选结果。在全美50个州选举中,他成功预测了49个州的结果。

这使他一夜成名。

2012年,西尔弗再登神坛,成功预测了美国50个州的大选结果。

一时之间,出版社重金签约他的书稿,《纽约时报》邀请他开设政治专栏,并把538直接移到了自己的网站上,TED 大会邀请他演讲。

西尔弗走上了超级名人之路。

他不再是那个玩棒球数据的极客,而是一个能预测总统大选的人。

登上神坛的这一年,纳特·西尔弗的第一本书《信号与噪声》出版。它的英文副标题是“Why Most Predictions Fail but Some Don't”——为什么有些预测是错的而有些是对的。

所以,《信号与噪声》并不是一本讲信号处理的工程教科书,而是一本涉及总统选举、气象预报、医学、经济学乃至股市与赌博等不同领域的书籍。

本书所有的内容,都在讨论人为预测的心理需求,以及为什么很多预测和人们的直觉相悖。与《思考,快与慢》《魔鬼经济学》等书一样,很多内容都颠覆了传统思维。

关于预测,在《信号与噪声》这本书中,纳特·西尔弗并没有给出万灵丹,只是试图分析“预测”这件事。

准确的说,《信号与噪声》这本书只解答了两个问题,第一,为什么会出现大量的错误预测,第二,如何提高预测的准确性。

为什么预测大多是错的

纳特·西尔弗在《信号与噪声》一书中认为,我们大多数人,包括专家,在生活中往往表现得更像一个喝多了酒的司机。

他在书中写道:这个喝多了的司机正在权衡是否应该开车回家,他认为自己一生中开过大约2万次车,从来没有出过严重车祸。因此,基于庞大的样本规模 以及几乎完美的驾驶记录,他上路了。但他实际上做出了错误的决定。他的样本规模实际上为零,因为他另外2万次驾驶记录不能算数,而且那时候他更清醒。

所以,西尔弗认为问题的关键是,我们真的不善于做预测,因为我们倾向于挑选那些与观点相符的数据,而忽略其他数据。

在《信号与噪声》中,纳特·西尔弗提到,美国2007~2009年的金融危机,不仅让华尔街多家顶级投行陷入窘境,更让评级机构陷入尴尬。

以标准普尔为代表的评级机构在美国房地产泡沫、有毒债券泡沫破灭之前,乃至破灭过程中,仍在发表带有极强误导性的预测结论。

这些评级公司忽略了泡沫现象,严重低估了显示高风险的信息。

因为评级公司孤立判定许多项目内的风险,并在预估总体风险时将各项风险的概率相乘,这样就得出可以被忽略不计的极小数据;问题是,以次级债为例,涉及到的各个环节在风险上是相互连接的,即一个风险的爆发会触发其他的、系统性的风险,计算总体风险应该以最高风险值的项目为锚定。

并且,风险概率的存在,并不意味着风险事件将严格按照特定周期的时长出现,如果金融机构出现坏账的概率为5%,这并不能被理解为,在头一次坏账出现后的第20年才会曝出第2次坏账问题。

所以,归结起来,预测常常流于错误的第一个原因,就是我们对风险、概率等基本问题的不正确理解。

另外,国际政治学者常常通过大众媒体和自媒体,发表对其他国家政治选举的预测结论。一些学者的预测结论频频出错,并不是因为对影响政治选举结果的各项因素、风险、概率的理解出了问题,而是受到意识形态影响,在收集各方面信息得出预判之前,在自己的大脑里就形成了先入为主的判断,认为自己的判断是“应当正确”的判断,拒绝接受与之相反的信息。

纳特·西尔弗将这种学者称之为“刺猬型专家”,分析指出,他们虽然善于从噪声中辨识和捕捉信号,却遗漏和忽略了其他信号,预测正确率也因此降到了“路人”随机选择的胜率之下。

这样,先入为主、固执己见,就成为导致预测出错的第二个原因。

纳特·西尔弗建议人们,要注意吸取“刺猬型专家”的教训,学会“狐狸型”的预测方法,用概率的方法思考问题、重视外部信息,包括那些显示自己预判存在错误的信息,承认自己在做出判断时面临的局限性。

一个年轻运动员的成长潜力,是球探的主观经验更值得信赖,还是基于计算机平台的数据分析系统更靠谱,《信号与噪声》通过这个案例发现,只重视那些代表性存疑的数据,或者只依赖感性经验而得出预测,是预测出错的第三个原因。

但颇具讽刺意味的是,按照纳特·西尔弗的分析,导致预测出错的第四个原因,是预测者屈从于商业利益、社会观念压力而对预测结果所作的“技术性处理”。

比如,如果一项天气预报结论显示下雨,实际上并没有下雨,民众最多嘲讽预报机构“又错了”,但反过来,如果预报天晴却下了大雨,预报机构就会面临更大压力甚至诉讼。这直接推高了天气预报中的灾害天气比重。

金融机构往往也基于同样的考虑,“报喜不报忧”,免得因悲观预报信息而流失客户。

所以,预测的准确性有赖于预测者对不确定性的认识,预测者越能认识到自己的局限,对不确定性的影响越抱以敬畏,做出的预测就能相对更准确;反之,那些仅仅根据一套精妙的数据模型,或者在“大数据”系统的帮助下掌握更多信息,对不确定性不屑一顾的人,就会产生非常明显的偏离乃至错误。

如何筛选信号成功预测

在《信号与噪声》一书中,西尔弗用七章的篇幅,从失败的预测里提炼出三条准则:

首先,必须要有足够的信息,这是一切预测的大前提。如何在预测之前收集足够多的信息,也就成了预测成功与否的标准。

其次,预测需要一个适当的方法或模型,用来处理第一阶段里收集到的大量信息。

再次,以客观理性的态度对待这些信息以及经过处理后所呈现的数据。譬如在深蓝与卡斯帕罗夫对决中,深蓝就完美诠释了什么是客观与理性,相比而言,卡斯帕罗夫就稍逊一筹,当然大家都知道,深蓝只是一台机器。

在本书的第八章,西尔弗抛出了自己预测理论的基础——贝叶斯定理。

贝叶斯定理是英国数学家 托马斯·贝叶斯1763年提出的一个理论。不过,贝叶斯的生平记载很少,但有一部很重要的著作流传下来,叫《机会的学说概论》。他的思想被法国概率论学家 拉普拉斯 发扬光大,形成了统计学中的贝叶斯方法。

这个定理可能是概率论中最为有名的定理之一。

在贝叶斯的观点中,任何未知的事物都可以被建模为一个概率分布,而预测的任务就是给定最初的猜测,不断地使用新的证据、新的发现更新最初的猜测。

在贝叶斯的语境中,最初的猜测即主观的“先验概率”,经过新的证据更新之后,形成了“后验概率”。贝叶斯定理将主观的先验不停地使用新的证据更新,从而逐渐地逼近真相。简而言之,就是一句话,观念随着事实发生改变。

贝叶斯定理通过简单的计算就可以推导出重大的预测。

比如,它的一个有趣应用就是德州扑克。在德州扑克中,当玩家看到自己的底牌时,都会形成一个对其他玩家的先验概率,以后每次发牌及下注,玩家都可以通过这些公开信息,不断地更新对其他玩家的后验概率,同时根据这一预测进行下注。

实际上,科学知识的积累,也可以看成是贝叶斯定理中更新后验概率的过程。

一直以来,科学研究强调客观性。

但物理学家和哲学家迈克尔·波兰尼在《个人知识》一书中质疑:从科研工具的制造到科研过程的深入,每一个阶段都有人的主观性介入;马歇尔在《经济学原理》中也有类似的观点,认为经济学的假设都有内涵人的主观判断。

《信号与噪声》中就是上述思路的通俗的表达,也是贯穿全书的主线。

西尔弗认为预测的困难来自于测量,而测量可以分为易观察的和不易观察的。前者受人的主观性影响较小,而后者的测量更多地要依靠人的想象力和创造力。

预测成功的关键在于有没有承认人的无知,而不是对自己采用的模型和方法的科学性、客观性过于自信。

对工具本身过于自信,就不容易识别出噪音,从而失去正确的预测信号;只有承认自己的无知,下结论时遵循贝叶斯式的概率思维,才能时刻警惕噪音的存在,发现真正的信号。

贝叶斯定理在投资学中广泛应用,互联网的很多技术也依赖于此。

尽管贝叶斯定理在预测方面有非常高的成功率,但西尔弗还是反复强调预测的困难性。

因为在大数据时代,在人们拥有的数据呈指数级增长的同时,人们需要检验的因果关系,也呈指数级增长,这就导致每个因果关系成立的可能性都不高,或者说,每个因果关系成立的先验概率都不高。

在这种情况下,根据贝叶斯定理,人们极有可能在众多的因果关系中,将没有因果关系误认为存在因果关系,因而在大数据时代,人们面临的挑战也就更加严峻了。

小结

纳特·西尔弗的《信号和噪声》(The Signal and the Noise)和纳西姆·尼古拉斯·塔勒布的《反脆弱》(Antifragile)一样,都是就人们如何最大效率地利用随机性进行阐述,但他们在书中探讨的重点却有所不同,西尔弗是关于预见性,塔勒布是关于不确定性。

有趣的是,虽然在《信号与噪声》出版的2012年,西尔弗成功预测了奥巴马第二次当选总统,并且准确预测了两位总统候选人在每个州的胜负,但是在2016年的大选中,他却没预测到希拉里会落选,特朗普会上台。

所以,即便是利用经过验证的预测工具,在预测中依然有可能遭遇失败。

西尔弗认为:“从噪声中区分信号既需要科学知识,也需要自知之明,比如,平静地承认我们无法预测的事物,勇敢地说出我们能够预测的事物,并区别二者的不同。”

一个好的预测者,就应该客观中立,不受政治偏见影响,不断修正自己的预测工具,用新的数据补充原有数据,大方承认自己的缺陷和不足。

关于这一点,塔勒布在《反脆弱》中也表示:我们应该持更加开放的态度,因为成功和新发现不能事先计划,它们往往是笨手笨脚、即兴行动的结果。

1688年,牛顿发表《自然哲学的数学原理》,世界自此进入 “大科学”时代。人们认识到,天空没有宙斯的神殿,海洋也不是波塞冬的地盘。

但后来,相对论、量子力学、海森堡不确定性原理等现代物理学理论,撕裂了“绝对时空观”、“因果决定论”。

科学家的认知边界也在不断扩大,他们也有信号与噪声的问题,就如同人们对这次疫情的预测一样。

精彩语录

数据本身不能发声,但我们却可以作为数字的发言人,赋予它们意义。

我们可能会以对自己有利的方式对这些数据进行分析和解释,而这些方式很可能与这些数据(所代表)的客观现实不吻合。

预测的重要性是因为它连接着主观世界与客观现实。假设并不科学,可证伪的假设才是科学的。

贝叶斯定理(条件概率,事件A发生后事件B发生的概率是多少?)表明,必须从不同角度去思考我们的想法,以不同的方式检验想法。坦然面对各种可能性和不确定性,更加周详地考虑对一个问题的假设和看法。

最失败的预测通常有很多共同点,即我们只关注那些符合我们对这个世界的期许的信息,而不在乎其真实性。

人为的判断终究会存在潜在的偏见。只有认识到假设对预测的影响,并从自身找问题,才能做到更加客观。

语言就是一种模型,一种我们用于互相沟通的近似值。

读书笔记

本文为创业邦原创,未经授权不得转载,否则创业邦将保留向其追究法律责任的权利。如需转载或有任何疑问,请联系editor@cyzone.cn。


来源:创业邦