火狐体育NBA直播欢迎您!恒温恒湿产品及设备生产厂家
全国咨询热线: 13689511755

【周末】超预测:预见未来的艺术和科学(4)

【周末】超预测:预见未来的艺术和科学(4)

作者:火狐体育NBA直播1970-01-01 08:00:00

  在医生终于学会自我怀疑后,他们开始借助随机对照试验来科学地检测哪种治疗方法有效。将严格的评估过程引入预测似乎更容易做到:搜集预测,判断准确性,打分。就是这样。我们大家可以立刻知道托马斯•弗里德曼到底有多么出色。

  然而,真实的操作绝非如此简单。请看2007年担任微软首席执行官的史蒂夫•鲍尔默(Steve Ballmer)当时的一次预测:“iPhone(苹果手机)绝对没机会获得可观的市场份额,绝无机会。”

  鲍尔默的预测臭名远扬。在谷歌上搜索“鲍尔默”和“最糟糕的科技预测”(鲍尔默更喜欢用必应),你会看见搜索结果被列入了预测耻辱榜中,共同登榜的还有美国数字设备公司董事长在1977年的经典语录:“想要在家里放置一台计算机,这完全不合情理。”鲍尔默的预测看起来适合上榜,是因为它错得离谱。按照2013年“史上十大最糟糕的科技预测”一文作者的说法,“iPhone占有美国市场42%的份额,在全世界市场占有率为13.1%”。这非常“可观”。另一位记者则写道,当鲍尔默在同一年宣布离开微软时,“仅iPhone这一款产品现在的收入已超过微软所有产品的收入总和”。

  我们来仔细分析鲍尔默的预测。关键词是“可观的市场份额”。什么才算是“可观”?鲍尔默没有说。他谈论的是哪个市场?北美,还是全世界?什么产品的市场?智能手机,还是所有手机?所有这些没有回答的问题共同构成了一个大问题。分析预测的有效成分和无效成分的第一步就是评估预测,为此我们不能猜测预测的含义,而是必须确定。一个预测不能有任何模糊性,才能判断是否准确,而鲍尔默的预测就含糊不清。没错,它看起来就不对,让人感觉就不正确。大家的立场很明确,它确实是错误的。但是,撇开各种合理质疑不谈,我们要问一句,它就真的错了吗?

  如果读者认为这样的论述太像律师的口吻,让人想起比尔•克林顿那句饱受诟病的话—“这得看‘是’这个字在这里是什么意思”,我是不会因此指责你们的。毕竟,鲍尔默的话语看起来简单明了,即使逐字解读也看不出什么深意。不过,我们还是联系上下文来看看他的完整叙述,这是他在2007年4月接受《今日美国》采访时的一段话:“iPhone完全没机会获得可观的市场占有率,绝无机会。这是一款每台补贴500美元的产品。苹果也许能赚不少钱。但是,想到13亿已经售出的手机,我宁愿在其他厂商的手机而不是iPhone上安装我们的软件,前者的市场占有率能达到60%、70%甚至80%,而后者也许只有2%或3%。”这段话澄清了几个问题。其一,鲍尔默谈论的显然是全球手机市场,因此,根据美国或全球智能手机市场份额来评判鲍尔默的预测是错误的做法。我通过市场研究公司Gartner IT的数据计算出,2013年第三季度iPhone在全球手机市场的占有率约为6%。鲍尔默所预测的“2%或3%”比实际数字略低,但是也不至于像经常被引用的那个断章取义的版本那样,错到令人捧腹。其二,请注意,鲍尔默没有说iPhone将是苹果公司的滑铁卢。事实上,他说的是:“苹果也许能赚不少钱。”但是这里仍然有歧义:iPhone在全球手机市场的占有率要超出2%或3%多少,才能被视为“可观”?鲍尔默没有说。另外,当他说苹果可以赚“不少钱”时,到底指的是多少钱?他还是没说。

  那么,史蒂夫•鲍尔默的预测错在哪里?他语气轻蔑,盛气凌人。在《今日美国》的访谈中,他似乎在嘲笑苹果公司。可是他的用词比语气更加微妙,语意太过模糊,咱们不可以就此宣称他的预测就是错的,至少远远够不上列入预测耻辱榜的程度。

  某个预测初看起来一目了然,像刚被清洗过的窗户一样,但后来被证明太过含糊,以至于无法被定性为对或错,这种现象实在是稀松平常。让我们仔细想想2010年11月那封被寄给时任美联储主席本•伯南克的信吧。这封信由众多经济学家和评论家共同签名,其中包括哈佛大学经济史学家尼尔•弗格森和美国外交关系协会的阿米蒂•什莱斯(Amity Shlaes)。它呼吁美联储停止被称为“量化宽松”的大规模资产购入政策,因为该政策“产生了货币贬值和通货膨胀的风险”。美联储对建议不予理睬,继续执行量化宽松政策。投资人、评论家巴里•里索尔兹(Barry Ritholtz)在2013年写道,事后证明这些签名者“大错特错”。他的评论得到许多人赞同,但也有一种显而易见的反对声音:“别着急,还没到时候。终归会发生的。”里索尔兹和批评人士争论的也许是,在2010年那场争论中,写信的人是否认为如果继续执行货币宽松政策,货币贬值和通货膨胀会在未来两年或三年出现。也许会,但是这不是那封信所包含的内容,它根本就没有提到时间框架。即便里索尔兹等到2014年或者2015年或者2016年再来评价这封信,也无关紧要。无论过去多长时间,总会有人说:“等着瞧吧,会来的。”

  此外,美元要贬值多少,通货膨胀率要上升到多少,才能算是“货币贬值和通货膨胀”,那封信也没有说清楚。更糟的是,它提到存在美元贬值和通货膨胀率上升的“风险”,意味着这样的情形不一定会发生。所以,逐字逐句解读这个预测,它说的是货币贬值和通货膨胀可能会伴随货币宽松政策而来,也可能不会,就是说,如果一切正常,该预测也不一定就是错误的。这肯定不是写信的人想要传达的信息,也不符合当时人们对此番言论的理解。可是,这的确就是这段话所表述的意思。

  总之,以上两个例子就是我们经常遇到的那种预测。它们是一群聪明人以认真的态度尝试思考大问题的结果。它们的意义看似清晰明了。随着时间的流逝,它们的准确性似乎也一目了然。然而,实际情况并非如此。撇开各种争议来看,由于各种原因,我们不可能说这些预测对或错。事实是,真相难以定论。

  判断预测正确与否比通常人们所想象的要困难许多,这是我吃尽苦头、从令人恼火的丰富经历中得到的教训。

  20世纪80年代初,很多有思想的人认为核弹爆炸后的蘑菇云将出现在人类未来世界中。“如果我们内心诚实,那么我们必须承认,除非清除核武库,否则一场大毁灭将会到来,”乔纳森•谢尔(Jonathan Schell)在其有影响力的著作《地球之命运》(The Fate ofEarth)中写道,“不是今天,就是明天;不是今年,就是明年。”反对军备竞赛的运动让数百万人走上西方各国的城市街头。1982年6月,据估计有70万人在纽约,这是美国历史上规模最大的之一。

  1984年,美国国家科学院的研究分支国家研究理事会借助来自卡内基基金会和麦克阿瑟基金会的资金支持,召集了一个特别小组,其任务竟然是“阻止核战争”。组员包括诺贝尔奖获得者—物理学家查尔斯•汤斯、经济学家肯尼斯•阿罗以及无法归类的赫伯特•西蒙,还有若干杰出人物,例如应用数学家、心理学家阿莫斯•特沃斯基。我是小组中最不引人注目的成员,当时30岁—政治心理学家,刚升为加州大学伯克利分校副教授。我在其中占有一席之地,并非因为职业生涯硕果累累,而是因为一项古怪的研究计划,它恰好与小组的使命有密切关系。

  这个小组非常勤奋。它邀请了一系列专家来讨论这个问题,专家中有情报分析师、军官、政府官员、军备控制专家和苏联问题专家。这群人同样令人印象深刻。他们知识丰富、聪明、表达能力强,相当确信自己知道目前的形势和我们未来的方向。

  至少在基本事实上大家达成了一致。执政多年的苏联领导人列昂纳德•勃列日涅夫已于1982年逝世,取代他的是一位身体虚弱的老人,不久也去世,新上任的领导人是康斯坦丁•契尔年科,人们认为他也活不长久。至于接下来将会发生什么,我们既有一致意见,也存在争议。自由派和保守派基本上都认为下一位苏联领导人也会是一位坚定的员。但是,在为什么形势会这样发展的问题上,我们出现了分歧。自由派专家相信,罗纳德•里根总统的强硬政策让克里姆林宫的势力得到加强,这将会造成新斯大林主义对苏联政坛的整顿,使超级大国的关系恶化。保守派专家倾向于认为,苏联体系已经大大优化极权主义自我繁殖的能力,故而新领导人将和前任保持一致,他将继续支持叛乱,侵略邻国,进而威胁世界和平。两派都对本方观点充满信心。

  专家们对契尔年科的判断是正确的。他死于1985年3月,但之后历史的列车猛然拐了一个弯。借用卡尔•马克思当年的俏皮话来说,当这一切发生时,这些知识分子都被甩出了列车。

  在契尔年科死后几个小时内,苏共政治局在冥冥之中选择了活力十足、魅力非凡、时年54岁的米哈伊尔•戈尔巴乔夫作为苏联下一任。戈尔巴乔夫以雷霆之势改变了苏联的发展方向。他的“公开性”和“改革”政策使苏联成为自由国家。戈尔巴乔夫还试图实现对美关系正常化,阻止军备竞赛。罗纳德•里根起初谨慎地回应苏联的橄榄枝,后来又热情高涨。仅仅几年间,世界就摆脱了核战争的前景,进入新的时代,在这个时代,许多人,包括苏联和美国领导人,看到了共同削减核武器的一线曙光。

  很少有专家预见到这样的变化。然而,不久之后,大多数未能准确预测苏联局势的专家又开始确信自己完全知晓苏联剧变的原因和未来趋势。对自由派而言,这一切绝对在情理之中。苏联经济将要崩溃,新的一批苏联领导人厌倦了与美国费时费力的争斗。戈尔巴乔夫在履职前一天对妻子赖莎说,“我们不能再这样下去”。苏联的变化必然会发生。仔细回顾一下,也没有那么令人震惊。当然,里根帮了倒忙。他所说的“邪恶帝国”一词提高了克里姆林宫守旧派的支持度,延缓了必然到来的变革。对保守派而言,原因也是显而易见的:苏联通过加大军备竞赛的赌注来虚张声势,被里根识破,现在戈尔巴乔夫要减少赌注。仔细回想过往种种,这完全是可以预测的。

  我冷眼旁观,开始怀疑:无论发生什么,这些专家都会熟练地淡化自己预测的错误,并且讲出一段历史,以表明他们一开始就预见到形势的变化。要知道,世界刚见证了一场剧变,所涉及的是我们能想到的最重大的问题之一。如果这还不能让我心生疑虑,那么还有什么可以做到?我不是质疑这些专家的智力和诚信,在我还是一名小学生时,他们当中许多人已经获得过科学大奖或在政府部门担任高级职位。但是,仅靠智力和诚信还不够。国家安全精英与生活在近代科学兴起之前的时代的知名医生们非常相似。那些医生也绝顶聪明,绝对守诚信。可是,鼻尖错觉可以愚弄任何人,即便是最高尚的人、最聪明的人也无法避免,也许,他们正是特别容易被愚弄的群体。

  上面说的这个例子让我开始反思专家的预测。1988年某日的午餐时间,后来在伯克利分校成为我同事的丹尼尔•卡尼曼抛出了一个可验证的想法,事后证明他的想法具有先见之明。他猜想,智力和知识会提高预测水平,但由此造成的差距会迅速缩小。拥有博士学位或数十年经验的人的预测准确性可能仅仅略高于《》的热心读者。当然,那时卡尼曼只是这样猜想,不过,现在他的这一猜想仍然还是猜想。没有人认真验证过政治问题专家预测的准确性。我不断地思考这个现象,越来越清楚无人接受这项挑战的原因。

  考虑一下时间表的问题。显然,没有时间表的预测是荒唐可笑的。但是,预测者通常不会提及时间表,例如他们写给本•伯南克的信就是这样。他们并非不诚实,至少不会经常使诈。确切地说,他们脑海中有一份时间表,大众对这份时间表产生了共同的带有暗示意味的但又粗糙的理解,预测者利用的就是这种效果。这就是没有时间表的预测看起来也不会荒唐可笑的原因。可是,随着时间流逝,记忆渐渐褪去,曾经看似显而易见的得到默认的时间表如今不再那么清晰,其结果经常是一场关于预测的“真正”含义的无聊争论。这件事预计今年还是明年发生?这个10年还是未来10年?没有时间框架,就没有办法解决这些争议,让大家都满意,尤其是当争吵发生在网上时。

  仅仅这个问题就造成了日常生活中许多预测无法验证。与之类似的是,预测经常利用受众对关键词的暗示性理解而不是明确的说明,例如史蒂夫•鲍尔默的预测中的“可观的市场份额”。这种语意含糊的措辞是常态,而不是特例。它也是预测不可验证的原因之一。

  有些预测容易判断,因为它们明确宣称某事会或者不会发生,例如乔纳森•谢尔关于核战争的预测。我们要么销毁核武器,要么“一场大毁灭……将会到来”,谢尔写道。事后证明,无论是在谢尔的书出版的那一年还是在第二年,两个超级大国都没有销毁核武库,但也没有发生核战争。所以,从字面上理解,谢尔显然预测错误。但是,如果谢尔说核战争“非常可能”发生,他错了吗?答案就不那么显而易见了。谢尔也许极度夸大了风险,或者也许完全正确,只是人类幸运地熬过了历史上最疯狂的俄罗斯轮盘赌 [1] 。确定谢尔的预测对错与否的唯一方法就是反反复复重新推演历史,如果在大多数推演中文明在重重的放射性尘埃中毁灭,我们就能知道谢尔是对的。可是我们无法推演,因此也无法知道谢尔的对错。

  不过,想象一下我们是万能的生物,可以做那样的试验。我们上百次地重新推演历史,发现63%的推演以核战争结束。谢尔说对了?也许。但我们仍然不能自信地说出这一点,因为我们不知道他所说的“非常可能”到底意味着什么。

  这听起来也许像诡辩。可是,正如谢尔曼•肯特(Sherman Kent)所发现的那样,它的意义要复杂得多。

  在情报界,谢尔曼•肯特是个传奇人物。他拥有历史学博士学位,在耶鲁大学当过一段时间的教员,后离开耶鲁加入1941年成立的美国情报协调署的研究和分析处。情报协调署后来发展为战略情报局,后者则是中央情报局的前身。肯特于1967年从中央情报局退休,在那里他深刻地影响了美国情报机构的情报分析方法,即系统地分析由间谍和监控人员搜集的情报,弄清楚其意义,判断接下来会发生什么。

  肯特工作的关键词是评估。他写道,“当你确实一筹莫展时,你要做的就是评估”。正如他一再强调的那样,我们绝对不会真正知道未来形势如何变化。既然如此,预测的全部功能就是评估某事发生的可能性,多年以来肯特和同事们在美国国家评估办公室的工作就是做评估。这个机构鲜为人知,但有着巨大影响力,其职责是利用中央情报局获得的一切情报,在这基础上做出预测,这些预测也许有助于美国政府的高级官员制订下一步计划。肯特和同事们的成绩绝对谈不上完美。他们最受重视的预测是发表于1962年的一份评估报告,该报告称苏联不会蠢到在古巴部署进攻性导弹,而事实上,当时苏联已经那么做了。但是,他们的评估绝大部分受到重视,因为肯特对分析的严谨性一直保持高标准。编写国家情报评估报告涉及重大利益,每一个字都不可轻视。肯特对所有文字一视同仁。可是,即便是肯特的专业素养也无法避免给人们造成困惑。

  在20世纪40年代末,南斯拉夫的政权与苏联决裂,人们担心苏联会入侵南斯拉夫。1951年3月,《国家情报评估》发布29~51号报告。“尽管我们不可能确定克里姆林宫会采取什么样的行动,”报告总结道,“但我们相信,(东欧)军事准备和宣传工作的规模表明,1951年对南斯拉夫的进攻应被视为大概率事件。”从大多数标准来看,这段话清晰明了,言之有物。不过,没有人透露关于南斯拉夫局势的预测何时发布,政府高层又是何时看到这个预测。几天后,肯特与国防部一位高级官员聊天,后者随口问道:“顺便问一下,你们这些人所说的‘大概率事件’是啥意思?你认为有多大可能性?”肯特回答,他感到悲观。他认为军事行动发生和不发生的概率之比为65%∶35%。这位官员大吃一惊。他和同事曾认为“大概率”要比肯特的评估小得多。

  心烦意乱的肯特回到了团队。之前他们一致同意在《国家情报评估》上使用“大概率”的措辞,肯特请每个同事回答这个措辞的含义是什么。一位分析师说它表示正反概率比约为80%∶20%,也就是说,南斯拉夫可能遭受侵略的概率是不会遭受侵略的概率的4倍。另一名分析师则认为正反概率比为20%∶80%,恰好相反。其他人的回答介于两个极端之间。肯特感到困惑。一个看起来是以大量情报分析为基础的措辞竟然含义如此模糊,以至于几乎毫无用处。也许更糟,因为它引起了危险的误解。他们的其他工作又是什么情况呢?肯特在1964年的一篇杂记中写道:“他们难道一直以来都认为,用5个月时间做评估却没有达成任何共识,这也是值得的吗?”“《国家情报评估》发布的报告难道随处可见‘大概率’或者其他对撰写人和读者而言意义可任意解读的词句吗?当我们写出这样的句子时,我们到底要表达什么?”

  肯特的担忧不无道理。1961年,中央情报局计划颠覆卡斯特罗政权,他们的方案是将一支由古巴流亡分子组成的小队伍运送至猪湾登陆,约翰•F•肯尼迪总统要求军方进行全面评估。参谋长联席会议的结论是,该计划有“一定机会”获得成功。写下“一定机会”的人后来说道,他当时想到的成功概率为25%。可是,肯尼迪从未被确切告知“一定机会”意味着什么,而他则认为这是一个非常正面的评估,他的想法也不是不合情理。当然,我们也不能肯定,如果参谋长联席会议说“我们认为这次入侵失败的概率为75%”,肯尼迪会取消这次行动。但可以肯定的是,那样的措辞会让肯尼迪在授权这次后来被证明是一场彻头彻尾的大灾难的行动时更加谨慎。

  谢尔曼•肯特提出了一个解决方案。首先,因为分析师必须对某些重大事务做出评估,但又无法合理地定出概率,所以“可能”这个词应该为这类事务专用。如果说某事“可能”发生,那么它的可能性就从接近零到接近100%。当然,这么说无助于事,因此,分析师应当尽可能缩小评估范围。为了避免造成困惑,分析师的措辞应该包含定量评估,肯特制作了一张表加以说明。

  按照此表,如果《国家情报评估》宣称某件事“很有可能”发生,意味着发生概率为63%~87%。肯特的表很简单,并且大大减少了困惑出现的机会。

  但这份表格从未被采用。理论上说,人们喜欢准确明晰的语言,可是,需要做出准确明晰的预测时,他们对数字就不那么热衷了。有人说,数字让他们感觉不自然或者尴尬,的确,当他们一生都在使用模棱两可的语言时,他们会有这种感觉。可是,这只是拒绝变革的牵强借口。其他人则从美学角度表达自己的反感。他们认为,语言自有诗意,用数字来说明可能性,显得俗气,让你听起来像是赌马的人。肯特没有被这种观点折服。“我宁愿当赌马者,也强过做诗人。”这是他的经典回答。

  一直以来,还存在一种更加严肃的反对意见:用数字表示可能性评估结果,会给读者一种暗示,即这个结果反映了客观事实,而不是主观判断。这会带来危险。解决的办法不是去掉数字,而是告知读者,数字就如同文字一样,只是表示评估结果,也可以说表达观点,仅此而已。与此类似的是,人们认为,数字的精确度含蓄地说明了“预测者就是知道这个数字正确”。但是,这并非预测者的意图,所以我们仍旧是不要妄加猜测。此外,请记住,像“大概率”这样的用词所传递的信息和数字相同,唯一真正的不同之处在于,数字含义明确,减小了造成困惑的风险。数字还有另一个好处:模糊的思想很容易用模棱两可的语言来表达,可是当预测者不得不将“大概率”这样的词汇转换成数字时,就不是那么简单了,他们必须认真思考自己的认知过程,这个过程被称为“元认知”(metacognition)。训练有素的预测者更擅长辨识更加细分的不确定性,正如画家比普通人更擅长辨别更加不易察觉的灰度。

  要采用数字作为预测结果,还有一个更基本的障碍,与责任心有关,我称之为“错误划分”缺陷(wrong-side-of-maybefallacy)。

  如果一位气象学家预报说下雨的概率为70%,但最终并没有下雨,那么她的预报就错了吗?不一定。她的预报也含蓄地说明了,不下雨的概率为30%。所以,如果确实没有下雨,她的预报可能是错的,也可能完全正确。仅凭当前的这一次预报是不可能下结论的。确定对错的唯一方法是数百次重复“运行”这一天,如果在这些重复中,有70%的日子下雨,30%的日子没下雨,那么她的预报正中目标。当然,我们不是万能生物,不可能让同一天反复出现,因此也不可能判断气象学家的对错。可是人们确实会做判断,并且总是按照同样的方式进行判断:以50%作为“可能”的对应概率,预测者提出的概率在“可能”的左侧,代表“不可能”;在右侧,代表“肯定”。如果天气预报说下雨的概率为70%(右侧),而且的确下雨了,人们就认为这次预报准确;如果没有下雨,预报会被视为不准。这种简单的错误极为常见,经验丰富的思考者也在所难免。2012年,美国最高法院考虑公布民众期待已久的关于奥巴马医改法案是否违犯宪法的判决,预测市场—人们对可能出现的结果下注的市场—认定该法案被驳回的概率为75%。当最高法院判定法案不违宪时,目光敏锐的《》记者戴维•莱昂哈特(DavidLeonhardt)宣称:“体现群体智慧的市场错了。”

  这种基本错误的流行带来了可怕的后果。设想一下,某情报机构声称某事件发生的概率是65%,那么,如果该事件没有发生,这家机构就可能遭到公开谴责。另一方面,因为这个预测本身还说明事件不会发生的概率是35%,这又是一个很大的风险。那么,怎样做才安全呢?答案是:坚持使用灵活的语言。说出“一定机会”和“大概率”的预测者都可以利用“错误划分”缺陷为己服务。如果该事件确实发生了,预测者可以夸大说,当初使用“一定机会”这样的措辞,指的是远远大于50%的概率,这样一来,预测者就说中了。如果事件没有发生,可以说指的是远远低于50%的概率,于是,预测者还是说中了。由于这种不正当的激励的存在,人们喜欢弹性语言胜过刚性数字,也就不足为奇了。

  肯特无法克服这种政治上的阻碍,但他支持使用数字的立场却随着岁月的流逝越发坚定。越来越多的研究表明,人们使用“可能”“也许”“很有可能”这样表示概率的词汇时,所表达的意义千差万别。而情报圈依然排斥肯特的理念。只有在所谓的萨达姆•侯赛因的大规模杀伤性武器被摧毁以及随后发生的批发业改革之后,以数字表示概率的理念才被更多人所接受。中央情报局分析师告诉奥巴马总统,居住在一座巴基斯坦大院里的神秘人物有70%甚至90%的可能性就是奥萨马•本•拉登。这是已过世的谢尔曼•肯特的一个小小的胜利。在其他一些领域,数字已成为标准工具。在天气预报中,“阵雨机会不大”已让位于“30%的阵雨机会”。可是,令人失望的是,含糊不清的语言仍然如此普遍,媒体的情况尤甚,以至于我们很少意识到这样的语言有多么空洞。它就从我们的耳边溜过,丝毫没有引起我们的关注。

  2012年1月,哈佛经济史学家、媒体评论员尼尔•弗格森告诉一位采访者,“我认为欧洲债务危机还没有解决,也许非常接近关键点了……希腊债务违约可能只是时间问题”。弗格森的预测准确吗?所谓“违约”,普遍的理解是对全部债务赖账,而在预测发表之后,无论是从短期、中期还是长期来看,希腊都没有这么做。但是对于“违约”,还有一种技术上的定义,在弗格森做出预测后,希腊曾经在短期内实施过。弗格森采用的是哪种定义?我们不清楚,所以,我们无法确定有任何理由认为弗格森说对了。可是,想象一下希腊没有任何类型的违约行为,我们能说弗格森错了吗?不能。他只是说希腊“可能”违约,而“可能”是个空泛的词。它指的是某事可能发生,但绝对没说明概率。几乎所有事情都有“可能”发生。我可以自信地预测地球明天可能遭到外星人攻击。如果没有发生呢?我也不算说错。每一个“可能”都要标上星号,在它身后隐藏着一行小字:“可能不会”。但是采访者没有注意到弗格森预测中隐藏的那行小字,因此没有要求他做出详细解释。

  如果我们以严肃的态度对待评估和改进,上述情况不会发生。预测应当使用语意清晰的措辞和时间框架,应当使用数字。还有一件事至关重要:我们应该有许多预测。

  我们无法让历史重演,因而不能判断单个基于概率的预测准确与否。但是,当我们有许多预测时,一切都会改变。某位气象学家说明天下雨的概率是70%,我们无法对其做出判断。但是,假如她预测的是明天、后天、大后天的天气,连续几个月如此,那么,我们可以将她的预测制成图表,统计出预测记录。如果她的记录非常出色,也就是说,在她预测下雨概率为70%的那些日子里,果然有70%的日子下了雨;预测下雨概率为30%的日子里,30%的日子被说中。诸如此类。这个过程被称为“吻合度分析”,我们可以将其绘制成一张简图。下图的对角线显示了理想的吻合度分析:

  如果气象学家的曲线远在对角线之上,说明她不自信:她认为某段时间下雨概率为20%,实际上很可能达到50%[见图3–2(a)]。如果她的曲线远在对角线之下,说明她太过自信:她认为概率为80%,事实上很可能只有50%[见图3–2(b)]。

  这个方法非常适用于天气预测,因为每天都是新气象,预测记录可以迅速累积起来。但对于总统选举这样的事件,它的效果就没那么好了,因为要积累足够数量的预测来完成统计工作,时间跨度会长达几个世纪,而且选举不能被战争、瘟疫和其他大事件打断。这就需要我们发挥一点创造力。举例来说,我们可以关注州一级的总统选举预测,这样,每次大选我们就有55个结果。不过还是有个问题。进行吻合度计算需要大量预测,对于罕见事件而言,判断预测准确程度就不切实际。即便是对于常见事件,要做好吻合度分析工作,也意味着我们必须是耐心的数据采集者和谨慎的数据阐释者。

  尽管吻合度分析工作很重要,但它还不是全部,因为当我们考虑理想的预测准确率时,想到的不是“理想的吻合度”。理想的预测是无所不知的上帝才能做到的。它说“这事会发生”,就一定会发生;说“这事不会发生”,就一定不会。用一个专业术语来说,这是“意志”(resolution)的体现。

  图3–3显示了吻合度和意志如何反映准确预测的不同方面。图3–3(a)展现的是理想的吻合度和糟糕的意志。说它展现理想的吻合度,是因为当预测者认为某事发生概率为40%时,在预测期内,的确有40%的时间发生了这件事,同样,60%的概率也可做此解释。说它展现糟糕的意志,是因为预测者始终没有跳出40%~60%之间的“错误划分”区域。图3–3(b)展现的是超级吻合度和意志。之所以称之为“超级吻合度”,是因为它与前面一样,真实的情况与预测概率相符,例如预测的概率为40%,实际发生率也是40%。不过,这次预测者更加决然,预测工作非常出色,确实发生的事被赋予高的概率,没有发生的事则被赋予低的概率。

  综合分析吻合度和意志,我们就建立起一套计分系统,这套系统将全面反映我们对如何做一名出色的预测者的认识。有人说X事件的概率是70%,如果X事件确实发生了,则此人的分数将非常之高。但是,说X事件的概率是90%的人会拿到更高的分。再进一步,胆子大到正确预测X事件的概率为100%的人得到的分数最高。不过,骄傲自大的人一定会受到惩罚。对于那些说X事件必定发生的预测者,如果预测失败,这些人将遭受沉重打击。打击会沉重到什么程度,我们不宜下定论,但是,用赌博的思维来做预测,是明智之举。如果我说美国内战中北方佬打败南方人的可能性是80%,而且我愿意在这个问题上下注,我提供给你的是4赔1的赔率。如果你加入我的赌局,下注100元,那么,如北方军队获胜,你付给我100美元,反之我付给你400美元。但是,如果我说北方佬获胜的可能性为90%,那么,赔率提高至9倍。如果我说概率是95%,赔率又升至19倍。这个极端情况。假如你同意赌注为100美元,那么在北方佬战败的情况下,我要付给你1900美元。我们的预测评分系统应该反映出那种痛苦。

  这套系统所使用的运算方法由格伦•W•布莱尔(GlennW.Brier)于1950年创建,因此我们将评分结果称为布莱尔得分。事实上,布莱尔得分评估的是预测的内容和实际情况之间的差距。故而,布莱尔得分类似于高尔夫比赛的记分:越低越好。完美记分为0。五五开,或者随机猜测一个概率,得到的布莱尔得分为0.5。错误程度最高的预测,例如认为某事百分之百会发生,事实上却没有,这样得到的分数是极其糟糕的2.0,说明该预测与实际情况差了十万八千里。

  我们已经走完了一段长长的路。首先,我们用清晰明了的术语和时间框架来进行预测。然后,我们搜集大量包含数字的预测,运用数学来计算得分。我们在人力所及的范围内尽可能地将预测中的模糊成分挤掉。现在,新启蒙时代正在召唤我们,对吧?

  [1]俄罗斯轮盘赌是一种残忍的赌博游戏。与其他使用扑克、色子等赌具的赌博不同的是,俄罗斯轮盘赌的赌具是左和人的性命。—编者注

  不尽然。记住,这项工作的整个目标在于判断预测的准确性,以便我们能够发现哪些因素在预测中发挥积极作用,哪些不发挥作用。为了实现这个目标,我们一定要阐述布莱尔得分的意义,而这还需要两个要素:标准和可比性。

  假定我们发现你的布莱尔得分为0.2。这还远远达不到上帝才拥有的无所不知(记分为0),但比黑猩猩掷飞镖似的猜测(记分为0.5)强多了。也就是说,它在我们所预期的人类正常水平范围内。不过我们还能从中挖掘出大量信息。某个布莱尔得分所包含的意义取决于预测的对象。例如,我们可以非常轻松地想象出某些情形,在这些情形中,0.2分是个令人失望的分数。考虑一下亚利桑那州凤凰城的天气。每年6月,这里骄阳暴晒,酷热难耐。一名预测者遵从这样的无脑规定:“始终将第二天天气晴朗炎热的概率记为100%。”他的布莱尔得分可能为0,秒杀0.2。这里,正确的技能测试应该是,预测者能否在不动脑筋地重复同样预测的基础上做得更好。这一点还未得到重视。举例来说,2012年美国总统大选之后,纳特•西尔弗、普林斯顿大学的山姆•王(Sam Wang)和其他一些民意测验数据采集者受到热捧,因为他们正确预测了所有50个州的选举结果。可是,几乎没有人注意到,有这样一种简单的周期性的预测:“历史重演”,即某个州2008年由或共和党执政,2012年仍会如此。这种预测能说中48个州的结果,这意味着,我们听到许多人激动地欢呼“他猜中了50个州的结果”,这些人略微有些兴奋过度。幸运的是,民意测验数据采集者具有专业素养:他们知道预测的改进往往只在毫厘之间。

  另一项关键标准是其他预测者。谁能天下无敌?谁能击败大众共同的预测?如何做到?回答这些问题需要比较各人的布莱尔得分,而这反过来又需要公平的竞赛环境。预测凤凰城的天气比预测密苏里州春田市的天气更容易,后者出了名的变化无常,因此将凤凰城气象学家的布莱尔得分与春田市气象学家的记分进行比较,这是不公平的。在春田市得到0.2的分数,可能表明你是世界级的气象学家。下面这个观点看似简单,实则蕴含着大道理:从报纸上寻找旧的预测的做法很少能产生对等的比较,因为当前时代的预测师在竞赛之外很少对同一时期的同一事物的发展做出预测。

  综合以上种种,我们准备起航。就像阿奇•柯克伦和其他基于事实的医学先锋那样,我们必须认真开展经过精心准备的试验。召集预测者,让他们回答大量用明确的语言描述的包含精确时间框架的问题。要求他们用数字概率来表述预测。接下来就是等待时间来验证。如果研究人员尽职尽责,结果将是明白无误的。我们可以分析数据,回答关键性问题:这些预测者表现如何?谁的成绩最棒?是什么因素让他们分出高下?

  我在20世纪80年代中期就着手开展以上工作,不过很快陷入了泥潭。虽然我几乎是哀求着最热门的评论员参加这个试验,但还是没有评论员愿意参与。尽管如此,我仍然设法召集到284名态度严肃的专业人士,他们都是分析政治经济趋势和事件的拥有正式头衔的专家。其中一部分人是在大学或智库工作的学者。其他人有些为美国政府机构效力,有些在世界银行和国际货币基金组织这样的国际组织工作,还有一些是媒体人士。少数人大有来头,一部分人在业内很有名气,其余的尚处于职业生涯早期,当时还鲜为人知。不过我还是必须保证不公开他们的姓名,因为即使那些还达不到托马斯•弗里德曼这个级别的专家也不愿意在没有任何专业回报的情况下承受名誉受损的风险。匿名制还能确保参与人员尽其所能做好预测,不会因为担心尴尬局面而影响发挥。至于公开性的比赛效果如何,当时还有待研究。

  专家们遇到的第一组问题与他们自己有关。年龄?(平均年龄为43岁。)相关工作年限?(平均为12.2年。)受教育程度?(几乎所有人接受过研究生教育,一半人拥有博士学位。)我们还询问了他们的意识形态倾向以及所偏好的解决政治问题的方法。

  预测问题的时间框架范围从1年到5年再到10年,关注的话题也呈现多样性,都是从当日的新闻中提取出来的,有政治和经济的,也有国内国外的。我们的专家遇到的问题可能是他们在媒体或政府详细阐述过的任何议题,这意味着,专家们有时会被要求对其专业领域内的问题进行预测。尽管这种情况不常见,但我们有机会看看真正的主题型专家和头脑聪慧、知识渊博的外行相比,谁的预测准确性更高。专家们总共做了约28000条预测。

  提问题用了几年的时间。然后就是等待,这对于终身从事这项工作的人来说也是一种考验。在我开始这项试验时,米哈伊•戈尔巴乔夫和苏联政治局还是主宰世界命运的主力;到我开始编写试验结果时,苏联已经只存在于历史地图中,而戈尔巴乔夫在为必胜客拍摄商业广告。最终结果于2005年出炉。自从我成为国家研究理事会小组成员并开始考虑从事预测工作以来,21年过去了,其间经历了6届美国总统大选和3次战争。我以学术专著的形式发表了试验结果,书名为《专家的政治预测:表现如何?我们如何知晓?》。为了简化,我将整个研究项目称为“ EPJ”(Expert Political Judgment,专家的政治预测)。

  在阅读本书之前,如果你不知道“专家的政治预测”所包含的笑料,现在我告诉你:专家预测的平均准确率大致和掷飞镖的黑猩猩相当。但是,正如学生们在“统计学导论”课堂上所受到的告诫那样,“平均”会掩盖真相。所以才会有那个关于统计学家的老笑话:他们睡觉时脚放在烤箱里,头放在冰柜里,因为平均温度让人感觉舒服。

  在EPJ的结果中,有两组从统计学角度可以区分的专家。第一组成绩没能超过随机猜测,他们的长期预测甚至“出色”地输给了黑猩猩。第二组战胜了黑猩猩,但是差距不大,他们仍然有充足理由感到羞愧。事实上,他们仅仅是勉强击败了像“始终保持相同预测”或者“按照近期变动率做预测”这样的简单计算法则。不过,无论他们的远见多么平淡无奇,至少还是有一些的。

  那么,为什么一组专家的结果强于另一组呢?原因不是他们是否拥有博士学位或者可以接触到机密信息,也不是他们具有什么样的思想—自由派还是保守派,乐观主义者还是悲观主义者。决定性因素在于,他们如何思考。

  一组专家倾向于围绕大理念来组织思想,尽管他们对于哪些大理念正确或者错误没有达成一致意见。有些人是环境末日论者(“我们正在耗尽一切资源”);其他人则是繁荣论者(“对于任何资源,都能找到效益成本比不错的替代品”)。有人是社会主义者(支持对国家经济命脉实行国有控制);其他人是市场极端主义者(希望政府管制最小化)。虽然意识形态不同,但他们有一点是共通的:他们的思想深受意识形态影响。他们试图强行用自己偏好的因果关系模板来理解复杂问题,不适合这些模板的问题则被视为无关的干扰因素。因为厌恶不痛不痒的答案,他们的分析总是语不惊人死不休,有些人还会使用诸如“而且”、“此外”这样的字眼,同时堆砌理由来说明为什么他们正确、别人错误。其结果是,他们异常自信,更有可能宣称某些事“不可能发生”或者“肯定发生”。他们对自己的结论坚信不疑,不愿改变观念,甚至在他们的预测明显失败时也不肯悔改。他们会告诉我们:“等着瞧吧。”

  另一个组由更加注重实际的专家组成,他们运用多种分析工具,可以根据自己所面对的特定问题来选择工具。这些专家从尽可能多的来源搜集大量信息。他们思考问题时经常转变思维,在发言中加入少量“然而”“但是”“尽管如此”“另一方面”等转折词。他们谈论的是可能性和概率,而不是确定性。虽然没有人喜欢说“我错了”,但这些专家更乐于承认自己的错误,并转变观念。

  数十年前,哲学家以赛亚•伯林写过一篇广受好评但读者寥寥的杂文,文中比较了各世代的伟大文人的思维方式。为了使观点通俗易懂,他借用了2500年前古希腊战士诗人阿基洛古诗集中的一句话:“狐狸有多知,而刺猬有一知。”永远也不会有人知道阿基洛古赞赏的是狐狸还是刺猬,但伯林支持狐狸。我认为没有必要选边站。我就是喜欢这个比喻,因为它捕捉到了深埋在我的数据中的某种东西。我管大理念型专家叫作“刺猬”,更注重兼收并蓄的专家叫作“狐狸”。

  狐狸打败了刺猬。之所以狐狸能赢,不是因为它像胆小鬼那样,为求安全而在预测时给出60%或70%的概率,而刺猬则大胆地报出90%或100%的概率。狐狸的胜利,是吻合度和意志的双重胜利,他们具有真正的远见卓识,这是刺猬不具备的。

  某些刺猬的表现竟然比随机猜测还要稍差一点,他们是如何做到的?为了回答这样的一个问题,我们来了解一位刺猬原型。

  拉里•库德洛(Larry Kudlow)在CNBC主持一档财经脱口秀节目,公开发表过大量评论。他曾效力于里根政府,在那里开始经济学家生涯,后来与阿瑟•拉弗(Arthur Laffer)共事,后者也是经济学家,其理论是罗纳德•里根经济政策的基石。库德洛的一个大理念是供给学派的经济学理论。乔治•W•布什总统按照供给学派的药方启动大规模减税,此时库德洛确信一轮与里根时期同等强度的经济景气将会到来。他还起了个绰号—“布什景气”。然而,现实并非如想象的那样美好:增长率和就业机会指标向好,但与长期平均水平特别是克林顿时期的繁荣(始于大规模增税)相比,多少有些令人失望。可是库德洛固执己见,年复一年地强调,即便是评论家们没有察觉到,“布什景气”也已经如预测所述出现在美国。他称之为“史上最大的无人讲述的故事”。2007年12月,距离人们听到金融危机第一波传闻已经过去了几个月,经济看起来岌岌可危,许多评论员担心经济衰退即将到来,甚至已经到来。而库德洛依然乐观。“哪来的衰退”,他写道,“事实上,美国已经连续6年经历布什景气,现在我们将要迈入第七个年头。”

  美国国家经济研究局后来宣布2007年12月为2007~2009年大衰退的官方起始时间。几个月后,经济形势恶化,恐慌情绪蔓延,可是库德洛毫不动摇。他坚持认为,现在没有经济衰退,将来也不会有。2008年4月白宫发表同样的言论,库德洛写道:“也许乔治•W•布什总统日后会被证明是这个国家最优秀的经济预测家。”春去夏来,经济进一步恶化,而库德洛对此予以否认。“我们面对的是精神的衰退,而不是实际的衰退。”他写道。他不断重复这个观点,一直到9月15日,这一天雷曼兄弟公司申请破产,华尔街一片混乱,全球金融体系流动性被冻结,世界各地的人感觉像是一架俯冲的飞机上的乘客,眼睛张得大大的,手指戳进扶手里。

  库德洛怎能如此长时间坚持错误呢?刺猬型预测者和我们所有人相似,首先从鼻尖视角认识事物,这再自然不过了。可是,刺猬还“有一知”,也就是他的大理念。当刺猬尝试看清未来时,他会一遍又一遍地运用大理念作为指导。请把大理念想象为一副眼镜,刺猬始终戴着它,看任何事物,都要通过这副眼镜。它不是普通眼镜,是涂成绿色的眼镜,就像在L•弗兰克•鲍姆(L.Frank Baum)的童话故事《绿野仙踪》里所有前往翡翠城的访客都被要求戴的那种眼镜。现在,由于透过绿光眼镜来看某些真实的事物,它们能引起更多的关注,否则可能被忽视,所以有时绿光眼镜也能发挥一点儿作用。也许某块桌布上有一条绿线,裸眼看不出来,或者,流水中有一处不易察觉的绿色阴影,透过绿光眼镜就能看清楚。但是,更常见的情形是,绿光眼镜会扭曲现实。看看四周,不论什么颜色,通常不是绿色,最后都变成绿色。在童话中,翡翠城甚至不是用翡翠修建而成的。这只是人们的想象,因为他们被迫戴上绿光眼镜!因此,刺猬的大理念不会提升它的预见能力,而是使之扭曲。更多的信息也无济于事,因为他们只会透过同样的有色眼镜观察一切事物。有色眼镜也许会提高刺猬的自信,但对准确性没有帮助。这是糟糕的组合。可以想见会出现这样的后果:当参加EPJ研究的刺猬对他们最熟悉的主题(他们自己的专业领域)做出预测时,准确性也下降了。美国经济是拉里•库德洛的专长,可是在2008年,当越来越明显的迹象表明经济陷入困境时,其他人都感觉到了,他却没有看出来。他无法看到,因为对他来说,一切都是绿色的。

  判断错误并没有导致库德洛的职业生涯坠入低谷。2009年1月,美国经济已处于一场自20世纪30年代那次大萧条以来最大的危机之中,而库德洛的新节目《库德洛报告》却于此时在CNBC首次亮相。这个事实也与EPJ项目数据反映的情况一致,它揭示了名气和准确性的负相关关系:某专家越有名气,准确性越低。这不是因为编辑、制片人和公众期盼糟糕的预测家。他们盼望的是刺猬,而这些刺猬恰好是糟糕的预测家。刺猬在大理念的驱使下,讲述了一个个逻辑严密、情节简单明了的故事,抓住了观众的心。任何接受过媒体培训的人都知道,第一条规则就是“内容要简单,傻子都能看懂”。更有利的是,刺猬看起来信心满满。他们可以从特定视角进行分析,借助“而且”“此外”这样的连词,罗列出一堆理由,说明他们为什么正确,却不考虑其他视角,对令人烦恼的质疑和他人的告诫不予理会。所以,正如EPJ项目所示,与狐狸相比,刺猬更有可能预测某事肯定会或绝对不会发生。这让很多受众感到满意。人们往往认为不确定的事物令人不安,他们“可能”会用明亮的红色蜡笔在不确定的事物下面画线,以引起注意。刺猬的简单和自信有损他们的预见能力,但能够放松神经,这对他们的前途有利。

  狐狸面对媒体时没有那么轻松自如。他们更缺少自信,不太可能判断某事“肯定”或“不可能”发生,更有可能躲在“也许”的阴影下。他们的故事不容易理解,言谈中随处可见“但是”和“另一方面”,因为他们从多个角度分析问题。综合这么多视角做出的预测,不适合在电视节目上播放。但这才是好的预测,真的,至关重要的预测。

  1906年,带有传奇色彩的英国科学家弗朗西斯•高尔顿(Francis Galton)爵士来到一个乡村集市。有人“屠宰并烹煮”了一头公牛,然后数以百计的人纷纷猜测这头公牛活着的时候体重多少,高尔顿在一旁观察着。猜测结果的平均值,也就是这些人集体评估的结果,是1197磅 [1] ,比正确答案1198磅仅仅少一磅。这是现在被称为“群体的智慧”现象的最早展示,它因为詹姆斯•索罗维基的畅销书《百万大决定》(The Wisdom of Crowds)而广为人知。多人集体预测的结果在准确性上向来强于小组普通成员的预测,而且经常准确性惊人,和高尔顿遇到的猜测公牛体重的情形一样。不过,集体评估并非总是比个人猜测更加准确。事实上,在任何团体中,都有可能出现战胜集体的个人。但是,那些正中靶心的猜测通常更多的是靠运气,而不是靠猜测者个人能力,就如同黑猩猩掷出很多飞镖,偶尔也能命中靶心。当测试重复许多遍时,结论就显而易见了。每次重复都会有个人击败集体的例子,可是幸运儿往往不是同一个人。而集体击败个人一般只需要极少的技能。

  有人满怀敬意地称之为“集体的奇迹”,但要揭开它的神秘面纱也并非难事。关键在于要有这样的认识:有用的信息通常广泛散布,甲拥有只言片语,乙获得更加重要的片段,丙有好几条信息,诸如此类。当高尔顿观察人们猜测遭受厄运的公牛的体重时,他看到的是他们将各自掌握的信息集合起来,经过转化,变成一个具体的数字。屠夫面对公牛,说出了他所掌握的信息,这些信息要归功于多年来的训练和经验。一个时常在屠夫店里买肉的人说出了他的猜测,信息又多了些许。第三个人记得去年集市上公牛的重量,他也贡献了这部分信息。依此类推。数百人添砖加瓦,提供有效信息,从而创造出一个集体信息池,远比其中任何个人拥有的信息池丰富。当然,他们也会夸大其词,或者提供错误信息,从而形成一个由误导性的线索构成的信息池,容量之大,堪比前者。但是,两个信息池存在重大差异。所有的有效信息指向同一个方向,即1198磅,而错误信息来源不同,所指方向也不同。有些人认为正确答案是更大的数字,有些人的看法相反。于是,他们互相否定了对方的答案。随着有效信息逐渐积累,错误信息自我排除,最终的结果自然就是一个准确得令人吃惊的估计值。

  集体预测的效果如何,取决于预测的内容是什么。由许多一无所知的人组成的集体的预测毫无价值。略知一二的人的集体预测多少有些价值,如果这些人数量足够多,就能够产生引人注目的结果。而同样数量的博闻强记之人的集体预测才是最有效的,因为集体信息池比原来大了许多。集体预测的再集合也能产生令人印象非常深刻的结果。操作得当的民意调查采集了大量关于选民意图的信息,而综合调查,也就是“民意调查之调查”,将许多信息池集中到一个大信息池。这就是纳特•西尔弗、山姆•王和其他统计学家在2012年总统大选中工作的核心。此外,民意调查之调查可以进一步与其他数据源合并。PollyVote是一个学术联盟的项目,其内容是集合各种信息来源,包括选举民意调查、政治学专家小组的评估和政治学家建立的定量模型,以此预测总统大选结果。从20世纪90年代以来的表现来看,这个项目的预测师有着非常不错的记录,经常在民意调查转变风向或者专家们改变想法时坚决支持最终的赢家。

  现在来了解狐狸如何做预测。他们运用多种分析方案,从多个来源挖掘信息。然后,他们整合信息,形成一个结论。总而言之,他们汇聚智慧。他们也许是独立工作的个体,但是他们的所作所为大体上与高尔顿的“群体”没有分别。他们整合不同视角及包含在其中的信息。唯一真正的区别是,整个过程只发生在一个大脑中。

  但是在自己大脑内部集合信息的做法难度可能非常大。来看一个猜数字游戏,参与者必须猜出某个位于0~100之间的数。谁猜出的数最接近所有参与者答案的平均值的2/3,谁就获胜。就是这样。再设想一下,存在这样的奖项:读者当中,谁的答案最接近正确答案,他将赢得伦敦到纽约的往返商务舱机票。

  1997年,在行为经济学先锋人物理查德•泰勒(Richard Thaler)的强烈要求下,《金融时报》还真就举办了这样的比赛。假如1997年时我是《金融时报》的读者,我要怎么做才能赢得那些机票?也许首先我会思考,因为大家会随意选择0~100之间的某个数,所以他们的答案是随机分布的。这样的线。我对自己的推理非常满意。我确信,奖品已是唾手可得。不过,在说出这是“最后答案”之前,我停下来,又想想其他参赛者。然后我渐渐明白,他们的思路和我一样,也就是说他们也会猜33。这在某种程度上预示着,平均值不是50,而是33,2/3就是22。因此,我的第一个答案其实是错的,应该是22。返回搜狐,查看更多