AI 新聞與投資
思考,快與慢

第20章未來是不可預測的常常不大可靠,原因是學到更多知識的人對自己的技能產生了一種無限放大的錯覺,

21 / 39

進而變得不切實際、過於自信。泰特羅克寫道:“為了獲取知識,我們匆忙而草率地預測出利潤回饋縮減的臨界點。在這個理論高度專門化的時代,沒有理由假設頂級期刊的投稿人——著名的政治科學家、各領域研究專家以及經濟學家—比記者或《紐約時報》的細心讀者強多少。”泰特羅克發現預言者名氣越大,他們的預言就越誇張, 他寫道“那些受歡迎的專家比他們那些遠離聚光燈大肆評論的同事更自信”。 泰特羅克還發現,這些專家不願承認自己過去錯了,非要他們承認錯誤時,他們就會有一大堆藉口,比如我的失誤在於時機不好,突發意外之事,或者就說“我錯了,但我有正當理由”。專家畢竟也是人,他們被自己的榮耀矇蔽了,而且還痛恨錯誤。泰特羅克說,專家犯錯誤不是因為他們的思考內容,而是因為他們的思考方式。 他引用了賽亞•柏林所寫的關於托爾斯泰的文章中的術語,“刺蝟與狐狸”。刺蝟“知道一件大事”,對這個世界有它們自己的一套理論,它們在一個清晰的框架下說明某些特殊事件,對不按自己的方式看待事情的人往往沒有耐心,而且對自己的預測很有信心,它們尤其不願承認錯誤。對於刺蝟來說,錯誤的預測常是由於“時機不佳” 或“就差一點兒”。它們固執己見,沒有罪過,而這一點正是電視製片人喜歡在節目中看到的。兩隻刺蝟對一個問題各執己見,每隻都想攻擊對方的愚蠢觀點,這真是一場好戲。 而狐狸刧相反,它們是更復雜的思想者。它們不相信僅憑一件大事就可以推動歷史的程序(例如,他們不可能接受羅納德•里根與蘇聯強硬對抗,僅憑個人力量結束冷戰的觀點)。相反,這些狐狸認識到,很多不同因素和作用力的相互作用導致了這一結果,這些因素中也包括純運氣因素,而這一結果往往會導致更大、更不可預知的結果。儘管狐狸的表現仍舊很差勁,但在泰特羅克的研究中,它們的得分卻最高。 談及請誰參加電視辯論,可能刺蝟被選中的機率會大些。 本章的主要觀點並不是說那些企圖預測未來的人會犯很多錯誤,即使不說也是如此。我們應該瞭解的第一點是,預測錯誤不可避免,因為這個世界就是不可預知的; 我們應該瞭解的第二點是,我們不應該相信高度主觀的自信就是準確性的指示器(低度自信可能更有益處)。 短期內的走向是可以預測的,且人們的行為和成就能從以往的行和成就中得到 199

思考,快與慢較為準確的預測。不過,我們不應該根據士兵在障礙訓練場上的行為來推測他們在軍官訓練和戰場上的行為,測試和現實世界中的行為是由特定情況下的很多因素共同決定的。從有8個新兵的小組中調走一個堅定且自信的,其他人的個性特徵也會改變。狙擊手的子彈會偏移幾釐米,軍官的行為也會有所改變。我不否認這些測試的正確性,如果一項測試對重要結果的預測的正確性達到0.20或0.30,這項實驗就應該得到推廣應用。不過,你不應再有更多奢望了。你應該降低對華爾街炒股人的期望, 或者乾脆就不相信他們,這些玩股票的人就是些希望自己比市場預測未來股價更準確的人。你也不應該對專家們作出的長期預測抱有很高期望,儘管他們關於不遠的將來可能會有有價值的見解。目前,還沒有劃定分開可預測的未來和不可預測的長遠未來的界限。 示例——有效性錯覺與技能錯覺 “他知道這份記錄表明這種疾病的變化幾乎是不可預知的,他怎麼會對這個病例表現得這麼自信?聽起來像是有效性錯覺。” “她能透過一個富有邏輯連貫性的情景來解釋自己所知道的一場,這種連黃性讓她感覺很好。” “是什麼讓他覺得自己比市場更聰明呢?是技能錯覺嗎?” “她就像只刺蝟,有一個可以解釋所有事情的理論,這讓她產生一種錯覺, 那就是她瞭解這個世界。” “問題不在於這些專家是否訓練有素,而在於他們的世界是否是可預測的。” 200

第21章直覺判斷與公式運算,孰優孰劣? 保羅 •米爾(Paul Meehl)是個性格奇特而又超凡脫俗的人,是20世紀最有才華的心理學家之一。他曾在明尼蘇達大學的心理學系,法學系、精神病學系、神經病學系以及哲學系任教,同時寫了宗教、政治科學方面的文章,還曾經研究過老鼠。 米爾習慣用統計數字說話,經驗豐富,曾對臨床心理學的空洞言論大加批評,在精神分析方面有過實踐。他寫過一些論述心理學研究的哲學基礎的文章,這些文章很有思想,我在讀研究生時幾乎能把它們全部背下來。我從來沒見過米爾,但自從我讀了他的那本《臨床與統計的預測:理論分析與事實回顧》(Clinical vs. Statistical Prediction: A Theoretical Analysis and a Review of the Evidence) 後,他便成了我心目中的一位英雄。 在這本他後來稱為“讓我煩惱的小書”的薄冊子裡,米爾回顧了20項研究結果, 這些結果分析了以經過訓練的專業人士主觀印象為基礎的“臨床預測”,是否比按某種規則將一些分數或等級評定結合在一起作出的“統計”預測更準確。在一項典型的研究中,經過訓練的輔導員預測了新生在學年末的成績。他們與每個學生進行了45 分鐘的談話,還參考了他們高中時的成績、幾次能力測試加上一份4頁長的學生的個忠考,快與慢UNKING ND SE0% 人陳述。資料統計的方法則只採用了其中的一小部分資訊,即高中成績和能力測試。 然而,應用資料統計方法得出的結果要比14名輔導員中11個的預測都準確。米爾綜合其他多種預測結果得出了相似的結論,這些預測包括違反假釋程式、飛行員的成功訓練以及刑事累犯情況等。 不出所料,米爾的著作在臨床心理學家中引起了震驚和質疑,這一爭議引發了一股研究大潮,自該書出版至今50餘載,這股大潮還在繼續。將臨床預測和統計預測進行對比的研究報告大約已有200篇,然而兩者的對峙依然沒有分出勝負。大約60% 的研究指出,運算手法更準確。其餘的比較研究認為兩者準確性相近,但似乎資料統計方法更勝一籌,因為它比人工判斷的成本低。至今還沒有令人信服的例外情況記錄在案。 預測結果的範圍已經延伸到了醫學的可變因素,比如癌症病人的壽命、住院時間、心臟病的診斷以及嬰兒對猝死綜合徵的敏感性;經濟措施,比如新企業的成功前景、銀行對信用危機的評估、員工對未來職業的滿意度,政府機構所關心的問題, 比如收養人的適合條件評估、少年累犯的可能性以及其他暴力行為發生的可能性; 還有一些混合結果評估,比如科學報告的評估、橄欖球比賽的勝負預測以及波爾多酒的價格預測。這些領域都有很強的不確定性和不可預見性。我們將其稱為“有效性低的環境”。在這些情況下,專家預測的準確性與簡單的運算得到的結果相當,甚至還要低於簡單運算的結果。 在該書出版30年後,米爾自信而驕傲地說:“在社會科學中,還沒有哪一項研究像這項一樣,眾多研究雖定性不同,結果卻都一致地指向同一個方向,這一點是毫無爭議的。” 專家預測比不上簡單運算準確奧利 •阿申菲爾特 (Orley Ashenfelter)是普林斯頓大學的經濟學家,愛喝葡萄酒。對於簡單的統計學方法的力量可以勝過世界著名學者的觀點,阿申菲爾特曾經作過一個引人注目的論證。他想透過波爾多酒生產年所提供的相關資訊來預測該酒的未來價值。這個問題之所以重要,是因為優質葡萄酒要想達到質量的頂峰需要很 202

第21章直覺判斷與公式運算,孰優孰劣? 多年。出自同一個酒窖的酒,因其年份不同,在價格上有很大差異。生產時間相差 12個月的酒,其價值會相差10倍或更多。預測未來價格的一項因素是它的本質價值, 因為投資者買酒就像買藝術品一樣,都希望它能夠增值。 人們通常認為葡萄酒釀造期之所以能夠決定酒的好壞是受生長期間天氣多樣性的影響,溫暖乾燥的夏季會釀就最好的葡萄酒,因此全球變暖貌似會惠及葡萄酒產業。溼潤的春天也會使這一產業受益,這樣的天氣會在不影響質量的情況下增產。 阿申菲爾特透過天氣的三個特徵——夏季生長期的平均溫度、豐收期的降水量以及上一個冬季的總降水量——來估測出葡萄酒的特質及特定的年份,再將這些常識性知識轉化成資料公式來預測葡萄酒的價格。他的公式給出了未來幾年甚至幾十年後的準確價格預測。事實上,他的公式所預測的葡萄酒期貨價格比新酒的市價更準確。 這個新的“米爾模式”向那些為前期價格定位提供建議的專家的估價能力發起了挑戰。它還對經濟理論發起了挑戰,根據這些理論,價格應該能夠反映出所有有用資訊, 包括天氣因素。阿申菲爾特的公式非常精確,預測價格與真實價格的相關係數超過了0.9。 為什麼專家預測不如簡單運算準確?米爾猜測其中一個原因是這些專家試圖變得聰明,總想跳出思維的框框,在預測時會考慮將不同特徵進行復雜的結合。複雜化對稀奇古的事情是有影響的,但十有八九會降低其正確性,將這些特徵簡單地整合在一起反而會更好。有幾項研究已經表明,即使人們知道公式給出的建議分數, 人類決策制定者在面對預測公式時也會自嘆弗如。他們認為自己比公式強大,因為人們擁有關於這一問題的其他資訊,但他們往往是錯的。在米爾看來,在極少數情況下,我們可以利用主觀判斷,其他時候用判斷替代公式並不是個好主意。在一個著名的思維實驗中,他描述了一個能夠預測某人今晚會不會去看電影的公式,他指出,如果知道此人今天摔斷了腿,不用這個公式也罷。於是就有了“斷腿原則”。當然, 關鍵問題是斷腿的機率太小了,但一旦腿斷了,結論也就很明確了。 專家判斷不可取的另一個原因,是人們對複雜資訊的最終判斷很難達成一致。如果有人要求這些專家對同一資訊進行兩次評估,他們通常會給出不同的答案。這些不一致之處往往正是真正令人關切的地方。一個經驗豐富的放射科醫師在兩個不同的場合看到同一張片子,這兩次檢查結果在“正常”與“異常”之間會有20%的偏差。 203

思考,快與慢理4 一項讓101名審計員獨立評價企業內部審計業務可靠性的實驗也反映出類似的不一致程度。此前曾有過對不同專業人士判斷可靠性的41項研究,研究要求審計員、病理學家、心理學家、組織管理者等專業人士回顧自己原來的判斷。儘管他們對每個案例的再次評估在幾分鐘內就完成了,但實驗結果還是說明了判斷的不一致性非常典型。不可靠的判斷使人們對任何事物都不可能作出有效預測。 這種普遍的不一致性很有可能是由於系統1對極端條件的依賴所致。我們從那個主要實驗可以得知,在我們的環境中有一種不被注意的刺激物在本質上影響著我們的思想和行為。這種影響會從這一時刻波及下一時刻。在炎熱的天氣裡,短暫的涼風會使你感到心情舒暢,這個時刻無論評估什麼都會相對更積極一些。對於一個將要獲得假釋的犯人來說,在假釋稽核期間的每一頓飯之間,他都會有很大的變化。 由於我們對我們思想中的東西沒有一個清晰的認識,我們永遠不會知道在周圍環境有微小的變化時,我們會作出不一樣的判斷。公式卻不會有這樣的問題,輸入不變, 輸出也不會改變。可預見性很差這是米爾和他的後繼者們在研究中得出的—不一致性會破壞任何預測的有效性。 這項研究得出了一個驚人的結論:要提升預測的準確度,最終的結果應由公式給出,在低效的情況下尤其如此。例如,在醫學院的學生錄取工作中,最終決定一般由面試候選人的老師來做。這一依據是片面的,但他們的推測也有可靠的證據:如果面試官也參與最終的錄取工作,面試的過程很可能會降低選拔過程的準確性。這是因為面試官過於相信自己的直覺,他們會很重視個人的喜好而忽略很多其他資訊, 從而降低了有效性。同樣,專家在評估新酒的價格時會品嚐酒,這種資訊的反面作用大於正面。當然,即使清楚天氣對酒質的影響,專家們也無法保證公式那樣的一致性。 繼米爾的最初研究之後,促進該領域最重要發展的要數羅賓,道斯所發表的著名論文《決定中非正當線性模型的穩定之美》了。社會科學中常用的資料統計分析是按照某一運演算法則評估不同的預測因素,這叫做多次迴歸,且已經被運用於常用軟體中。多次迴歸中體現的邏輯很有說服力:它找到了將各種預測因素權衡後再整合到一起的最理想公式。然而,道斯發現,這種複雜的資料運算沒什麼用處,人們也可以透過選取一組對於預測結果以及提升價值都很有效的資料作出類似的判斷(使用標準資料或者是等級)。一個公式與這些預測因素以同樣的權重結合起來預測新事 204

第21章直覺判斷與公式運算,孰優孰劣? 物才有可能像使用多次迴歸處理原始樣本一樣取得理想的預測效果。更新研究則更深人地指出:均衡考慮各項預測因素的公式更有優勢,因它們不受樣本突變的影響。 這種基於等權原則的計算方案的成功有著重要的實踐意義:它可以在不作任何事前統計研究的基礎上就能開發出有用的運算方法。這種基於現有資料或者常識的簡單等權公式通常可以預測出意義重大的結果。在一個令人難忘的例子中,道斯指出了婚姻的穩定性可以透過一個公式來預測: 做愛的頻率減去爭吵的頻率你應該不會希望得到的結果是負數。 這個研究的重要結論是,在信封背面構思的一個運算公式通常可以和理想化的公式媲美,與專家的言論相比肯定更勝一籌了。這種邏輯適用於很多領域,從證券投資組合經理對股票的選擇,到醫生和病人對治療方式的選擇。 一項拯救了千萬嬰兒的簡單運演算法堪稱對於這項研究的經典應用。婦產科醫生清楚地知道,如果嬰兒在出生後的幾分鐘內無法正常呼吸的話,他/她就會有很大的腦損傷甚至天折的風險。在1953年麻醉學家弗吉尼亞 •阿普加 (Virginia Apgar)介人之前,內科醫生和接生人員一直在用他們的臨床經驗來判斷嬰兒是否處於危險狀態, 不同人員的依據也不盡相同。一些人側重於觀察孩子的呼吸情況,另一些人則觀察嬰兒的啼哭頻率。由於沒有一個標準,人們經常錯過危險訊號,導致許多新生兒不幸天折。 一天早飯後,一個住院醫生問阿普加醫生如何對新生兒作系統評估。她回答道: “這很簡單,你可以這樣做。”阿普加快速寫下了5個變數(心率、呼吸、反應、肌肉強度和顏色)以及3個分數(0、1、2分別代表各個變數的穩健度)。阿普加意識到自己可能會有所突破,而且這一突破還可能被應用到所有的產房中,她便開始用這種方法評估每一個出生一分鐘的嬰兒。一個得到8分以上的嬰兒一般是膚色粉紅、 蠕動、啼哭、面部扭曲並擁有100次以上的脈搏,這樣的嬰兒外形很好。低於4分的嬰兒一般是渾身青紫、肌肉鬆弛、不愛動且心跳微弱,這樣的嬰兒需要立即救治。 應用了阿普加的評分原則後,產房的護士們終於在判斷嬰兒情況是否危險的問題上有了一套標準,人們認為這個公式對減少嬰兒的天折率起到了很重要的作用。現在, 205

思考,快與慢甜終9G 阿普加的方法依然應用於每一個產房中。阿圖爾•甘德(Atul Gawande)近期的著作《一份清單宣言》(A Checklist Manifesto)也介紹了一些其他案例,以說明列表以及簡單原則的優點。 讓許多業內人士煩惱的運演算法從一開始,很多臨床心理學家就不認同米爾的觀點,對此持懷疑態度。他們顯然幻想過自己有長遠預測的能力。我們在深思熟慮後,不難發現這種幻想是如何產生的,也可以理解臨床醫生為何反對米爾的研究。 證明臨床統計可信度低的統計證據與臨床醫師對自己判斷質量的日常體驗相悖。 經常接觸患者的醫生對每一個療程都有其直覺,他們可以預測病人對干預治療會有什麼反應,並猜測下一步會發生什麼。很多推測都得到了證實,這顯示出臨床醫師真實的臨床診斷能力。 問題是在整個治療期間,這些正確的判斷涉及的都是短期預測,而且是在當面診療後作出的預測,這項技能是治療師經過長期實踐得來的。他們失敗的任務往往需要對病人的病情作長遠的預測。想要做到這一點尤為困難,因為即使是最好的公式也只能是有個大概,臨床醫師也不可能完全瞭解,這需要患者多年的反饋,而不僅僅是當時短暫的治療反饋。然而,臨床醫師可以出色完成的任務與他們完全不能做的事情之間沒有絕對的界限,當然他們自己也是如此認為。他們知道自己有醫術, 但不一定知道醫術的終極。當然,認機械地將幾個變數整合到一起就會超過人工判斷微妙的複雜性的想法對有經驗的臨床醫師來說顯然也是錯誤的。 這場關於臨床預測與資料統計預測孰優孰劣的辯論總會涉及倫理道德的範疇。米爾寫道,統計方法被那些臨床醫師批評為“機械化、自動化、附加物、模式化、人工化、不真實、表面化、武斷、不完善、無生機、遷腐、片面、無關緊要、武斷、資料化、 表面化、死板、無前景、學術化、偽科學且很盲目”。相反,臨床方法被它的支持者稱讚為“靈活、全球化、有意義、正統、精細、統一、機構完整、有規律可循、系統化、 豐富、深邃、真實、科學、成熟、準確、生動、正確、自然、可行,以及可以被理解”。 這種觀點我們都可以理解。無論是約翰• 亨利(John Henry)在山頂上揮錘,還 206

第21章直覺判斷與公式運算,孰優孰劣? 是國際象棋天才蓋瑞•卡斯帕羅夫(Garry Kasparov)與計算機 “深藍”的對決,我們總會同情我們人類自己。對透過數理統計來作決定的厭惡情緒影響著人類,這種厭惡源於我們本身對自然事物的偏好以及對人工合成產物的否定。選蘋果時,如果有人問我們喜歡有機的蘋果還是商業種植的,大多數人都會傾向於“全天然”的那個。 即使被告知兩者的口味相同、營養相同而且同樣衛生,很多人還是會選擇有機水果。 商人們甚至發現,標籤上印有“全天然”或者“不新增防腐劑”時,銷量就會增加。 歐洲葡萄酒協會對阿申菲爾特推測波爾多酒價格這一公式的反應表明,業內人士對揭秘專業知識有著強烈的牴觸情緒。阿申菲爾特的公式對公眾而言是一種福祉: 我們原本以為各地的葡萄酒愛好者都會感謝阿申菲爾特,他提出的公式提高了這些人辨別葡萄酒質量的能力,使他們能夠分辨哪些葡萄酒多年後會有上乘的品質。然而事實卻並非如此,據《紐約時報》報道,法國葡萄酒界對此的表現是在“憤怒和歇斯底里之間”。阿申菲爾特指出一個品酒專家認為他的發現“荒唐可笑”,還有一個人也嘲笑他“就像沒有親自看過電影卻對這部電影評頭論足”。 作重要決定時,對運演算法的偏見就會被放大。米爾指出:“有些臨床醫師會因一個‘盲目的、機械化的’公式而耽誤了可以治療的病例,這是很可怕的,但我也沒有什麼好辦法來緩和這種令人恐懼的情形。”相反,米爾和其他的運演算法支持者激烈爭論,如果說運演算法在作出重大決定的時候可以減少錯誤,那麼仍舊憑直覺判斷就是不道德的。他們的論述有理有據,但卻與一個心理學事實背道而馳:對大多數人來說,錯誤的原因最重要。由於運演算法導致嬰兒死亡的案例比人為因素造成的悲劇更讓人感到悲痛。這種情感強烈程度已經上升到道德取向的層面了。 值得慶幸的是,隨著運演算法在生活中適用範圍的不斷擴大,人們也在慢慢接受它。我們在尋找喜歡的書籍或音樂時,會接受軟體推薦的選項,我們理所當然地認為人為因素並沒有影響信貸限額的決定;我們也越來越習慣那些以簡單的運演算法形式出現的指導方針,比如說我們應該努力將有益和有害的膽固醇水平維持在什麼比例。公眾現在已經意識到,在體育界公式能比人做得更好:一個職業球隊該給新隊員開多少薪水,或者在第四節的什麼時候該踢凌空球。隨著運演算法使用範圍的擴大, 大多數人第一次接觸米爾在他那本“讓我煩惱的小書”中提到的結果模式時,他們的不適應感最終必將會降低。 207

思考,快與慢 ETHNING $NDS04 “閉上眼睛”的直覺判斷比主觀判斷更可取 1955年,作為以色列國防軍中一個21歲的陸軍中尉,我接受指派為全軍建立一套測試系統。你也許會驚訝為什麼會將如此重任交給我這麼年輕的人,但請記住,以色列當時建國才7年,國內所有的機構都在籌建當中,必須有人去建設。今天聽來有些奇怪,我的心理學學士學位竟然能夠證明我有能力成為軍中最訓練有素的心理學家。我的頂頭上司是一個才華橫溢的研究者,他擁有化學學士學位。 當我接到任務時,例行面試已經準備就緒。每一個人伍計程車兵都要完成一系列心理素質測試,對那些有作戰任務計程車兵要進行個性評估。我們的目標是要給這些新兵對作戰適應性打一個分,並在步兵、炮兵、裝甲兵等兵種中給他們選擇一個最適合他們個性的兵種。面試官們本身也是新兵,之所以被選中做面試官是因為她們智商高,喜歡與人打交道,她們中的大多數人是當時不必參戰的女兵。經過幾周培訓後, 她們學會如何安排一個15~20分鐘的面試,培訓員還鼓勵她們要覆蓋多個話題,而且要儘量對被測試者日後在軍中的表現情況形成一個整體的印象。 不幸的是,接下來的評估已經顯示這種測試過程對預測新兵日後成功與否毫無用處。於是他們要求我設計一個更有用但不會更耗時的測試。他們還要求我設計新的面試方法,並評估這個方法的準確性。從專業角度來講,這些任務的難度與讓我建一座橫跨亞馬孫河的大橋差不多。 幸運的是,我讀過保羅•米爾那本一年前出版發行的“小書”。我很相信書中的論證,認為簡單的運演算法優於臨床的直覺判斷。我總結出,當前的面試之所以失敗, 部分原因是它允許面試者按照個人的喜好作決定,這個決定會因面試者的心理活動而發生一些變動。相反,我們應該用限時的專案來獲得受試者在正常環境下更具體的資訊。我從米爾那裡還學到了我們應該摒棄這種用面試者的整體評估來給新兵打分的方法。米爾的書中指出這種評估不值得相信,而運演算法從分散的評價中得出的結果則更有價值。 我決定採用這樣的過程,面試者要評估幾項相關個性特徵,為每項單獨打分。最後的作戰適應性結果由計算機根據一個特定的公式給出,面試者不干預。我列了一個表格,其中包含與作戰表現相關的6個特點,包括責任心、社交能力以及男子氣概 208