AI 新聞與投資
決策與判斷

第18章 群體決策與判斷

19 / 22

167 體合作的主要優勢在於,群體成員能夠匯聚所有人的資源並糾正他人的錯誤。 希爾還討論了頭腦風暴法。她比較了群體討論中產生的想法和同樣多的人獨自進行頭腦風暴得到想法的總和。希爾發現,獨自產生想法後彙總要比群體會議更加有效。”她總結道,群體討論的優越性主要在於彙集的功能(也就是僅僅讓更多的人來解決問題),而不是實質上的群體互動。從實際的角度來看, 這意味著解決難題的最好方法是讓幾個人獨立思考問題然後彙集他們的想法。 獨裁的益處雖然群體判斷往往比個體判斷準確,但這種準確性部分地取決於群體成員如何整合他們的答案(Davis,1973)。斯尼澤克(1989)對此進行了探討,並發表了相關的研究報告,斯尼澤克比較了5種群體決策技術:(1)“一致意見” (consensus),即面對面的討論,直到形成所有成員都接受的意見;(2)“辯證” 技術,即要求群體成員討論可能導致判斷偏差的因素;(3)“獨裁者”技術 (也稱最佳成員技術),即面對面的討論選擇出一位成員,他的判斷代表了整個群體;(4)“德爾菲”技術,即群體成員不直接見面,而是以某種顧序迴圈匿名提供答案,直到形成一致意見或穩定看法(這一技術的優勢是避免了個別成員或對自己的判斷過於自信的成員壟斷討論);(5)“集體”技術,即禁止群體成員有任何形式的互動,只是把成員們的判斷平均化,得到“群體” 判斷 (在斯尼洋克的研究中,集體技術僅是缺乏社會互動的簡單彙總,因而其結果可作為準確性的基線水平)。 每個群體由5名大學生組成,而且每個群體使用全部5種決策技術。從集體技術開始,然後以不同順序採用其他決策技術。學生們的判斷任務是估計一個校園商店下個月將售出多少商品,即服裝、雜誌、賀卡禮品和健康美容用品的營業額各是多少。斯尼澤克用與實際銷售額的“絕對偏差” ’,來衡量判斷準確性。 她發現,前4種技術(一致意見、辯證、獨裁者、德爾菲)都比簡單彙總 (集體技術)的判斷準確性高,其中獨裁者技術的準確性最高,這一技術降低的絕對偏差是其他技術的3倍。有趣的是,在每個群體中,“獨裁者”最後都修改了答案使其更接近集體平均數而使偏差值提高。也就是說,群體能夠選出一個判斷相當準確的獨裁者,但這位獨裁者總是變得更加民主,結果反而降低了最終判斷的準確性。 當然,斯尼澤克的發現僅是基於來自特定群體(大學生)的特定人數群體 * 儘管希爾沒有明確指出這一可能性,但社會性懈息可能部分地導致了這一結果。伊莉莎白 •韋爾登和吉納 • 加格諾(Elizabeth Weldon & Gina Gargano,1985,1988)發現, 當人們一起解決複雜的判斷任務時,會出現社會性懈怠現象。

188 第五部分決策與判斷中的社會性一面 (5人)解決特定的判斷問題(銷量預期),將獨裁者技術最優的結論推廣到所有情境是不適合的。但斯尼澤克的實驗表明,群體判斷的準確性部分取決於群體採用的決策規則。她的研究結果也證明,在某些情況下,互動的群體勝過沒有互動的群體。所以,至少在有些情境中,群體的優勢不僅僅在於“更多的人”而在於“更多的人在一起工作”。 結論由於群體表現取決於很多不同的因素,所以難以進行高度概括(Tindale, 1989)。也是出於同一原因,這些不一致的和相反的研究結果難以綜合。哪些因素引發了這些矛盾?是不同的任務,群體人數,還是決策規則?豐富的研究反而使結果的解釋更加複雜。 另外的問題是,群體決策和判斷沒有受到像個體決策和判斷那樣的重視, 儘管委員會、專家小組、董事會、陪審團和其他決策群體極其普遍。而且,個體和群體研究之間的界限常常因群體是由個體組成的而模糊不清。例如,研究群體歸因錯誤的實質上是探討個體如何對群體進行歸因。類似的,選擇轉移也用群體決策和個體決策的差別加以測量,或對群體討論前後的個體決策進行比較。只有前一個例子才是真正的群體決策。 儘管如此,群體決策和判斷的研究暫有如下結論: • 很多個體水平的直覺和偏差在群體中發揮了同樣的效力。 • 群體討論通常會加強已有傾向。 • 群體通常比一般的個體表現好一些,尤其是在一名指定的領導者鼓勵全體成員發表見解的情況下。 • 群體中最好的成員通常比群體表現更好(有時可使用獨裁者決策技術來利用這一點)。 • 幾個人獨自使用頭腦風暴法比群體會議更為有效。 上述結論都得到了大量研究的支援,但由於群體表現受多種因素影響,在特定情境中應用這些一般性的結論仍需多加考慮。儘管決策者經常透過會竭盡所能,但合作並不一定是成功的保證。

第六部分常見陷阱本書的這一部分關注因枕決策者的三個常見問題。第19章採討過度自信的問題,第 20章討論自我實現的預言,而第21 章分析了一種被稱做“行為陷阱”的特珠情境。同時每一章還提供瞭如何在實踐中避免出現這些問題的技巧。

第19章過度自信這裡發生洩漏的機率是一萬年都難遇的。 ——烏克蘭能源與電氣大臣 Vitali Skylarov 在切爾諾貝利核洩漏事件發生前2個月這樣說道 (引自 Ryisky,1986年2月) 在人們的決策中,過度自信是一個最為普遍的問題,其所帶來的潛在破壞性也是最大的。正如歐文•賈尼斯(1982)在他對群體盲思所進行的研究中提到的那樣,美國人的過度自信使日本人在二戰期間成功偷襲了珍珠港。同樣, 在美國的挑戰者號太空梭失事的災難中,過度自信也扮演了重要的角色。在挑戰者號太空梭的第25次發射之前,美國宇航局(NASA)的官員對飛行風險的估計是十萬分之一(Feynman,1998,2)。這樣的風險估計大致等於航天飛機在三百年的時間內每天發射,也只可能產生一次事故。 約瑟夫•基德的例子美國宇航局真的是對成功過分自信?還是僅僅需要看上去很自信?因為在這樣的情境中,自信的程度是很難測量的,因此有關過度自信的最具有說服力的證據來自嚴格控制的實驗中。 最早也是最著名的三個實驗是由斯圖爾特 •奧斯坎普(Stuart Oskamp)在 1965年完成的。奧斯坎普要求8位臨床心理學家、18位心理學專業的研究生以及6位心理學專業的本科生閱讀一個有關“約瑟夫•基德”的個案研究。約瑟夫•基德是一位29歲的男子,曾經經歷過“青春期失調綜合症”。這個個案被分成四個部分。第一部分介紹了他是一個退伍的老兵,現在在一個花藝工作室做商業助理,第二部分介紹了基德12歲以前的童年時代,第三部分介紹了基德的中學和大學生涯,第四部分介紹了他服役的經歷以及往後的生活。 參與實驗的人在讀完每一段故事之後都要回答一系列相同的問題。這些問題都來自個案,但是要求被試基於這樣的資訊對基德的人格形成一個臨床判斷。問題通常有五個迫選的備選答案,並且在每個專案之後,被試要估計他們的答案在多大程度上是正確的。這些信心的評分從 20%(在準確度的機遇水平第19 章過度自信 191 之外,毫無信心)到100%(完全確信)。 有些令人驚奇的是,心理學家、研究生和本科生之間的評分並沒有顯著差異,所以奧斯坎普將三個群體合併到一起來對結果進行分析。他發現信心隨著被試閱讀的資訊量的增大而增長,但是準確度卻並非如此。 在閱讀完個案研究的第一部分之後,被試正確回答了26%的題目(稍高於機遇水平的期望值),並且他們的平均信心得分為33%。這些數字顯示出了相當接近的一致性。然而,當被試閱讀了更多的資訊時,信心與準確度之間的差距增大了(見圖 19.1)。被試閱讀的材料越多,他們就會變得越自信——即使準確度並沒有隨著增加的資訊而顯著增長。在他們讀完個案研究的第四部分之後,在奧斯坎普的被試中,有超過90%的人對於他們的回答過於自信。 該實驗進行之後的若干年裡,已經有一系列研究發現人們往往對他們的判斷過於自信,特別是當他們難於做出準確判斷的時候。比如說,利希滕斯坦和菲什霍夫(1977)進行了一系列實驗並發現人們對自己的正確性有65% ~70% 的信心,但實際上他們只有50%的時候是正確的。 在第一個實驗中,利希滕斯坦和菲什霍夫要求人們判斷12個兒童的圖畫是來自歐洲還是亞洲,並且估計每—次判斷正確的可能性。儘管僅僅有53%的判斷正確(非常接近隨機水平),可是平均的信心評分卻達到了68%。 60 50估計準確率實際準確率 40 30 20 - 10 0 第一部分第二部分第三部分第四部分被試閱讀的材料數量圖19.1 斯圖爾特•奧斯坎普(1965)發現當被試閱讀了更多的資訊時,他們估計的準確度 (自信心)與實際的準確度之間的差異就越大。

192 第六部分常見陷阱在另一個實驗中,利希滕斯坦和菲什霍夫給人們呈現了12只股票的市場報告,並請他們來預測在給定的時間段內這些股票將會看漲還是看跌。他們再一次發現,儘管這些預測只有47%是正確的(稍低於預期的機遇水平),但平均的信心評分達到了65%。 又完成了幾個研究之後,對於在兩可判斷中準確度和信心之間的對應關系,利希滕斯坦和菲什霍夫得出瞭如下結論: • 當準確度接近機遇水平時過度自信達到最大。 • 當準確度從50%增加到80%時,過度自信會隨之減少;當準確度超過 80%時,人們通常會變得不自信。換句話講,在準確度達到80%左右時, 準確度和信心之間的差距最小,當準確度偏離這一水平時差距會逐漸變大 • 準確度與信心之間的分離與決策者的智商水平無關。 對於該研究的早期批評認為,產生這些結果的原因很大程度上是由於實驗者總是詢問人們一些晦澀或瑣碎的問題,但近期的研究已經在一些更為普遍的判斷上重複得到了利希滕斯坦和菲什霍夫的發現。舉例來說,在一系列包含多於10000 個獨立判斷的實驗中,李•羅斯和他的同事發現,當要求被試對他們自己的行為以及他人行為進行預測時,人們表現出了大約10% ~15%的過度自信(Dunning,Griffin, Milojkovic,& Ross,1990;Vallone,Griffin,Lin,& Ross,1990)。 這並不是說人們總是過度自信的。戴維 •羅尼斯和弗蘭克•耶茨(David Ronis & Frank Yates,1987)發現,過度自信部分取決於信心的評分如何得出以及決策者做出了何種型別的判斷(一般知識性題目似乎會導致相對較高度的過度自信)。同樣有一些證據表明,橋牌高手、專業賭徒以及國家氣象臺的預報員——他們在做出判斷後都會收到有規律的反饋——表現出較少或沒有表現出過度自信(Keren,1987;Lichtenstein, Fischhoff, & Phillips, 1982;Murphy & Brown,1984;Murphy & Winkler, 1984)。不過,研究結果表明,就大部分人而言,過度自信現象是普遍存在的。 極度自信如果人們確信答案正確又會怎樣?在這種情況下他們正確的機率有多大? 1977年,菲什霍夫、斯洛維奇和利希滕斯坦實施了一系列實驗來考察這個問題。在第一個實驗中,被試回答了大量一般知識性問題並且估計了答案正確的可能性。比如說,他們回答了苦艾 (absinthe)是一種利口酒 (Liqueur)還是一種寶石,並且要在一個.50~1.00的量表上估計信心程度(這個問題作為讀者調查中的第21題出現)。然後,實驗者檢驗了那些被試們完全確信是正確回答第19章過度自信 193 的準確度。 他們發現,當被試報告百分之百確信自己的答案時,他們的正確率往往只有70%~85%。你對自己在第21 題上的回答有多大信心?正確答案為苦艾是一種利口酒,然而很多人將它與一種被稱做紫水晶(amethyst)的寶石相混淆。 為了確保該結果不是由於對機率的誤解所致,非什零夫、斯洛維奇和利希滕斯坦(1977)再次進行了一個實驗,這一次,信心大小取決於回答正確的可能性與不正確的可能性之間的比率(比如2:1,3:1等)。這樣,被試可以採用 3:1的正確可能性來表達自己的信心,而無需藉助機率性的75%。 菲什霍夫、斯洛維奇和利希滕斯坦(1977)發現,當信心估計大約為3:1 時,信心與準確度相當一致,可當信心從3:1提高到100:1時,準確度卻沒有明顯提高。當人們將正確的比率設為100:1時,他們實際上只有73%的時間是正確的。即使當人們將正確的比率設為10 000:1~1 000 000:1時——表示完全確信——他們也僅有85%~90% 的正確率(本應該相應給出6:1~9:1的信心評分)。* 最後,菲什霍夫、斯洛維奇和利希滕斯坦(1977)將實驗重複了三次,將其作為一項附加檢驗以確保被試理解並且認真執行了任務。在一次重複中,比率和機率之間的關係在20分鐘的發言中被加以詳細解釋。被試們得到一張說明各種比率估計與機率之間對應關係的圖表,並且他們被告知使用比率評分來表達不確定性的微妙之處(特別強調了如何使用1:1 和2:1之間的比率來表達不確定性)。然而,即便如此,被試還是對他們的答案表現出了毫無根據的信心。當實際比率大約為4:1的時候,他們至少給出了50:1的比率;當他們應該給出5:1的比率時,他們卻給出了1000:1的比率。 在另一次重複實驗中,研究者詢問被試是杏會接受一項金錢上的賭博,這項賭博基於被試認為正確比率為50:1或更高的那些題目答案的準確度。在42 名被試中,有39名願意參與這項賭博—儘管他們的過度自信將導致總共140 多美元的損失。在最後一次重複實驗中,菲什霍夫、斯洛維奇和利希滕斯坦 (1977)實際是讓被試們進行了一次賭博。在該研究中,19名被試中的13名同意以他們答案的準確度來進行賭博,然而在他們認為正確比率為50:1或更高的那些問題中,12%的回答是錯誤的(並且如果實驗者不加以免除,所有人都會損失1美元至11美元不等)。這些結果表明:〈1)當人們真正確信自己是正確的時候他們仍然是過度自信的,(2)並不完全是由於漫不經心地執行任務或錯誤理解如何評價信心而導致過度自信。事實上,瓊•西伯(Joan Sieber, 1974)發現,希望表現出色的動機越強烈,過度自信也會隨之而增長。 * 儘管這些結果看起來可能與利希滕斯坦和菲什霍夫早期的結論(被試80%正確時過度自信達到最低)相互矛盾,但事實上並非如此。被試非常自信時他們的平均準確度只有70%~90%,這一事實並不意味著在70%~90%正確的時候他們總是非常自信的。

194 第六部分常見陷阱當過度自信變成一種嚴重的錯誤當處在較之幾美元更利害攸關的時刻人們還會過度自信嗎?儘管道德上的考慮明顯限制了實驗室中可以考察的範圍,但至少有一條證據提醒我們,即使在人們的生命處在安危未定的時刻過度自信依然存在。這一證據來自對死刑的研究。 在一次對冤案的全面回顧中,雨果 •貝多和邁克爾•拉德菜(Hugo Bedau & Michael Radelet,1987)找到了350個有檔案備案的例項,這些例項中無罪的被告都被判定在美國有重大的或潛在重大的罪行—即使被告被判斷為“罪行在合理懷疑範圍之外”。其中有五個案件,判決之前就已經及時發現了錯誤。 但其他的被告就沒有這麼幸運了:67人被判處25年以下的監禁,139人被判處終身監禁(25年或更長),並且有139人被判處死刑。在貝多和拉德菜發表評論的時候,已經有23例死刑被執行。 校準 “校準”是指信心與準確度的匹配程度。在給定的信心水平上,並且當所有判斷中準確判斷的比例與判斷正確的期望機率相一致時,決策者就獲得了最佳的校準。換句話說,認為正確可能性為90%的判斷中有90%是正確的,認為正確可能性為80%的判斷中有80%是正確的,依此類推。 當個體的判斷被單獨考慮時,就沒有什麼辦法來校準了。一個在讀者調查中對第21題回答了“.70”的決策者如何進行好的校準?僅有的一個評估校準的可靠方法,那就是在大量判斷中將準確性和信心加以比較(Lichtenstein, Fischhoff, & Phillips,1982)。 正如有許多種方法測量信心一樣,我們有幾種用以評估校準的技術。一種方法就是簡單地計算平均信心得分與全部準確判斷所佔比例之間的差異。舉例來說,決策者可能在一組一般知識條目上具有平均80%的信心,但是他可能只有60%的回答是正確的。這樣一位決策者就是過度自信了20個百分點。 儘管這種測量校準的方法非常方便,但它有時候卻可能導致錯誤,比如, 考慮一名整體準確率和平均信心得分都是80%的決策者。這個人是否達到了完美的校準呢?並非如此。這個人可能在一半題目的判斷上抱有60%的信心而在其他題目上抱有100%的信心(平均起來達到了80%的信心),並且在兩種信心水平上都達到了80%的準確度。這樣的人在60%確定的時候信心不足,而在 100%確定的時候又顯得過於自信。 一個更為簡潔的方法是在不同自信水平下檢驗準確性。當對準確度在不同的自信水平下進行單獨計算時,可以建立一條“校準曲線”,其橫軸代表信心, 縱軸代表準確度。圖19.2包含了兩條校準曲線———條表示天氣預報員關於第19章過度自信 195 降雨量的預測,另一條表示醫生對於肺炎的診斷。正如你所看到的,天氣預報員幾乎完美地實現了校準;平均看來他們的預測非常接近實際的天氣(與人們通常的觀點恰恰相反!)。而內科醫生的校準程度則很糟糕;他們的大多數預測都在對角線以下,說明他們過度自信。 還有其他的方法來評估校準,其中一些藉助了複雜的數學工具。舉例來說,最常用的方法之一是計算一一個叫做 “Brier 分數”(以統計學家 Glenn Brier 的名字命名)的數字。Brier 分數可以被分割為三個成分,其中之一就對應於校準。Brier 分數中的校準成分是每個類目下正確率和與該類目存在關聯的機率之間的均方差的加權平均值(關於該技術中校準方面的詳細介紹,見 Yates, 1990)。 100 90 80 70F 實 .60 際概 50 率 40 30 20 10 0 〇天氣預報 • 醫療診斷 10 20 30 40」 50 60 70 80 90 100 預測機率(信心) 圖19.2 本圖包含了天氣預報員關於降雨量的預測矯正曲線(空心圓點),以及醫生對於肺炎的診斷的矯正曲線(實心圓點)。天氣預報員幾平完美地實現了校準,但是內科醫生的校準表現出了很明顯的過度自信現象(毫無根據地認為病人得了肺炎)。天氣預報員的資料來自 Allan Murphy 和 Robert Winkler (1984)的一份報告,內科醫生的資料來自於 Jay Christensen-Szalanski和 James Bushyhead (1981)的一個研究。

196 第六部分常見陷阱一種最有意思的校準測量方法被稱做“驚奇指數”(surprise index)。驚奇指數被用來對未知數量進行區間判斷。舉例來說,假定你對讀者調查第12題的回答是在一英尺和一英里之間,並對此抱有90%的信心(見讀者調查第 12b 題來了解你真正的90%置信區間)。因為正確答案實際上應當大於一英里,所以這個答案被記做“一個驚奇”。驚奇指數其實就是置信區間之外的判斷所佔的百分比。 在一篇關於校準研究的主要論述中,利希滕斯坦、菲什霍夫和勞倫斯•非利普斯(1982)進行了幾項研究,這些研究要求被試給出98% 的置信區間 (如,一些區間有98%的機會包含正確回答)。每個研究中,驚奇指數都超過了 2%。將所有資訊可用的實驗資料加以平均——總共接近15 000次判斷—驚奇指數達到了32%。換句話講,當被試98%確信一個區間包含了正確答案時,他們做到了68%正確。過度自信再一次被證明是一種規律而非例外。 你過度自信嗎?愛德華•拉索和保羅 •休梅克(1989)開發了一套自測題目來測量一般知識問題上的過度自信(見圖19.3)。儘管一次全面的校準評估需要大量的判斷,但該測驗能夠給你提供一個粗略的反饋,使你瞭解自己在某個信心水平上對一般知識問題的驚奇指數。拉索和休梅克對1000 多人實施了過度自信的自我測量對於以下的10個題目,請你給出一個較高的估計和一個較低的估計,使得正確答案落在你的區間中的機率在90%以上。其中對於你們的挑戰是,你們所設定的區間既不能過窄(過度自信),也不能過寬(缺乏自信)。如果你只有10%的錯誤率—也就是只答錯一題,你就獲得了成功。 90%的信心區間低高 1.馬丁•路德•金去世時的年齡 2. 尼羅河的長度 3.OPEC(石油輸出國組織)成員國的數量 4. 基督教《舊約全書》的冊數 5. 月球直徑的英里數 6.一架波音747飛機的重量(磅) 7.莫扎特是哪一年出生的 8.一頭亞洲象妊娠的時間(天) 9.倫敦到東京的飛行距離 10.(已知的)最深的海洋深度(英尺) ¥¥861 9 (01 西=6565(6 $¥5¢9 (8 ‡991 (L):$000 06: (9) 圖 19.3 本測驗將使你們瞭解到你們對於一般性知識是否存在過度自信的情況(Reprinted with permission from Rosso & Schoemaker, 1989)。

第19章過度自信197 該測驗,發現只有不超過1%的人正確回答了9道或更多的題目。大多數人答錯了4~7道題目(驚奇指數為40%~70%),反映出了過度自信的基本程度。 信心與準確度之間的相關儘管會過度自信,但信心與準確度存在相關還是有可能的。舉一個例子, 假定一名決策者在70%自信的情況下具有50%的準確度,在80% 白信的情況下具有60%的準確度,在90%自信的情況下具有70%的準確度。在這樣一個例子中,信心與準確度之間存在著必然的聯絡,儘管這個決策者一直表現出 20%的過度自信。 那麼問題出現了,信心與準確度之間存在相關嗎——如果不考慮決策者是否過度自信的話。如果當準確度提高時信心評分也增加的話,準確度就能夠通過決策者的自信度而得以預測。如果不是這樣,信心就是一個準確度的錯誤指標。 很多研究都已經考察了這一問題,並且結果往往顯示信心與準確度之間並不存在什麼關係。為了加以說明,考慮下面兩個關於軍隊歷史的問題: 問題1:一個距離超級強國A並不太遠的國家政府,在討論過其政黨體系的某些變化之後,開始拓展其與超級強國B之間的貿易。為了扭轉該國政府及其貿易中的變化,超級強國A 向該國派出了軍隊並且武裝支援原來的政府。誰是超級強國 A——美國還是前蘇聯?你對於自己答案的正確性有多大信心? 問題2:20世紀60年代,超級強國A對其邊境的一個小國發動了一場突然襲擊,目的是推翻當時掌權的政府。這次侵略行動以失敗告終,並且多數侵略士兵被擊斃或者囚禁。誰是超級強國A?並且再次回答,你對自己的答案有多確定? 這些問題在讀者調查中作為第9題和第10題出現。如果在第一個問題中你猜是前蘇聯,並且在第二個問題中選擇了美國,那麼兩道題目你都回答正確了。第一個問題描述的是1968年前蘇聯入侵捷克斯洛伐克,而第二個向題描述的是美國人侵古巴的豬灣。大多數人至少答錯了其中一個問題,不管他們感到有多麼自信。 在《今日心理學》(Psychology Today)1984年11月那一期裡,菲利普• 津巴多和普勞斯發表了包括這兩個問題以及各種有關強權國家衝突在內的一份讀者調查的結果。該調查包含了10個關於美國及前蘇聯的事件、宣告或政策方面的描述,而在每個描述中,所有能夠識別出美國和前蘇聯的標誌都被刪除了。讀者的任務就是判斷超級強國 A 是美國還是前蘇聯,並在一個9點量表上標出他們對每一個回答的信心有多大。

198 第六部分常見陷阱基於對3500人的調查,我們能夠得出兩點結論。首先,答題者並不能夠將美國和前蘇聯的軍事行動區分開。即使他們僅僅透過拋硬幣就可以平均正確回答10道題目中的5道,《今日心理學》的讀者們(比一般公眾更多地參與政治並接受過更好的教育)的總體平均值為4.9道題目正確。僅有54%的答題者正確地指出前蘇聯是入侵捷克斯洛伐克的超級強國A,並且25%的答題者誤認為是前蘇聯而非美國發動了豬灣侵略。這些發現說明美國人之所以譴責前蘇聯的行動和政策,很大程度上是因為他們是“蘇維埃”,而不是因為他們與美因的行動和政策存在根本的區別。 我們發現的第二個結論是:人們的信心評分實際上與他們的準確度並無聯系(每一名答題者信心與準確度的平均相關僅有.08,接近零)。總體而言,答對了9或10道題的人並不比那些成績較差的答題者具備更強的信心,並且高信心的答題者與低信心的答題者得分基本相同。 這並不意味著信心評分是隨機得到的;高信心的答題者在一些方面還是表現出了與眾不同之處。即使一般性樣本中兩性比例十分均衡,在全部的高信心答題者(比如那些在9點的信心量表上平均分達到8以上的人)中,卻有2/3 是男性,而且80%的年齡在30歲以上。高信心答題者增加國防開支的意願是低信心答題者的兩倍,同時高信心答題者對前蘇聯政府的不信任程度也是低信心答題者的兩倍。這些答題者在調查中達到的平均成績為5.1 道題目正確— 幾乎就是機遇反應的期望值。因此,高信心的答題者難以將美國和前蘇聯的軍事行動區分開來,但是他們對於這種錯誤知覺的區分非常自信並倡導增加國防開支。 正如前面所談及的,許多其他的研究發現了在信心與準確度之間只有很小的相關或根本沒有相關(Paese & Sniezek,1991;Ryback, 1967;Sniezek & Henry,1989,1990;Sniezek,Paese, & Switzer,1990)。這種一般性的模式在關於目擊者證詞的研究中表現得更為突出。總體而言,這些研究表明目擊者對其證詞所持的信心與證詞的實際準確程度並無太大聯絡(Brown,Deffenbacher, & Sturgill, 1977; Clifford & Scott, 1978; Leippe, Wells,& Ostrom,1978)。肯尼思•德芬巴赫(Kenneth Deffenbacher,1980)曾經發表了一篇包含43個獨立研究結果的綜述文章,這些研究考察了在目擊證人身上存在的準確度和信心之間的關係,他發現在2/3的“法庭相關”研究(如,在這些研究中,被試在觀看一起事先策劃好的模擬犯罪之前並未得到任何說明)中,信心與準確度之間存在並不顯著的正性相關。這些研究發現使得《目擊者證詞》的作者伊莉莎白 •洛夫特斯(Elizabeth Loftus,1979,p. 101)警告說:“人們不能過於自信地為任何事情提供任何絕對的擔保。” 在臨床研究中也發現了類似的結果。在最初一項探討該話題的實驗中,路易斯 •戈德堡(Lewis Goldberg,,1959)在臨床診斷中評估了信心和準確度之間的相關性。戈德堡所感興趣的是臨床醫生是否能透過 Bender - Gestalt 測驗(一第19章過度自信 199 項被廣泛用來診斷腦損傷的測驗)來準確探測出器質性的腦損傷。他給4名有經驗的臨床心理學家、10名臨床實習生、8名非心理學家(秘書)呈現了30 個不同的測驗結果。這些結果中的一半來自於腦損傷病人,另一半來自無器質性問題的精神科病人。被試要做出判斷來指明每個病人是“器質性的”還是 “非器質性的”,並在一個標有“斷定的”、“相當確定的”、“這樣認為”、“可能”或“瞎豬”的評價量表上指出他們的自信程度。 戈德堡發現了兩個令人驚訝的結果。首先,全部三組判斷者——有經驗的臨床醫生,臨床實習生以及非心理學家——都正確地對65% ~70%的病人進行丁分類。不存在基於臨床經驗的差別;秘書們表現得同那些具有4~10年臨床經驗的心理學家們一樣好。其次,在個體診斷準確性和信心程度之間並沒有顯著的關係。判斷者們在錯誤診斷的病例上所持有的信心通常與正確診斷的病例一樣。後續研究也已經發現在癌症、肺炎的診斷過程中存在錯誤的校準(見圖 19.2),還包括其他一些嚴重的醫學何題(Centor,Daltion,& Yates, 1984; Christensen - Szalanski & Bushyhead, 1981; Wallsten, 1981)。 如何才能減少過度自信在兩個考察如何改進校準的實驗中,利希滕斯坦和菲什霍夫(1980)發現,在進行200次判斷並得到集中的表現反饋之後,一開始過度自信的人能夠學會更好地進行校準。同樣,哈爾 • 阿克斯(Hal Arkes)和他的助手們發現在呈現五個富有迷惑性的難題之後,透過給被試提供反饋可以消除過度自信 (Aikes,Christensen,Lai,& Blumer,1987)。這些研究表明過度自信可以被消除,儘管它們的實用價值還比較有限。很少有人會因為希望能夠更好地進行校準而接受特殊訓練。 有用的是一項能夠使決策者便於“攜帶”至各種決策中並加以利用的技術 —重量輕、永續性強,並且易於在一系列環境下加以運用。的確,我們好像有一項這樣的技術。最有效的改進校準的方法看起來非常簡單: 停下來思考一下為什麼你的判斷可能是錯誤的。 阿舍•科萊特(Asher Koriat),利希滕斯坦和菲什霍夫(1980)最先證明了這項技術的價值。在他們的研究中,被試回答了兩組二選一的一般知識性問題,第一組呈現控制條件的指導語,第二組呈現原因條件的指導語。在控制條件下,被試選擇一個答案並估計回答正確的可能性(在.50和1.00之間)。在原因條件下,被試選擇答案之前需要為每個備選答案列出支援以及反對的理由科萊特、利希滕斯坦,以及菲什霍夫發現在控制條件的指導語下,被試表現出了典型的過度自信,但是在列出正反兩方面理由之後,他們表現出了非常

200 第六部分常見陷阱好的校準(與利希滕斯坦和菲什霍夫研究中那些被提供了集中反饋資訊的被試大致相當)。在為每個備選答案列出支援以及反對的理由之後,被試變得不那麼自信了,(主要是因為他們更多地使用.50而較少使用1.00了)並且準確度更高了(大概是因為他們對於自己的回答投人了更多的思考)。 在接下來的實驗裡,科萊特、利希滕斯坦和菲什霍夫發現,本質上並不是因為支援的理由導致了校準的改善;而是反對的理由使然。當被試列出理由支持他們所偏好的答案之後,過度自信並沒有降低。而當被試思考他們偏好的答 CdViN -HODOES 𠺪 木!所有的東西都變成了新立體量支風傳統的尊一現點已經披摒棄! 說點已經披破壞。 這都是因為卡爾支社他爸爸加入了一場小型辯論。很快他就會全面地瞭解這個問題!可恰的卡爾女會看到往何事的兩個方面。 鄉重觀點提供了太夢的資訊卡爾文很快就想努力保留一個觀點,橄除所有其他的! 起作用了!周鹵諵環摬叉校復了秩房! 你迷是精了, 圖19.4 從多個角度進行考慮的困難性。(Calvin and Hobbes Copyright 1990 Walterson, Dist. By Universal Press Syndicate. Reprinted with permission. All rights reserred.)