AI 新聞與投資

定性與博弈論笛卡兒認為，人類所有的行為可以分為兩類：第一類是那些由特定刺激引發的簡單、確定性行為；第二類是根本不可預測的行為，這類行為可以歸結為意志或靈魂行為。笛卡兒進一步提出，第一類行為可以按照機械論觀點，由簡單的感覺一運動聯絡來解釋，這種聯絡現在我們稱之為“反射”。本書的前半部分曾經指出，事實上，以反射為基礎的模型即便是在描述與簡單確定性反應相關的行為和神經路徑時也常常有所欠缺。從第8到第10章，我曾經指出，如果將簡單確定性行為理解為透過進化而發展起來的工具，其目標在生態學層面是與有機體的進化適應性相關的，那 271 • 219•

決策、不確定性和大腦——神經經濟學麼我們對這種行為的理解就可以更為全面。為了嚴格地思考行為的生態學目標，我認為，我們應該把注意力轉向由經濟學和行為生態學首先使用的方法。理解大腦如何產生確定性行為的核心工具是估計不確定性事件發生機率的貝葉斯方法與估計進化過程中行為價值的效用理論。這種方法和傳統心理學方法的最根本區別在於它融合了機率論中的概念，這些概念對我們理解動物面對未知環境時的反應非常必要。與反射理論不同，經濟學工具是分析充滿不確定性的外界真實情況的有效工 2Y2 具，它決定了在不確定性環境中選擇者的最優行為。另一點與反射理論不同的是，古典經濟學認識到了選擇者對外界真實情況的瞭解是不確定的。但是，對於生物體實際產生的行為，古典經濟學仍持一種確定性觀點—給定一個機率和相應的價值，古典經濟學就會確定一個最優行為反應。外界狀態的不確定性與確定性行為指令假設之間的區別是非常重要的，因為它與笛卡兒兩類行為的劃分並不矛盾—笛卡兒認為，並不是所有的人類行都是確定性的，有些行為本質上是不可預測的、不確定的。如果笛卡兒的上述觀點正確，那麼古典經濟學就不能解釋所有行為，因為它不能在理論上說明行為的不可預測性，即我們通常稱為意志性的一類反應。從以上的分析中我們可以看出，確定性和或然性行為並存的觀念進一步穩固了笛卡兒的二元論，即需要兩種獨立的機制來解釋人的行為。至少從1900年開始，科學家和心理學家就因這種雙重體系導致的模糊性而傷透了腦筋。巴甫洛夫透過含蓄地否定笛卡兒二元論學說的有效性攻擊了這種思想。他所做的工作及其結論都是為了說明所有行為都是生物時鐘機構的確定性產物。他認為，不可預測的行為本質上並不存在。近來，很多心理學家擴充套件了巴甫洛夫的學說並支援他的觀點，認為只需要一個單一的確定性系統就可以產生所有的行為。這些心理學家和科學家都認，行為可能偶爾顯示出不確定性，但這只是因為作為觀察者，我們的認識存在著一定程度的侷限性。這種方法的一個令人感興趣的應用是理查德•赫恩斯坦的匹配法則研究。赫恩斯坦注意到，當他的鴿子有機會去啄兩個槓桿時，它啄每個槓桿的機率是固定的，這可以透過匹配法則方程來描述。在宏觀上，他把這種行為叫做或然行為。但是在微觀方面，赫恩斯坦提出，一個簡單的確定性過程產生了鴿子每次的啄食行為（Herrnstein，1982）。 273 在本章和下一章中，我將以一種不同於往常的方式對笛卡兒的二元 •220•

第11章不可約簡的不確定性與博弈論論系統和巴甫洛夫等科學家提出的典型的一元選擇論做出評價。首先，我想說明的是，將所有的行為都看作是由一類單一的確定性機制產生的觀念對於解決二元論的矛盾是無濟於事的。事實表明，確實存在著一類行為，其中蘊含的不確定性並不是因為我們認識的侷限性導致的，而是由於它們確實存在一種不可約簡的不確定性。從逐一決策的層面上來看，它們是觀察者的不可預測的行為。我們無法迴避這個事實，經驗數據也讓我們相信這種不確定性行為的存在。其次，我要指出的是，同時存在確定性行為和不確定性行為的信念並不一定需要（或意味著）某種形式的二元論。如果能夠將它們恰當地概念化，那麼真正的不可預測的行為和完全確定的行為都出自一個單一的數學主體，這一主體描述了感覺一運動問題的最優解決方案。簡單的確定性行為來自於古典經濟學理論所描述的過程。當動物所面對的感覺一運動問題的解決方法需要由經典經濟學向博弈論領域延伸時，複雜的不確定性行為就出現了。 11.1 人類世界中的不可約簡的不確定性檯球世界為了準確說明不可約簡的不確定性行為的概念，我們需要藉助於臺球桌案例。這一次，考慮一個與我們生活的世界相像的檯球桌世界。同前面一樣，假設檯球桌上面隨機放著一個充滿智慧的白球，並假設該白球的視野是有限的。由於這種視野的限制，對於其他球的位置，這個白球在認識上具有不確定性。當然，除白球以外的每個球都有自己確定的位置。在這種情況下，我們的白球必須藉助於機率理論來克服它認識的侷限性。現在再假設其他的色球同白球一樣擁有智慧，並假設這些色球並非被動的環境因素，而是同白球一樣，它們的目標也是將桌面上其他的球清理乾淨。在這個意義上，它們都是白球的競爭者。此時白球面臨著的感覺一運動問題迅速地發生了變化（見圖11—1）。考慮這樣—種情況：一個移動很慢的黑色球位於球袋前面，並出現在比它運動得快的白球視野中。白球對這種情況進行了詳細的數學分析後得出結論：最優行為是儘快將黑球擊入球袋。同時，黑球也知道白球的想法。為了便於分析，我們假設，黑球總會針對白球的行為採取一種最佳策略。它總是決定向與白球預期軌道成90度的方向前進。在白球 • 221 274

275 決策、不確定性和大腦— 一神經經濟學？圖11—1 檯球世界中認識論的不可約簡的不確定性不知道黑球有上述考慮的情況下，這個決定將會使黑球安全地遠離球袋。如果白球知道，或發現了黑球的決定，就會改變其原有計劃。如果白球的新策略能考慮到黑球的最初決定，那麼它仍然可以成功地將黑球擊入袋中。只要黑球採用了確定的策略，無論多麼複雜，白球都能夠（至少在理論上如此）推斷出這個策略，並採取相應的策略擊敗黑球。那麼，面對這種情況，黑球如何取勝呢？這個問題只有一個答案：黑球的行為必須不可預測。如果黑球前進的方向是不確定的，那麼白球就不一定能夠擊中它。只有增加一種隨機因素，即對其對手來說是一種無法消除的不確定性，黑球才能真正對它的競爭者採取最佳反應。在本章中，我希望你們相信：（1）像上述環境中透過行為隨機性引入的不確定性與認識論的不確定性具有本質不同；（2）對這種不確定性的認識對理解行為、大腦和意識之間的關係極為重要。投擲拉普拉斯硬幣以巴甫洛夫和拉普拉斯為代表的廣義確定論者認為，認識論的不確定性屬於動物的特質而非環境因素。世界本身就是一個完全確定的系統，但是此係統中的任何個體對系統的認識都不全面。在任何一個對外部世界的認識水平上，都存在著由於我們的認識侷限性而產生的不確定事物。機率理論是我們用來描述不能全面瞭解的環境的工具。收集更多 • 222•

第11章不可約簡的不確定性與博弈論的資訊有助於減少我們所面臨的不確定性，由此減少我們對機率模型的依賴，但是我們為此要付出時間和精力。考慮一個用來投擲硬幣的類似於時鐘機構的機器。如果你可以預測到硬幣落地時哪一面朝上，你就獲取這一枚硬幣。如果你對這個機器一無所知，你就可以把機率描述為：硬幣落地時正面朝上和反面朝上的可能性各為50%。為了更好地猜測硬幣正面朝上還是反面朝上，我們可以定位硬幣的重心，我們還可以收集硬幣正面朝上是否依賴於它哪一面放在機器上的先驗機率分佈。如果收集了這些資訊，就可以減少不確定性，得出更為準確的估計，直到我們得到機器投擲硬幣的力度的全部信276 息和硬幣在空中翻轉的完全模型。這樣，我們就可以在硬幣擲出前預測其落地的情況。我認為，這就是引起拉普拉斯興趣的認識論不確定性的本質。然而，一個明智的對手可引人完全不同的不確定性，這是投擲硬幣的機器做不到的。假設我們與對手玩配硬幣的遊戲。兩個人各有一個硬幣，並把硬幣隨意放在桌上。如果兩個硬幣同面向上，那麼一號選手勝，如果兩個硬幣異面向上，則二號選手勝。想象一下，一號選手為了使他獲勝的可能性最大，開始把二號選手選擇正面朝上的先驗機率分類，他甚至尋找二號選手行為中的序列模式來減少他所面對的不確定性。每當一號選手發現二號選手的一種行為模式，他就更能瞭解二號選手將做什麼，因而獲勝的機率就會大於50%。當然，從二號選手的角度來說，他不允許這種事情發生。在任何情況下，他都不允許自己在遊戲中減少行為的不確定性。二號選手的目的就是使他的行為完全不可測，不顯示任何型別，由此對一號選手產生無法消除的不確定性。 11.2 博弈論古典經濟學理論（在第8到10章中描述的型別）逐漸發展，並被用於描述不確定性世界中的理性決策。古典機率論者和經濟學家將世界看作是可以用固定機率分佈進行描述並且可以用“機率論的演算法”進行估計的。古典經濟學理論從未考慮過面對智慧型對手時的決策制定。當面對一個智慧型對手時，我們不僅受到來自於靜止世界的影響，還受到來自於競爭者所採取的行動的影響。這是由於在一場真正的兩人競爭中，你和對手的行為組成了一個動態系統。我們不可能用古典經濟學方 • 223

決策、不確定性和大腦—神經經濟學法來理解這種動態系統和其包含的不可約簡的不確定性。 20世紀40年代，普林斯頓的數學家約翰 • 馮•諾依曼（John von 2YY Neumann）對古典經濟學的這種侷限性產生了興趣。在與普林斯頓的經濟學家奧斯卡 •摩根斯坦（Oskar Morgenstern）的合作中，馮•諾依曼開始針對一種數學理論繪製圖表，來描述當兩個智慧型競爭者的目標完全對立或者部分對立時，這兩個人應該如何互相影響。在他們具有里程碑意義的專著《博弈論與經濟行為》中，馮•諾依曼與摩根斯坦（1944）對古典經濟學進行了數學擴充套件，以此來確定一種最優行為，而且這種最優行為不僅適用於靜止不變的世界，還適用於存在多個智慧型競爭者的世界，這些競爭者可以透過自己的行為動態地改變他們的決策變數值，而這些決策變數值的改變可以影響到許多感覺—運動問題。現在考慮一個存在社會交換的經濟制度中的參與者。當然，他的問題與最大化問題（個體經濟行為者尋求最大化所得利益的問題）有很多相同之處，但仍存在某些本質上的不同。這個參與者竭盡所能地得到最優結果。但是為了達成心願，他必須建立與別人的交易關係。如果兩個或更多人彼此交換貨物，那麼每個人的結果就不單單取決於他本人的行，還受到其他人決定的影響。因此，每個參與者試圖最大化一個效用函式（即上述的“結果”），但是他不能控制函式中的所有變數。對所有的參與者來說，這個問題當然不存在最大化，而是一個由幾個相互衝突的最大化問題結合在一起的特殊問題。每個參與者都受到其他參與者的影響，而且沒有一個能夠決定他的效用函式中的所有變數。這種問題無法用古典數學方法解決。我們認，這不是條件最大化問題，不是變數計算問題，不是函式分析等問題。即使在最基本的環境中，例如所有變數僅能假設為一個有限數值時，這種問題仍然很清晰。關於這個偽最大化問題的常見誤解中，一種最有代表性的表述是，社會的目標是努力力“儘可能多的人帶來儘可能多的好處”。這個準則不能由兩個（或多個）函式最大化的必要條件一次性推出。按照字面上的理解，這個原則是自相矛盾的。（一般來說，在其他函式有最大值的條件下，該函式是沒有最大值的）。最恰當的表述是，一個公司應該在最大營業額條件下取得最高價格，或者在最少稅收條件下取得最大收益。如果這些原則或者有利於平衡的重要性次序可以確定，就可以得到上面的結論。然而，在一個經濟社會中這種單一參與者的情況不可能出現，而是不同參與者的最大值要求同時實現。 • 224

第11章不可約簡的不確定性與博弈論我們希望讀者能夠相信，上面的問題面臨的是一個概念上—而非 278 技術上的——難題。解決這個問題就是“博弈”理論設計者的初衷。（Von Neumann 與 Morgenstern,1944）馮•諾依曼和摩根斯坦希望重新定義理性決策的經濟理論。在真實世界中，每個人均在最大化自身的利益，所以，他的決定必須反映出其對手的存在。這就是博弈論真正要抓住的內酒。博弈論簡介馮•諾依曼和摩根斯坦將發生在智慧型競爭者之間的相互作用叫做 “博弈”，他們研究了一整套分析工具來描述博弈可能產生的所有型別的結果。他們的基本目的是完成一些類似於帕斯卡及其同事在被動環境中制定決策的研究。帕斯卡已經說明了一個決策者是如何透過綜合各種價值和機率的資訊來獲得儘可能最好的結果。馮• 諾依曼和摩根斯坦想要研究一個系統，用於說明當給定競爭者們都試圖獲取的最好結果時，一個決策者怎樣做才能獲得最優結果。馮•諾依曼和摩根斯坦所做的就是構思包含多個競爭者的決策問題，競爭者處於相互影響的動態系統中，一個競爭者的獲利都被其他競爭者的損失抵消了。從這個方面看，任何一種經濟競爭都可以被看作是，在達到某種穩定的中間狀態之前，徘徊於接受損失和要求利益的機率以及價值之間的一個過程。他們所提出的穩定的中間狀態是指，競爭性博弈帶來的最優問題的一種系統解決方法。引起馮•諾依曼和摩根斯坦特別興趣的是一類名叫“混合策略零和非合作博弈”的數學博弈。儘管馮•諾依曼和摩根斯坦也曾研究過其他型別的博弈，但是博弈論建立的基礎卻是非合作博弈，這主要是由於零和概念的簡單性。在零和遊戲中，一個選手的獲益總是嚴格等於另一個選手的損失，在任何可能的結果中，選手總的損失和獲益為零。在選手之間的這種完279 美的對稱性簡化了很多博弈論所涉及的複雜數學問題。因此，我們首先轉向這類數學競爭問題的分析。考慮表11—1中的矩陣，它說明了馮•諾依曼和摩根斯坦在策略表中所描述的零和非合作博弈。策略表的列描述了謝洛克•福爾摩斯（Sherlock Holmes）的主要對手——莫里亞蒂（Moriarty）教授的兩個可能行動。行則表示了福爾摩斯的兩個可能行動。內部單元格中的內容則描述了這兩個人的四種可能的結果及其每個結果的最終收益。 • 225•

280 決策、不確定性和大腦一神經經濟學表11—1 馮•諾依曼和摩根斯坦的H矩陣 1.莫里亞蒂去多佛渡 2.莫里亞蒂去坎特伯雷車口攔截福爾摩斯站攔截福爾摩斯 1.福爾摩斯從多佛下車逃往大陸福爾摩斯： 100 莫里亞蒂：100 福爾摩斯：50 莫里亞蒂： 50 2. 福爾摩斯從坎特伯雷 •福爾摩斯：0 下車逃避莫里亞蒂莫里亞蒂：0 福爾摩斯： 100 莫里亞蒂：100 資料來源：Von Neumann and Morgenstern （1944）. 謝洛克•福爾摩斯為了逃避莫里亞蒂教授的追蹤，要從倫敦去多佛然後去大陸。他登上了火車，當火車出站時，他在月臺上看到了莫里亞蒂教授。謝洛克•福爾摩斯認為這是理所當然的——而且他的假設完全合理——他的對手已經看到了他，而且可能乘坐某輛火車追趕上他。那麼謝洛克•福爾摩斯面臨兩種選擇：是直接到達多佛，還是在唯一的中間站坎特伯雷下車。他的對手——假設其智力足以認識到這些可能性—-也會有這兩種選擇。但是，兩個對手必須在不知道另一人的決定的情況下選擇出站地。這些選擇的結果是：如果他們恰好在同一個地方下車，那麼謝洛克•福爾摩斯就一定會被莫里亞蒂殺掉；如果福爾摩斯安全到達了多佛，他就成功逃脫了。對謝洛克 •福爾摩斯來說，最優策略是什麼？顯然，這個遊戲與硬幣匹配原則具有一定的相似性，莫里亞蒂教授成為被匹配的一方。因此，設他為1號選手，謝洛克•福爾摩斯為2號選手。直達多佛的選擇為1，在中轉站逃脫的選擇為2。我們現在考慮圖29 中的H矩陣（見表11-1）。區域（1，1）和（2，2）表示莫里亞蒂教授追到了謝洛克•福爾摩斯，用相應的矩陣元素值 100來描述非常合理。區域（2，1）表示謝洛克•福爾摩斯到達多佛，成功逃到大陸，莫里亞蒂教授則在坎特伯雷下車。那麼，只要上述情況發生，莫里亞蒂就失敗了，所以他的最終收益應該用一個負值表示，但是這個負值的絕對值應該比（1，1）和（2，2）兩種情況時的收益小，也就是說，我們可以把它設為50。區域（1，2）表示福爾摩斯在坎特伯雷下車，雖然成功逃離了莫里亞蒂的追捕，但沒有到達大陸。這可以看作平局，賦值為0。（接下來是馮•諾依曼和摩根斯坦在數學分析方面的描述。我省略 • 226•

第11章不可約筒的不確定性與博弈論了其中含義很抽象的公式，但是保留了可以使你們瞭解其數學形式的原文。）在例子（b）、（c）中，矩陣的對角線被分解（100>0，一50），因此唯一的最優策略是混合的。以前所用的公式（為了匹配硬幣遊戲而建立的模型）給出以下價值（對於莫里亞蒂）： '=40 並且最優策略（e表示對於莫里亞蒂，n表示對謝洛克•福爾摩斯）：e=｛3/5，2/5｝，n=｛2/5，3/5｝因此，莫里亞蒂應該去多佛的機率次60%，謝洛克•福爾摩斯應該在中轉站下車的機率為60%-—其他的40%在其他選擇中。"！］（Von Neumann and Morgenstern,1944）大概謝洛克 • 福爾摩斯和莫里亞蒂遊戲的最有趣的特徵是，遊戲的最優數學解要求福爾摩斯在坎特伯雷下車，其機率為 60%。在某種條件下，這些看來很荒謬。謝洛克 •福爾摩斯必須留在火車上或者中途下車。但是如同黑檯球不能採取一個單一策略並仍然希望欺瞞他的對手一981 樣，謝洛克• 福爾摩斯也不能採取一種確定策略，否則莫里亞蒂會殺了他。如果福爾摩斯同柯南•道爾所講述的故事中的一樣，確定在中途站下車，而非有60%的機率，那麼莫里亞蒂將會殺了他，這一點福爾摩斯與莫里亞蒂都知道。為了最大化他們共有的預期效用，每個人必須採取一種不會被對手確定的行為。當火車進入坎特伯雷時，每個人都必須按照這種隨機策略採取行動。在一種絕對的情況下，這是他們能採取的最好策略。因此，福爾摩斯與莫里亞蒂必須採取這種策略，即我們所說的混合策略。對手的行動和預期效用在最初的福爾摩斯和莫里亞蒂的博弈中，確定福爾摩斯與莫里亞蒂教授的結果值是關鍵的第一步。就像馮•諾依曼和摩根斯坦建立這個博弈時所規定的一樣，對莫里亞蒂來說，殺死福爾摩斯能夠得到的效用為 100，讓福爾摩斯到達大陸的效用為負值—50，讓他困在英格蘭的得分為0。這些效用值非常關鍵，因為它們確定了莫里亞蒂採取每種行動的確切可能性。確定每一種結果的值，或者更確切地說是預期效用，對博弈論和古典經濟學都是極為關鍵的。博弈策略形式中的每個部分都必須準確反映 • 227．

決策、不確定性和大腦—神經經濟學每個博弈者從結果中獲得的預期效用。回憶一下丹尼爾•伯努利（Daniel Bernoulli）對估值問題的現代解法，他認為任何結果的預期效用都可以被描述為：（1）一個事件的機率；（2）以反映博弈者淨利益的凹函式來衡量的該事件的貨幣價值。馮•諾依曼和摩根斯坦用策略表的每個單元格代表每個博弈者的預期效用。因此博弈表現出兩種不確定性。第一種是認識論範疇的，隱含 282 在每部分代表預期效用的計算中。在福爾摩斯和莫里亞蒂博弈的收益矩陣中，這種認識的不確定性並不是非常明顯：“總之，無論用什麼方法度量效用，如果他們兩人恰好出現在同一個月臺上，那麼福爾摩斯當然會被莫里亞蒂殺掉”。在這個博弈中，從一系列的確定性結果可以計算出每個收益矩陣的預期效用。但是，正如我們所知道的，並不是所有的問題都可以應用以上的方法。預期效用並不一定要以確定性為基礎，它們還可以處理認識論的不確定性問題。另外，博弈的策略結構表述也為每個博弈者加入了無法消除的不確定性。當博弈者以變化的機率選擇行動（一個特定的行或列）時，混合策略形式中就會出現無法消除的不確定性。策略矩陣中對行或列的選擇體現了這種無法消除的不確定性。這種方法包含了機率事件的第二類，是古典經濟學的延伸，也是馮•諾依曼和摩根斯坦的傑出貢獻。約翰 •納什（John Nash）與現代博弈論馮•諾依曼和摩根斯坦的工作一直專注於尋找零和博弈的最優解。但是到了20世紀40年代晚期，人們逐漸認清了這種做法存在很大的局限性。在多種博弈中，一個博弈者的獲益在數值上並不等於另一個選手的損失。［2這些非零和博弈，尤其是那些包含混合策略的博弈，是非常難解決的。為了理解這些博弈如此重要的原因，以及為什麼它們需要一種特殊的解法，讓我們來考慮一下大家都很熟悉的鬥雞博弈。史密斯與瓊斯分別坐在橋兩邊的車中，收到訊號後，他們以最快的速度相向行 288 駛。當兩輛車就要相撞時，史密斯和瓊斯都要決定是繼續行駛還是改變方向。假設鬥雞遊戲的策略形式如表11—2。表11—2 鬥雞博弈史密斯繼續行駛瓊斯繼續行駛瓊斯改變方向 •228• 一100，一100 --10,50 史密斯改變方向 50，-10 1，1

第11章不可約簡的不確定性與博弈論如果史密斯和瓊斯都沒有改變方向，那麼他們的車子都會被撞爛—根據馮•諾依曼的方法，我們給兩個選手的損失賦值為—100。如果其中一個人選擇轉向，那麼我們將轉向者的損失表示為—10，而另一個人則有50的收益。最後，如果兩個選手都轉向，我們則認為出現了平局，兩個人都沒有獲益。那麼，我們應該如何理解這個博弈呢？理想狀態下，我們想要知道史密斯和瓊斯的最優策略，但是由於這個問題不是零和問題，那麼馮•諾依曼的公式對我們來說幾乎沒什麼幫助。如果兩人都選擇繼續行駛，那麼他們都會遭受明顯的損失；如果一個人選擇轉向，那麼另一個人的收益遠遠高於轉向者。因此，這個博弈中並不存在收益和損失的零和狀態。 20世紀40年代後期，約翰•納什是普林斯頓大學數學系的研究生，當時這裡是戰後數學界的中心。當納什漸漸成為 20世紀最偉大的數學家之一時，愛因斯坦和馮•諾依曼都早已成名。納什尋找博士論文題目的時候，發現了非零和博弈的一個有趣的結構。讓我們從納什的角度觀察鬥雞遊戲，以便了解他是如何使用預期效用概念和均衡理論來克服馮•諾依曼方法的侷限性的。納什（Nash,1950a,1950b,1951）發現，如果瓊斯和史密斯一次又一次地進行鬥雞博弈（為了進行數學分析，忽略他們死去的可能性），那麼兩個人的行動必然會達到某種均衡。在這個均衡點上，兩個 • 284 人的得失相等，並且兩個人都沒有變化的動機。但是這個均衡點將會出現在什麼地方呢？有沒有一種方法可以計算混合策略均衡點的位置呢？讓我們給一些重要變數加上符號。首先，我們將史密斯轉向的機率記做 Psmith，swerve。由於這是一個機率，那麼它的取值範圍是0（他從不轉向）到1（他總是轉向）之間。由於史密斯的選擇只能是轉向或者直走，則直走和轉向機率之和必為1： Psmith,straight+Psmith,swerve=1 （11.1）或者，可以表達為： Psmith,straight=1—Psmith,swerve （11.2）同理 Pjones, straight=1—Pjones, swerve （11.3）我們可以把如 Psmith，straight一樣的變數，即史密斯直走的概率，看作是在硬幣實驗中，硬幣落地時正面朝上的機率。由這個變數， •229•

決策、不確定性和大腦—神經經濟學我們可以算出在瓊斯轉向而史密斯直走的情況下，瓊斯的預期效用。由於史密斯直走的機率為 Psmith，straight，並且假設瓊斯在這種條件下的損失為一10：瓊斯轉向的收益如果史密斯直走，=Psmith,straightX（一10）（11.4）相同的情況下，我們可以用機率方法來計算史密斯轉向時瓊斯的收益：如果史密斯轉南，一Psmith, stzaight×1 瓊斯轉向的收益（11.5）因此，綜合上述兩種情況，如果瓊斯轉向，那麼他的收益為：瓊斯轉向的收益=Psmith,straightX（10）＋ Psmith,swerves×1 （11.6）或者 285 瓊斯轉向的收益=（1-Psmith,swerves）X（10）＋ Psmith,swervesX1 （11.7）納什的一個重要觀點就是，對瓊斯來說，當且僅當不存在更好的行動時，他的一個具體的行為過程就是一個均衡點。只有當對於瓊斯來說直走或轉向無差異時，他的行為才是一個均衡點，因為二者的收益對他來說是相同的。用數學語言表達為，均衡點就是當轉向和直行的效用對瓊斯來說相等時的機率。因此，如果瓊斯直行，則他的收益為：瓊斯直行的收益=（1-Psmith,swerves）X（100）＋ Psmith,swervesX50 （11.8）瓊斯轉向時的收益為：瓊斯轉向的收益=（1—Psmith,swerves）X（一10）＋ Psmith, swervesX1 （11.9）當兩個收益相等時，即（1-Psmith, swerves）X（一100）+Psmith,swervesX50 =（1—Psmith,swerves） X（一10）＋Psmith,swervesX1 （11.10）解得： 90=139X Psmith, swerves • 230• （11.11）

第11章不可約簡的不確定性與博弈論 0.647=Psmith,swerves （11.12）或者，用文字表達：只要史密斯轉向的機率為64.7%，那麼對於瓊斯來說，轉不轉向的預期效用都是相等的。只要史密斯有64.7%的可能性轉向，那麼瓊斯就不會關心自己怎麼做，這時他的兩個選擇結果是一樣的。這也說明，如果史密斯在賽前宣告（在次優選擇下會出現這種情況）他轉向的機率大於64.7%，那麼瓊斯就會慎重考慮自己的決定，他就應該直走。這種方法最重要的一點顯然是史密斯以 64.7%的機率轉向，在這個機率下，瓊斯採取哪種行動都無關緊要。只要其中一方博弈者採取一886 種次優行為（就像瓊斯聲稱的，不管怎樣他都將直走），那麼另一方博弈者面對的將是一個標準的經濟學最最佳化問題，該問題可用標準方法輕鬆解決。但是，只要雙方同時尋求最優方法，那麼他們就必須達到均衡點。用這種方法計算的均衡點定義了唯一的一種行為方式，即既不選擇突然轉向，也不選擇繼續行駛。在這個點上，博弈雙方達到均衡。另一方面，這被稱為均衡博弈，因為對博弈雙方來說，博弈公式所描述的均衡點是相同的，博弈的損益也是對稱的。對史密斯和瓊斯二人來說，最優行動莫過於在所有的行動中，有64.7%的機率選擇轉向，但這種情況並不總是發生。正如納什所證明的，對每個博弈者來說，描述均衡策略的公式是不同的，因此每個博弈者的均衡點也是不對稱的。由於納什均衡可以擴充套件到非對稱博弈，因此他能夠證明，本質上這類問題的所有博弈都有一個均衡點。納什的觀點影響深遠，他將博弈論轉向了對均衡點的研究。哪裡才是一個博弈可達到的最優均衡點呢？納什的方法使我們可以回答這個問題，而納什本人也由於這個重要的發現獲得了諾貝爾經濟學獎。但是，我認為，納什的觀點帶給我們的遠不止這些。他的觀點，即混合行為策略可以有均衡點，說明了笛卡兒二元論的核心。有最優解的混合策略明確要求生物體能夠產生行為策略，而這種行為策略對生物體的對手來說包含無法消除的不確定性。達爾文寫道：“保留有利的變化，拋棄有害的變化”，這是自然選擇的結果。從本質上說，任何由於擁有有利變化而可以產生概然行為的有機體，都一定可以在自然選擇中保留下來。納什混合均衡的存在意味著，經濟學模型不僅需要動物的確定行 287 為，還需要其不確定的行為。【］當我們用這種方式構造感覺一運動問題時，所有的行為，確定的和 • 231•

決策、不確定性和大腦—神經經濟學不確定的，都可以被看作是用嚴格的經濟學理論和數學工具表述的問題的解答。一些問題，比如拉伸反應引起的問題，要求確定的解決辦法，而其他的問題則無法避免地要求機率解法。均衡方法的侷限性納什的均衡方法告訴我們，如果我們與對手有相似的目標，並且希望達到最好的結果，那麼我們應該採取怎樣的策略。從這個方面來看，納什均衡似乎是古典經濟學決定論的擴充套件，這種理論要求建立模型，來解決一個動物面對一個智慧型對手時的感覺一運動問題。但是，需要牢記的是，一旦一方博弈者採取了一種非均衡策略，那麼另一方的最優反應也是採取非均衡策略。在史密斯和瓊斯的案例中，如果瓊斯宣告在 80%的情況下他會選擇轉向，但是實際上他會繼續行駛。在這種情況下，瓊斯繼續行駛的收益總會多於轉向的收益。至於收益增加了多少，則取決於瓊斯選擇轉向的精確機率。總之，對於瓊斯來說，繼續行駛總是一個更好的策略。當然，在實際中，史密斯和瓊斯可能提前並不知道對方的策略矩陣。對他們來說，這是一個非常重要的問題，因為他們可能只有一次機 288 會。在其他形式的此類博弈中，進行同樣的重複博弈是完全有可能的。我們可以考慮這樣一種情況：透過系統地研究瓊斯的選擇並且持續地調整自己的選擇，史密斯可以保持自己的優勢，直到他們二人達到均衡點。但是對於一次性博弈，在實際中確定納什均衡就相當困難了。當前，博弈論的第二個重要侷限是它無法告知我們在真實世界中，史密斯和瓊斯應該如何尋找均衡點。博弈論可以描述一個達到靜態均衡的系統，但是不能有效描述系統達到均衡的動態過程。這是一個重要的侷限，因為動物的大部分行為必須用來解決動態問題—對於這些問題我們尚缺乏足夠的理論工具。幸運的是，在這個領域中有大量的研究正在進行，因此我們有理由相信在不久的將來會解決這個問題。但是同時，我們要認識到由博弈的動態過程所產生的我們必須克服的重大局限。儘管存在理論上的侷限，但博弈論已經成為理解人類和動物行為的重要工具。為了理解博弈論作為實證工具的優點和缺陷，接下來我們討論它在生物學中的應用。 • 232

第11章不可約簡的不確定性與博弈論 11.3 生物學與博弈論艾裡克•恰爾諾夫和他的同事們從古典經濟學中獲得靈感，建立了動物覓食行為的模型。同古典經濟學家一樣，他們成功地建立了動物覓食的環境，並且覓食過程是靜態的，決策者在此靜態過程中選擇自己的最優行為。20世紀40年代，馮•諾依曼和摩根斯坦曾經指出，用這種方法模擬真實世界有時是不成功的。真實世界包括其他生物體，而這些生物體並不都像模型描述的那樣是靜態的。納什藉助均衡分析這個有力的工具，對非靜態過程建模，進一步發展了這個觀點。在恰爾諾夫應用經濟理論的同時，進化論生物學家約翰 •梅納德• 史密斯（John Maynard Smith）也想知道博弈論是否可以成為生態生物學家的有力工具。他在1982年出版的著作《進化論與博弈論》（與瑪爾的《視覺》出版於同一年）的序言中寫道：荒謬的是，博弈論被更多地應用於生物學研究，而非它的設計初衷經濟學行為。原因有兩點：首先，這個理論要求不同結果的價值（例如，經濟獎勵、死亡危險、心靈的安慰）可以以一種單一模式衡量。在實際應用中，這種衡量標準叫作“效用”——一個人為創造的概念：在生物學中，達爾文的適應性理論提供了一個自然真實的一維模式。其次，更為重要的是，在尋找博弈解時，人類理性的概念被進化穩定性所替代。這種替代的優，點在於，有很好的理論上的理由來期盼人類的進化趨於穩定狀態，但是也有足夠的理由讓我們懷疑人類行為是否總能保持理性。令人驚奇的是，他按照與瑪爾相同的思路繼續寫道：要了解鳥類翅膀的結構，就必須瞭解鳥類所生存的大氣環境和不同形狀的翅膀產生升降力的方式。另外，還必須注意到，鳥的翅膀是由羽毛構成的—這又不同於蝙蝠或翼龍⋯⋯在研究翅膀結構的案例中，我們想要知道自然選擇究竟偏愛哪些形狀。研究此類問題，最合適的數學工具莫過於最最佳化理論了（其基礎是傳統的決策論數學）。我們面臨的問題是，確定哪種特徵（例如高度、拉大比率、小圓圈）對適應性的貢獻最大，而不是獲取成功需要依賴於其他個體的行為時所引 • 233 289

290 決策、不確定性和大腦—神經經濟學發的特殊的困難。正是後一個概念與博弈論的發展緊密相關。（Maynard Smith,1982）鷹鴿博弈為了更好地發展這種觀點，梅納德•史密斯介紹了當前生物學博弈中最有名的鷹鴿博弈。他假設，某個物種會為了增加它們繁殖後代的機會而相互競爭以搶奪領地，擁有領地的個體具有更強的適應性，但是總的說來，個體數目比領地數目要多得多。在這個假設條件下，動物們必須為獲得珍貴的領地而互相競爭（見圖11—2）。圖11—2 梅納德•史密斯的應鴿博弈鷹鴿博弈是這樣開始的：一隻沒有領地的動物侵入了另一隻動物的領地，並且對其領地產生了威脅。隨後，雙方都必須做出決定，是使衝突升級（領地而戰），還是選擇退讓（不經戰鬥就將領地拱手讓出）。假設某一方選擇戰鬥，表現得像鷹一樣，而另一方則表現得像鴿子一樣選擇退讓，那麼鷹就會擁有領地的控制權。如果雙方都表現得像鴿子一樣，那麼就隨機地選擇一方擁有領地。最終，如果兩方都表現得像鷹一樣，那麼它們就必須決鬥。其中的一方會受傷，並且因此而減少它可以繁殖的後代的數量，而另一方則會獲得領地。這個簡單的博弈可以由以下的策略矩陣表示（見表11—3）。 •234

表11-3 防守者選擇強硬態度第11章不可約簡的不確定性與博弈論鷹鴿博弈挑戰者選擇強硬態度挑戰者：50%的機率贏取領地，50％的機率受傷。防守者：50％的機率保有領地，50%的機率受傷。挑戰者選擇退讓挑戰者：一無所獲。防守者：保有領地。挑戰者：贏取領地。防守者：失去領地。 291 防守者選擇退讓挑戰者：50%的機率獲得領地。防守者：50%的機率保有領地。對梅納德•史密斯來說，每一個變數都可以用進化論術語來表達：不同的結果中每個個體在繁殖適應性方面的得與失。獲得領地可增加適應性，受傷則減少適應性。用這種方法可以總結出，如果領地價值很高，並且鷹與鷹在決鬥中受傷的程度很低，那麼基因上趨向於像鷹一樣行為的動物就比像鴿子一樣行為的動物更具有適應性。在這些條件下，梅納德•史密斯認為，動物種群會向顯示單一的純策略均衡的一類物種進化，即最終所有的動物都會是鷹。相似地，如果領土價值很低而且鷹與鷹在決鬥中受傷的程度很嚴重，鷹類則會逐漸消亡。所有像鴿子一樣行為的動物會繁衍更多的後代，會比鷹類動物更具有適應性。在這些條件下，種群則會像鴿子一樣顯示純策略行為的物種進化。但是如果領土價值很高，而且受傷的損失也很大，那麼就會出現一種有趣的結果。在這些條件下，進化的唯一穩定的均衡策略就是在每一次遭遇時，每個個體都按照固定的機率選擇做鷹或選擇做鴿子。更具體地說，從進化的角度來看，在進行鷹鴿博弈的種群中應該出現一種主導性的佔優策略。在給定的條件下，動物在發生遭遇時表現得像鷹一樣的機率等於領土的價值除以在鷹一鷹搏鬥中受傷損失的價值，這樣種群將會達到一個進化的均衡點。更為重要的是，在任何情況下個體的行為必須是難以預測的，以防止對手預先獲悉自己將要扮演的是鷹還是鴿子的角色。但是在許多次類似的遭遇中，該種群唯一的進化穩定佔優解是選擇作鷹的機率等於領土價值除以受傷損失的價值。梅納德•史密斯繼續指出，有兩種方法可以達到這個均衡點：每個個體選擇按照鷹或鴿子的方式生活，但是這種選擇在事先是無法預測 • 235• 292

293 決策、不確定性和大腦—神經經濟學的，或者在每一次遭遇中個體的行為都不可預測。個體之間以及個體行為的不可預測性都可以透過某種進化論方式形成。梅納德•史密斯指出，在這個特殊的博弈裡，如果某一種群內每一個體的行為都表現出不確定性，那麼它們將會比依賴於個體間不確定性的種群稍稍穩定一些。【］梅納德•史密斯將這個博弈衍生的均衡進化策略稱作進化穩定策略，或者被稱為 ESSs。進化穩定策略反映了由納什均衡概念向生物學和進化論方向的擴充套件，不過我並沒有涉及其中的細節。但是在更一般的條件下，梅納德•史密斯的分析中有兩點值得引起我們的注意：第一，利用博弈理論的研究結果表明，存在可以用數學方法定義的條件，在這些條件下，動物們必須透過進化形成一種具有不可約簡的不確定性的行為能力。換言之，在微觀水平上，動物的行為必須是隨機的、不可預測的，而在機率層面上則是合理的、可預測的。第二，這些複雜的不可預測的動物行為型別可由博弈論得到合理的解釋。動物們真的能做出不可預測的行為嗎？針對這種一般性的論述，在人們（特別是實證科學家）提出的反對意見中，核心的一條就是，像動物一樣大的生理系統是不能做出不可預測行為的。儘管我們都承認現代物理學家的證明，在亞原子的水平上，不確定性是確實存在的。但是很多人仍然相信在像生物體這樣的宏觀系統中，不確定性是不可能存在的。實際上，在給定條件下隨機地選擇做鷹或鴿子對真實動物來說是不可能的。但是，有一點需要指出的是，博弈論並不真正要求動物的行為在事實上是隨機的。博弈論僅要求每個個體的行為對它的對手來說含有無法消除的不確定性，它並不要求動物行為從本質上來說都是不可預測的。但是，我還要補充一點，儘管博弈論並不要求本質上的不可預測性，但是也沒有任何令人信服的理由證明這種行為不存在。就像梅納德•史密斯在 1982年所指出的：我覺得這種異議說服力不強。如果有選擇上的優勢，那麼一個隨機化的裝置必定可以不斷地演進，或者完全是一個神經活動的過程，或者是一個需要依賴與其功能不相干的外部刺激的過程。一個沒有異議的混合ESS 例子或許就是，異性配子的個體產生相同數目的X和Y配子（產生雄性和雌性後代的精子）。如果性腺可以做到這一點，那麼為什麼大腦不可以呢？進一步講，只要動物在學習實驗中能夠採取“機率匹配”策略，那麼就表明它們實際上擁有與輪盤賭中的轉輪相同的特徵。 • 236•

第11章不可約簡的不確定性與博弈論（Maynard Smith,1982）梅納德•史密斯在這裡作了兩點說明：第一，我們不應該過於草率地放棄這樣一種觀點：像人腦這樣複雜的器官經過長期的進化已經具有在神經元水平上產生隨機過程的能力。第二，為了產生不可約簡的不確定性行為，生物體不一定必須使用一個真正的神經元隨機生成器。生物體可以將“不相關的外部刺激”作為種子，透過內部的、非隨機的過程由此產生無法預測的反應。關鍵的一點是，動物必須能夠產生對它的對手來說無法預測的行為。 294 11.4 用博弈論研究動物行為數學家、經濟學家和生態生物學家都認為，從理論上說，博弈論可以預測出動物面對智慧型對手時所能夠產生的隨機行為型別。這種觀點是否已經透過了實證檢驗呢？在前面的幾章裡我曾經提出，經濟理論的很多經典模型可以在理論上描述動物覓食行為。然後，我用實證方法對下述觀點進行了檢驗：儘管當前的經濟學理論模型並非盡善盡美，但是它們仍然可以很好地預測動物的行為。那麼，動物行為的博弈論模型是否也可以像經濟學模型一樣有效呢？坦白地說，對動物行為的博弈論模型，幾乎沒有有效的檢驗。在第 12章中我將給出透過我自己的實驗得到的證據，證明博弈論模型是研究動物行為學和生理學的有效工具。但是，在轉向神經生物學實驗之前，我想介紹一個例子，這個例子說明了博弈論在自然條件下可以作為預測工具。 1982 年，哈珀（D. G. C. Harper）在英國劍橋進行了一項針對鴨子群體覓食行為的研究，這項研究現在被視為該領域裡的一個里程碑。 1979年冬天，33只野鴨子游弋在劍橋大學植物園內的湖面上。哈珀想透過陸續扔給它們一些小麵包球，來了解這些鴨子如何競爭。哈珀和他的一個助手每天都帶著裝有2克或4克麵包球的籃子來到湖邊，他們會在距湖邊20米的地方選擇好各自的位置。看到訊號後，他們開始向湖中投擲麵包球，其中一人每5秒鐘投一次，另一個人每5 秒鐘或每10秒鐘投一次。哈珀的問題是，這33只鴨子將如何選擇它們各自的位置？考慮這樣一種情形：一個叫做 Swerve 的人每5秒鐘投擲2克麵包295 • 237

296 決策、不確定性和大腦—一神經經濟學球，另一個叫 Continue 的人每10秒鐘投擲2克麵包球。那麼，鴨子會有怎樣的反應呢？表面上，這是33只鴨子的博弈，我們可以將它看成是有33個博弈者參與的納什均衡問題。為了簡化這個問題的數學解，我們有如下兩個簡化假設：第一，把它看作只有兩個參與者的博弈：一只鴨子對一群鴨子。有33個參與者的情況下，我們也可以得到相同的結果，但是複雜性會大大增加。第二，不管是在 Swerve 面前還是在 Continue 面前，所有的鴨子都有相同的機會得到擲出的麵包球。［5 現在，為了確定這個博弈的納什均衡點，我們把被研究的這隻鴨子稱為史密斯，我們必須確定什麼時候史密斯認為呆在任何一個麵包球投擲者面前沒有差異。我們必須找到史密斯的均衡點，在這一點史密斯會認為呆在 Swerve 和 Continue 兩個麵包投擲者面前的價值是相等的。為了找到這一點，我們需要定義每一片水域相對於史密斯的價值。 Swerve 水域每小時的價值必定等於每小時投人水中的麵包總量除以每小時這一片水域中鴨子的平均數量：收益Soere_ Swerve 水域的價值一鴨子數量Sm0 （11.13）如果我們把 Swerve 水域的鴨子數目表示為鴨子群體規模（Size）的一部分（8）， 8Xsize （11.14）則 Swerve 水域對於史密斯的價值為： Swerve 水域的價值= 收益Soarme 8Xsize （11.15）同理， Continue 水域的價值= 收益Canlnge （1 0Xsize （11.16）在均衡點，對史密斯來說，這兩片水域的價值必然相等。也就是說，兩片水域中的鴨子數量正好使得史密斯認為這兩片水域沒有差異。因此，只有當下式成立時，才可能達到均衡：收益Soemg - 收益Coninue 0Xsize （1 9） Xsize （11.17）當用每分鐘內投人每一片水域的麵包數量來表示收益時，經過簡單 • 238•

第11章不可約簡的不確定性與博弈論的代數運算就可以得到： 8Xsize 收益soerse. ar （1-0） Xsize 收益 continue （11.18）於是，收益Swerve （11.19）如果就像哈珀實驗中的那樣，Swerve 每5秒鐘投擲2克麵包球， Continue 每10 秒鐘投擲2克麵包球，那麼每分鐘 Swerve 水域的總收益就是24克麵包球，而 Continue 水域每分鐘的總收益就是12克面包球。 24 8= 12+24 2 3 （11.20）對於史密斯來說，當且僅當三分之二的鴨子位於 Swerve 水域，另外三分之一的鴨子位於 Continue 水域時，兩片水域的價值是相等的。只要不是這種情況，對史密斯來說最佳的選擇都是去和更少的鴨子爭食。正是透過這樣的方式，每一隻鴨子的博弈決策促使鴨群達到均衡點。以上所有的分析表明，當三分之二的鴨子游弋在 Swerve 的面前，而三分之一的鴨子游弋在 Continue 的面前時，此博弈可達到納什均衡點。在這樣的條件下，史密斯認為呆在哪個餵食者面前都沒有差異。既然這是一個對稱博弈，那麼對其他鴨子來說，只要包括史密斯在內的鴨群將三分之二的時間花費在 Swerve 面前，而將三分之一的時間花費在 Continue 面前，那麼它們也會認為在哪一片水域進食都沒有差異。令人驚奇的是，這恰恰就是哈珀觀察到的結果。在這種情形下，鴨群按照理論預測的納什均衡點進行了精確的劃分，並且這種劃分在開始投擲麵包的60秒鐘內就完成了，而在這個時候至少還有一多半的鴨子沒有吃到麵包球。更令人驚奇的是，每隻鴨子也按照三分之一或三分之二的比率來分配它們在兩片水面的時間，又和理論預測的結果完全吻合。無論哈珀和他的助手怎樣改變投擲麵包的數量或速度，鴨群都會按照前面的公式迅速配置在每一片水域的數量。這樣，至少是近似地，博弈論確實相當有效，不但可以在理論水平上為不可預測的行為構建模型，而且還可以預測動物在競爭中的真實行為。博弈論確實是對經濟學決策理論的擴充套件，當達到均衡點時它可以解 • 239• 297

決策、不確定性和大腦—神經經濟學釋動物行為的不可預測性。現代博弈論的重要缺陷是它不能提供一種合適的工具，來說明達到均衡點的動態過程。建立一種能夠描述達到均衡點之前決策的動態過程的模型必定具有非常重要的意義。但是不管怎樣，現有形式的博弈論是一筆至關重要的財富，它是理解人類和動物產生的不可預測行為的最基本的工具。 11.5小結當使用經濟學方法界定感覺一運動問題時，所有的行為，無論是確定性的還是不確定性的，都可以被看作是對那些能夠被嚴格表述的問題的解答。某些問題，比如拉伸反應問題，需要確定解。而其他的問題，例如鷹鴿博弈問題，則需要引入無法約簡的機率解。博弈論使得二元論神經生物學不再成為必要，從這個意義上來說，博弈論使經濟學方法更為完美。博弈論表明了確定性行為和不確定性行為都是必要的，它同時也解釋了二者都是單一的高效決策系統的產物。既然在理論上有這樣的優勢，那麼博弈論是否能夠成為研究神經生物學的一種有效工具？我們能否使用博弈論工具，識別出可以在行為和神經生理學的框架內建模分析的具有不可約簡的不確定性的行為？我們將在第12章開始回答這些問題，該章包括了邁克爾•杜瑞斯（Michael Dorris）和我自2000年開始進行的一系列實驗。註釋［1］在柯南 • 道爾的敘述中——這是可以理解的——忽略了對隨機策略情況的估計，而採用了真實的發展狀況。根據敘述，謝洛克•福爾摩斯在中轉站下車，洋洋自得地看著莫里亞蒂的專列開往多佛。在限制條件下，柯南 •道爾的解決辦法是（對純［或非隨機］策略）所有可能的辦法中最好的，他給每個對手分配了我們認為最可能發生的過程（也就是他將60%的可能性變成了必然性）。但是，我們認為，使謝洛克• 福爾摩斯完全獲勝的過程有些誤導性，因為鑑於我們在上文中的敘述，莫里亞蒂獲勝的可能性（例如博弈值）顯然更高（我們由e，n的結果進行分析，認為當福爾摩斯的車從維多利亞車站開出時，他的死亡機率實際上就已相當於48%⋯⋯）。 • 240．

第77章 不可約簡的不確

第77章不可約簡的不確