AI 新聞與投資

［2］事實上，馮•諾依曼和摩根斯坦發展了一種零和方法來表示非零和博弈。他們假設了另外一個假想的博弈者，用他的收益與損失來平衡其他博弈者的收益和損失。然而，這種方法只是為模型提供了一些有限的數學幫助。［3］許多人對這一推理有異議，他們指出，當人們被要求口頭表述或估計隨機數字時，通常表現不佳。的確，人們無法口頭表達數字或字母的隨機型別。但是在稍後的內容中我們將看到，人和動物都可以產生令人驚奇的隨機行型別。儘管與完美的隨機行為相比，人們的行為有些很小的差異，但是他們會比預期的行為表現出更大的隨機性。儘管我們所說與所做之間存在差異的根源具有重要的含義，但是這場討論的關鍵在於人們的實際行為具有顯著的不確定性。［4］在這裡我曾以一種極其簡化的方式介紹了鷹與鴿子的博弈。第一，在這個博弈中，假定每個個體在決鬥前無法獲取任何有關勝負的信息。第二，假定所有個體贏或輸的可能性相等。第三，我省略了梅納德•史密斯進行的數學證明。在他的書裡，每個部分都有詳細的證明，這些證明不僅涉及簡單的鷹鴿博弈，而且涉及在衝突之前包含資訊交換的複雜部分。我建議讀者們仔細閱讀梅納德•史密斯書中的每個細節。［5］事實上，這是一個相當有趣的假設。原因有以下幾點：第一，這個假設在對類似的覓食行為的理論分析中扮演著引人注目的角色。相關的細節可參閱 Fretwell 完成於 1972年的經典著作《季節環境中的人口》。第二，哈珀發現這個假設與實際不符。佔據優勢地位的鴨子們的所得通常超出了它們應有的份額。第三，也是最重要的一點，只要每隻鴨子得到麵包球的機率僅僅受到它在鴨群中的地位和鴨子總數的影響，那麼在這裡，這個假設對我們建立的博弈論模型就沒有任何實質上的影響。 • 241•

第12章博弈與大腦． 12.1 意志、自由意願與數學博弈 299 假設你是一位年輕的女士，正在參加一個在戶外舉辦的夏日晚會。在草坪的另一側，你的一個好友正在和一個相貌英俊的年輕人交談。他看上去愛笑而且樂於傾聽。那麼，你會不會過去邀請他跳舞呢？這並不是一個容易的決定。他會不會接受邀請呢？如果他接受，你會不會想馬上與他交往呢？理解做出此類決定的過程，似乎超出了神經科學研究的範疇。對於做出決定和運用自由意願，我們有著這樣明確 • 242•

第12章博弈與大腦的感受。看起來關於大腦的科學理論似乎不能利用數學和生理學概念完整地描繪這樣一個過程。當然，這也是笛卡兒的想法，確切地說這正是他在《靈魂的激情》一書中提到的那種決定：我們很容易理解，除了思維以外，再沒有什麼可以歸結到我們的精神了。思維又可以分成兩類：第一種，叫做精神的行為；第二種，叫做精神的激情。我之所以將其稱作是精神的行為，是因為透過經驗我們發現，精神的行為直接來源於我們的精神並且只依存於它；另一方面，在我們身上可以發現的所有感覺和認識，一般都可以被稱為精神的激情，這是由於精神感受往往來源於它們可以描述的事物。（Descartes,1649）我們是否可以期望利用古典經濟學和博弈論工具，將決定問題的過程納入神經科學的研究範圍中呢？如果存在這麼一種方法，那麼一定是使用弗朗西斯•培根和他的同事們在啟蒙運動時期發明的科學方法。首先，正如笛卡兒指出的那樣，我們需要確定一種可以被廣泛認同的、能夠反映“精神的行為”。一旦確定了這樣一種行為，我們就要確定“精神的行為”所要達到的目標（戴維 •瑪爾所指的目標）。然後，我們要進一步發展一種對行為自身的數學描述，並且開始分析產生行為的神經器官。那麼，對於這種無法被看作是反射性（或確定性）的“精神的行為”，其決定性特徵又是什麼呢？首要的問題是，按照笛卡兒的解釋，這種決定似乎“僅依賴於意志”。對外部感覺事件來說，它們必定是不可預測的，也就是說存在不可約簡的不確定性。是否要邀請那個年輕人跳舞的決定就具有這樣的特徵。任何針對這類決定的科學研究都必須仔細分析具有這種不可預測性的神經過程。其次，在主觀上，這種決定需要一種自由意願。不同於將手掌從鋒利的大頭針上挪開，或是簡單地將視線移向另一個顯眼的目標，我們必須在主觀上感覺到我們正在做出決定。如果我們能夠找到這樣一種決定，然後在實驗室中將其模型化並進行進一步的研究，我們也許就能夠檢驗這樣一種觀點：可以利用神經經濟學方法為大腦產生的最複雜的神經過程建立模型。 12.2 體驗檢查博弈設想與我進行下面的博弈。假設我是你的老闆，而你則是我唯一的 • 243• 300

決策、不確定性和大腦——神經經濟學僱員。每天早上你都要決定是否來上班，因為你知道工作很辛苦，將會消耗你的時間和精力。我們用美元來衡量這種成本的大小。同時你還知道我作為你的老闆還有其他的職責，因而很難每天都來檢查你的工作情況。當然我偶爾會來到辦公室，檢查那天你是否來工作，但是我要設法儘量減少這樣做的次數。假設在一個週一的早上，你雖然已經醒了，但仍然感到有一些疲倦。躺在床上，你必須決定今天是否去工作。老闆今天會來檢查嗎？ 801 為了討論的方便，假設我總是採取在週一而不在其他日子進行檢查的策略。如果你知道我的策略，這無疑將影響你在週一早晨做出的決定。比如你可以決定絕不在週一曠工，而將曠工推遲到本週後面的日子裡。當然我也知道你知道這些，於是我會傾向於用一種不可預期的方式進行檢查。實際上，我會盡力不讓你知道我什麼時候要進行檢查。每天早晨，當你還躺在床上時，你必須仔細考慮是否在我的行為中存在一些模式，能夠暗示出今天我會不會去檢查。同樣，我也期望能準確地預知你什麼時候曠工。正如11 章中講到的黑色和白色檯球的例子，我們發現我們被困在一個具有不可預期策略的遊戲當中。當你設想這個遊戲的時候，我希望你能注意到，你對於必須做出抉擇有一個明確的感受。你必須認真考慮我可能的行，然後再運用你的自由意願去決定是上班還是曠工。理論請讓我繼續將這些策略衝突中的決定方式形式化，就像經典數學中的檢查博弈，或被稱為“工作一曠工”博弈。首先，我們將你對於工作成本的感受形式化，假設工作會使你感到很不舒服，因為你需要付出努力E。為了簡化起見，我們用美元的價值來代表你付出的努力，一定數量的美元將促使你去工作（並不是很情願的）。“當你選擇去工作的時候（或者你曠工但是我卻沒有能夠捉到你的時候），我會付給你工資 W。W必須要比E大，否則在你的最佳選擇中，工作與否就是無差異的。用數學語言來說，這意味著你和我玩這個遊戲的必要條件就是W 大於E。那麼我呢？我需要付給你工資W，但是我的回報又是什麼呢？你來工作，你的努力會產生一個產品P。P必須要比我付給你的工資 302 多，不然我僱用你就是非理性的。所以我能夠繼續這個遊戲的必要條 • 244•

第12章博弈與大腦件就是P大於W。最後，我們來考慮一下檢查。正如我前面所說的，檢查你是否來工作了，是需要花費成本的。每一次我來到辦公室，都要花費我本可以花費在其他事情上的時間。我們將這個考慮成變數 Insp。Insp 就是我每進行一次檢查所要花費的成本。我們將變數列表如下： E -你預期的工作的負效用 W- -我付給你的工資 P你為我工作一天創造的價值 Insp -對我來說檢查的成本（12.1）考慮我們之間進行的博弈，用策略矩陣把我們所有可能的行動的收益和成本表示出來。我每天都有兩個可能的做法：我可以檢查也可以不檢查。你也有兩個可能的做法：你可以工作也可以曠工（見表 12—1）。表12-1 工作或曠工你工作你曠工我檢查你：W-E 我：P-W-Insp 你：0 我：-Insp 我不檢你：W-E 我：P-W 你：W 我：-W 如果我在週一檢查並且你在週一去工作了，你將得到工資，但你要以效用的損失為代價，最終你將得到一個淨收益 W-E。另一方面，我得到了你的產品，但要同時支付工資和檢查成本，我的淨收益是P-WInsp。如果你去工作了，而我沒有去檢查，你仍將得到你的工資（減去你的效用），而我將得到你的產品（減去你的工資），但是這次我不再花費檢查所發生的成本。這樣的結果對於我來說是最有利的。如果你曠工，而我又沒有檢查，這樣你將得到工資而不用損失任何效用，而我則損失了給你的工資，並且沒有得到任何利潤。這樣的結果對於你是最佳的而對於我則是最差的。在這個將我們之間的博弈形式化的過程中，我們得到了什麼呢？為了看清楚這一點，我們先將這些變數轉化為數字。設想我一天付給你100 美元作為工資，對我來說你生產出的產品價值125 美元。假設你一天的 • 245• 303

決策、不確定性和大腦- -神經經濟學休息（或你的努力）價值50美元。最後，假設由於我的家離辦公室25英裡遠，一次檢查所花費的汽油和時間的價值為50美元，在這樣的條件下，這個遊戲的策略矩陣中的收益可以用美元的形式表示為表12—2。表12-2 我檢查我不檢查你工作你：50 我：一25 你：50 我：25 你曠工你：0 我：一50 你：100 我：一100 觀察一下這些條件，我們會發現檢的成本是很昂貴的。你當然也會認識到這一點，這意味著你很可能認頻繁地曠工是一個不錯的主意，因為只要你的曠工頻率沒有完全失控，我會選擇容忍的策略。現在我們考慮另一種情況與此進行對比。假設我就住在你工作地點的拐角處，在這種情況下，我們可以認為檢查的成本很低，比如說只有5美元。在這種條件下你可能預期我幾乎不會容忍曠工，如果我認為你在偷懶，我就會開始進行很頻繁的檢查，自然你也會被經常逮到。同前面一樣，策略矩陣完全可以將這種直覺表現出來（見表12—3）。表12-3 你工作你曠工我檢查你：50 我：20 你：0 我：-5 我不檢你：50 我：25 你：100 我：100 在某種程度上，工作還是曠工轉化為你我之間的一系列互相權衡。你儘可能地曠工，而我則儘可能地減少必須進行的檢查，以便在保證你能夠上班的同時還能最大化我的利潤。我們都明白，每天早晨我們起床之後都要做出決定：今天是否去工作（或是否去檢查）。當然，你希望儘可能多地曠工而又不被捉到，這正是約翰•納什建立納什均衡的定義 804 時所談論的問題。這是一種用來確定你應該以什麼樣的頻率曠工的純數學方式。我並不是說或者現在還不能說，你躺在床上的自由意願可以被 • 246•

第12章博弈與大腦描述成解決最最佳化問題的途徑。我只想說納什模型讓我們可以識別出你可以採用的最佳策略。他告訴我們你應該決定以何種頻率曠工。形式上，根據納什均衡，你的曠工機率應該正好使我在檢查和不檢查之間是無差異的。在這樣的曠工水平上，我會發現檢查和不檢查的驅動力是相同的，如果你曠工超過了這一均衡水平，為了使我的利潤最大化，我將經常選擇檢查。如果你曠工低於這一均衡水平，我將不必去檢查，因為檢查與其成本比起來並不划算。在數學上，你曠工的機率應該等於檢查的成本除以你工資的價值（相對於我來說）：你曠工的機率=Jnsp （12.2）根據同樣的推理，我檢查的機率一點（12.3）這些結果意味著對於表12—2中的策略博弈，也就是我的檢查成本是50美元，你工資是100美元，你努力的成本為50美元，你的產品價值 125美元的情況，這時我們的最佳選擇實際上是，你有50%的時間選擇曠工，而我在50%的時間內選擇檢查。很簡單，這就是為了達到給定的競爭目標，我們彼此的最佳選擇。當然，如果像表12—3中那樣，我檢查的成本下降到了5美元，你曠工的頻率也將相應地下降到5%。截至現在，一切都很順利。納什均衡告訴我們，每天早晨你躺在床上應該怎樣做出選擇。就像你想要確定是否去工作一樣，納什均衡這一計算工具為你的思考過程建立了一個可計算的目標。那麼真實世界又是怎樣的呢？這些真的可以預測現實中你在選擇工作和曠工時的行為嗎？行為為了回答這個問題，邁克爾•杜瑞斯和我請人來玩這個工作與曠工的博弈。我們任意地委任一個人扮演僱主，一個人扮演僱員。我們讓僱主和僱員坐在兩個隔開的房間中的計算機終端旁。爾後，我們讓他們在接下來的1～2個小時內完成幾百次的工作和曠工博弈。在每一次博弈開始時，我們讓他們獨立地做出決定今天是否採取行動：是否去工作或者是否去檢查。在他們獨立地完成決定後，我們的計算機會核對策略矩陣，並將他們在這一輪博弈中各自的收益通知他們（我必須指出我們付給他們的是美分而不是美元，但即使是這樣我們的物件仍 • 247•

306 決策、不確定性和大腦—神經經濟學可以在一小時的博弈中獲得大約30美元）。由於很明顯的原因，我必須告訴你我們從沒有明確地告訴實驗物件們策略矩陣的形式，也沒有明確地告訴他們對手是怎麼選擇的。我們只是付給他們收益然後讓他們繼續進行。在一個典型的實驗中，我們讓一對實驗物件博弈了150次，而後改變收益矩陣，從而一個新的曠工和檢查比率成為納什均衡比率。他們會繼續博弈 150次，我們按這種方式一共重複了3到5次。當然，在我們讓研究物件在一系列的博弈中做出選擇的時候，我們是知道他們所面對的問題的最優路徑和納什均衡點的。這得益於我們擁有的對“工作一曠工”博弈的完整的數學描述。在他們進行的這個博弈中，我們的問題是這個數學上確定的雙方最優策略，是否能預測我們的實驗物件在現實中的行為呢？在圖12-1 中我們可以看到一對典型的僱主一僱員在150次博弈中的行為。黑色的曲線代表僱員決定去工作的比率，表示的是連續20次博弈的平均結果。灰色的曲線代表僱主決定去檢查的比率，在這150次博弈中，杜瑞斯和我透過選擇W、P、E和Insp的價值，形成了一個僱主選擇50%的機率檢查、僱員選擇 50%的機率曠工的最優路徑。圖中的那條粗灰線代表了這條最優路徑，圍繞著粗灰線的兩條鋸齒狀曲線代表了我們的實驗物件的實際行為。 100 率曠工或檢查比 0 0 20 40 60 80 實驗次數 100 120 圖12—1 兩個人在金錢激勵下的工作一曠工博弈注：僱主的行為用灰線表示，僱員的行為用黑線表示。 •248• 140

第12章博弈與大腦圖中令人吃驚的地方，至少對我們來說，是在開始時的100次博弈中，僱主和僱員看上去都在上下調整自己行為的比率，直到他們的行為完全與納什均衡一致。然後，他們的行為一直保持或者非常接近於這個穩定的均衡，直到我們改變收益矩陣。看起來僱主和僱員每天在做出決定時，都在竭力達到納什均衡定義的最優策略。回憶一下，我們並沒有將收益矩陣的確切形式告訴我們的實驗對象，當然我們也沒有告訴他們任何有關納什均衡的理論。事實上，我們的大多數實驗物件是神經科學的在讀學生，他們從沒有聽說過納什均衡。在實驗結束後，當我們問到他們對於剛做過的實驗的想法以及他們是怎樣完成的時候，他們沒有做出任何數學形式的回答。如果我們在幾百次實驗之後，去問一個扮演僱員的受試者：“你為什麼會在那個時間選擇曠工？”他的回答通常是：“我覺得那個時候我有可能僥倖逃脫。” 儘管他們不知道博弈論，並獨立地做出決定，但這些實驗物件似乎都達到了在數學上定義的行為目標。他們選擇了一個工作（或者檢查）的比率，這一比率近乎最優，並且可以被納什方程完整地描述。當我們仔細分析這些資料的時候，我們發現這些資料還可以告訴我們更多的東西。它們反映出了一些與不可約簡的不確定性有關的事實，這正是我們認為的理解笛卡兒所說的複雜行為的關鍵。現在回到我們先前曠工和檢查的比率都是50%的情形。我前面介紹過的那些資料，顯示出實驗物件成功地接近了均衡比率。我們的實驗物件在達到那些比率時，採用了什麼樣的工作和檢查方式呢？他們特定的工作和檢查方式是不是像博弈論中預測的那樣，具有不可約簡的不確定性呢？想一想我們的僱員完全可以在連續的博弈中，簡單地在工作和曠工之間交替做出選擇，比如只在每一個單數的日子裡工作而在雙數的日子裡曠工，從而達到50%的曠工比率。但是如果這樣，我們的僱主就可能發現這一方式，並進而利用這一資訊。一旦事先知道僱員在什麼時候會曠工，僱主就可以只在必要的時候去檢查了。接下來僱員必須使曠工（僱主是檢查）盡可能地以真正的隨機方式發生。在直覺上，這看上去正是我們在研究真實的意志決定時所期望發現的模式。那麼，我們的實驗物件行為不可預測的程度，或者說這裡包含的不可約簡的不確定性的程度又是怎樣的呢？在我們給出的圖12—-2的左側，是50%的曠工比率為最佳策略時，150次實驗中工人選擇工作或者礦工的次數總和。我們注意到他有51%的時間選擇工作，有49%的時間選擇曠工。現在再讓我們看圖的右邊，我們繪出了他在選擇工作之後 • 249 307

308 決策、不確定性和大腦—一神經經濟學緊接著選擇曠工的次數，我們還記下了在選擇工作之後的第二天仍然選擇工作的頻率。在橫線的下面，我們給出了實驗中在選擇曠工之後緊接著選擇工作的比例，以及在選擇曠工之後緊接著又選擇曠工的比例。實際上，我們現在所做的是要尋找一種順序方式，我們的僱員藉此來決定是選擇上班還是選擇曠工。工作一工作 54‡5% 工作 /S14% 工作一曠工 46‡5% 150次實驗曠工一工作 49‡6% 曠工 49‡4% 曠工一曠工 51‡6% 圖 12-2 僱員在工作一曠工博弈中行為的隨機性如果我們的僱員在工作和曠工之間往復交替，我們就會發現，在選擇了工作之後，緊接著選擇曠工的次數會多於選擇工作。另一方面，如果僱員的行為存在不可約簡的不確定性，那麼這兩種可能性將會有一個相等的分佈。我們實際觀察到的正是一個相等的分佈，暗示出行為並沒有明顯的模式。同理論預測完全一樣，工人似乎每次都是隨機地決定自己的行為。［2這種隨機性同時也解釋了我們資料的另一個特徵。你可能已經注意到了，在實驗中曠工的曲線圖形非常參差不齊。而實驗物件似乎都圍繞著納什均衡徘徊，很少正好位於均衡線上。現在我們知道這正好反映出了他們行為本質上的隨機性。這種方式不只是存在於這個僱員身上，而是基本上存在於現實中所有的僱員和僱主身上。 809 小結當我們問我們的實驗物件在工作一曠工博弈中的感受時，他們回答 • 250

第12章博弈與大腦到，對於每次必須選擇是否去工作或者是否去檢查，他們都有一個很強的感受。他們回答說他們盡力去保持更加明智和不可預測。我們的資料也傾向於支援這一看法。在他們每次做出決定時，其行為確實表現出了很明顯的不可預測性。根據這些資料，我想指出，受試者似乎在以一種不可預測的方式進行這個工作一曠工博弈。我們的實驗物件在工作一曠工博弈中的行為，是一種被笛卡兒描繪成精神或者意志的產物。它是復雜的、不可預測的，無法期望任何確定性的或者以反射為基礎的系統能夠解釋它。當我們從經濟學理論的視角來考察這個行為時，這種不可預測性看起來就非常合理，並且也易於理解了。受試者的行為、隨機性等等都與根據博弈論的理論框架描述的受試者所面臨的問題的計算目標非常吻合。當我們將這種行為看作是透過進化過程得出的，對那些要求或然解的問題的解答，就沒有什麼神秘的了。這一類行為明顯地類似於我們已經檢驗過的更具有確定性的行為，而不像是出現在二元論系統中的唯一元素。現在的問題是，我們應該怎樣利用這一方法，開始對那些我們稱之為意願的行為的神經生物學基礎進行研究呢？ 12.3 只有一個局中人的情況對於邁克爾•杜瑞斯和我來說，下一步對意志行為的生理學研究就是要減少博弈者的數量——從兩個減少到一個，同時保持原先工作和曠工博弈的所有重要特徵。這將使我們的注意力能夠集中在剩下的、唯一的博弈者的行為上，並最終使我們可以把全部的智慧投人到考察工作一礦工博弈進行時的生理過程上去。為了實現這一點，我們開發了計算機程式使其可以代替真正的僱主，並可以根據博弈理論不可預測地進行工作一曠工博弈。為了開發出這個程式，我們求助於我們的一個同事—-在羅徹斯特：310 大學工作的計算機專家達納•巴拉德（Dana Ballard）。巴拉德和他的研究生祝盛火（音譯）近來對開發可以同人在策略博弈中實際進行對抗的程式顯示出了很高的興趣。利用源於動物和機器學習理論的經典方程，他們開發出了一種電腦對手，它們雖然比較緩慢但確實可以準確無誤地學會透過對它們對手行為的評估，選擇不可約簡的不確定性策略，從而儘可能多地贏錢。像人一樣，這些電腦程式幾乎總是採納納什均衡策 • 251•

決策、不確定性和大腦——神經經濟學略。這不是因為該程式知曉均衡的所有資訊，而是因為均衡一旦被髮現，它就是最優策略。對巴拉德和祝盛火的演算法增加了一個重要的改進後，我們開始圍繞他們的演算法設計我們的電腦僱主。我們已經注意到他們的電腦對手從來不去檢驗它們所面對的人類或電腦的行為中是否存在可預測的模式。巴拉德的演算法只是假定它們的對手的行為具有不可預見性。然而，我們覺得我們不可能做出這樣的假定。我們早就指出，不可消除的不確定性是源於對手對模式的探索。因此，我們在他們的演算法裡增加了對手在行為中探尋模式的程式。當這一電腦程式開發完成，並且我們能夠證明它可以探索到對手行為中的模式，並且用這種模式建立自身的優勢時，我們又一次邀請實驗人員來我們的實驗室進行這個工作一曠工博弈。受試者再一次坐在電腦終端前，應邀參與這個追逐利益的遊戲。從每個受試者的角度來看，一切都同以前的遊戲一模一樣。我們甚至不用告訴他們：他們博弈的對手是一臺電腦。請注意我們費盡周折地進行這一切的原因就是，我們希望用一組標準化的計算機程式來代替其中的一個參與者，並且還不能改變參與者的行為特徵。我們的目的就是想要說明即使用電腦程式代替僱主，我們的 811 實驗者還是會以基本相同的方式行事。圖12—3顯示了一位典型的人類 100 率 50 比工曠 50 100 150 實驗次數 200 250 圖12—3 實驗者和計算機僱主之間追逐利益的博弈 300 • 252•

第12章博弈與大腦參與者在兩個先後出現的均衡條件下同電腦對手競爭時的行為。注意我們的人類僱員在面對電腦對手時，其行為方式同前面面對真人時完全一樣。結合我們早期的研究，這一切表明我們已經找到了一種不可消除的不確定性行為，可以很方便地從生理學層面對其進行檢驗。 12.4 猴子的博弈接下來我們要做的似乎有點超出慣例，但這絕對是有必要的。我們訓練恆河猴玩相同的遊戲，即在我們的電腦僱主手下工作或者曠工。最首要的問題就是我們的猴子進行決策的模式是否同人類受試者的模式正好相似。如果事實確實如此，我們會考慮當猴子選擇工作或者曠工的時候，它們腦子裡所想的東西能否告訴我們一些關於人類做出意志決策時的資訊。當然我們不會給猴子支付工錢。所以對於這種形式的實驗，我們會在每一次博弈後給這些猴子兒毫升漿果汁。從猴子的角度看，這項實驗看起來同我們能夠做到的標準神經生理812 學實驗沒有什麼兩樣。猴子面對著電腦顯示器坐下，當中心位置的刺激物在不可預知的時間被照亮的時候，猴子必須盯著這個亮點。這時電腦僱主就會秘密地給猴子在兩個可能的實驗中選擇其一：有監視實驗和無監視實驗。在這兩個實驗中，有兩個形象古怪的靶子會被照亮，一個位於中心刺激物的左邊，另一個則位於中心刺激物的右邊。一段時間之後中間的靶子就會熄滅，這隻猴子必須決定是向左看還是向右看。向左看意味著工作，向右看意味著曠工。根據我們的計算機對手選擇哪一種實驗以及猴子選擇何種行為，我們的實驗系統會推算出支付矩陣，並向猴子僱員支付果汁，向計算機僱主支付虛擬的美元。然後，間隔一段時間之後，再開始下一次博弈。我們的目標是使這一實驗儘可能地接近人類實驗。比如在實驗中，如果猴子工人開始經常曠工，計算機僱主就會開始更加頻繁地檢查。如果猴子工人減少曠工的可能性，計算機僱主也會相應地減少檢查的頻率。圖12—4清楚地表示出了在每天1～2個小時的時間段裡，博弈遊戲中猴子的典型行為。在圖12—4表示的這一天中，我們先後檢查了兩個支付矩陣。在我特意選擇的這個實驗中，支付矩陣的納什均衡同前面描述過的人與計算機博弈時的納什均衡是完全相同的。 • 253

313 決策、不確定性和大腦— 一神經經濟學 100 率工曠 00 20 40 60 80 100 120 140 160 實驗次數圖12—4 猴子僱員和電腦僱主進行果汁博弈時的行為 180 首先，我們透過設定獎勵果汁的數量，使得對我們的猴子來說選擇 50%的曠工率是最優的。在進行了大約80局後，我們改變了對猴子和計算機對手的支付矩陣，使90%的曠工率是最優的。我們可以注意到猴子能夠精確地尋找到均衡點一 —至少同人類參與者一樣精確，並且在它的行為裡仍然保持著不可消除的不確定性。就像人類參與者一樣，在每一次實驗中猴子似乎都要決定是否去工作。在每一次實驗中，就像人類一樣，猴子的行為也是不可預測的。但是平均起來猴子的行為更小心一些，這使得它們在面對具有智慧的對手時，能夠達到最大化果汁數量的可計算目標。這些資料與我們人類資料之間高度的相似性表明，我們實際上已經成功地完成了第一個目標：我們已經將複雜的、不可預測的決定引入了實驗室，基於博弈論的計算方法也顯示出了描述這種行為的能力。複雜行為的生理學在第10章已經描述過的我和邁克爾所做的生理學實驗中，我們曾經尋找證據以證明經典經濟學理論所描述的決策變數在腦頂 LIP 區域被編碼。傳統的感覺一運動理論已經預言，腦頂皮層內的神經元的行為從本質上來說不屬於感覺就屬於運動。我們發現若保持感覺輸入訊號和運動輸出訊號不變，僅僅改變所得結果的機率或者數值時，LIP區域神 • 254•

第12章博弈與大腦經元的啟用率就會受到這些決策變數的強烈影響。從這一觀察結果出發，我們可以推斷LIP 區域的神經元很可能反映了與它們的譯碼運動相對應的預期效用。在第11 章中，我提到這一發現沒有而且也不可能用於處理更深一814 層的問題：神經經濟學方法能否被用來分析所有可能的感覺運動問題，無論這些問題從計算的角度看是簡單的還是複雜的。在那一章中，我認為經典經濟學不能夠解釋所有型別的行為，因為它不能說明覆雜的或不可預測的行為模式。然而，隨著博弈論成為整個經濟學的一部分，博弈論不但可以解釋可預測行為，而且還可以解釋複雜的或者不可約簡的不確定性行為。馮•諾依曼和摩根斯坦的理論研究表明所有型別的行為，簡單的抑或複雜的，都可以看成是沿著單一的數學閉聯集—其範圍涵蓋了從確定性行為到機率性行的全體——分佈的點集。這一理論主張引出了邁克爾•杜瑞斯和我所考慮的一個關鍵問題：LIP 區域的神經元是否也會將這種行看作一種單一集合，一種受相同規則和計算方法控制的集合呢？也就是說，L.IP 區域的神經元是否按照笛卡兒最初提出的那種方式區分簡單行為和複雜行為呢？為了回答這一問題，當我們訓練有素的猴子進行工作一曠工博弈時，我們記錄了L.IP 區域中的單一神經元的行為。每天在實驗開始時，杜瑞斯和我會將一個腦頂LIP 區域中的神經元隔離開來，接下來我們讓猴子玩工作一曠工博弈。每次實驗時，對於我們正在研究的神經元來說，曠工的目標會出現在最佳位置，而工作目標會出現在無效位置。猴子的工作是在實驗中透過注視兩個目標之一，說明它是決定工作還是曠工。為了理解這些實驗的結果，有兩個概念是至關重要的。第一個要回憶一下邁克爾•普拉特最初所做的經濟學實驗，每個神經元都可以把和其他可能的運動相關的自身運動的預期效用譯成程式碼，對價值 0.4ml 果汁的行為的表示會是價值0.2ml 果汁的行為的2倍。第二個需要牢記的概念就是納什均衡的數學定義。當決策者在可用的選擇中感覺無差異時納什均衡就產生了。更正式的描述是，納什均衡僅在所有可能行為的相對預期效用完全等價時發生。 315 整體考慮起來，這兩個概念會引出一個相當驚人的假說。在普拉特和格菜姆齊（1999）的實驗中，我們已經說明，在至少5組實驗中，隨 • 255•

決策、不確定性和大腦——神經經濟學著我們改變各種行為可以得到的果汁數量，LIP 區域神經元的啟用率都會有明顯的變化。曾經有一天，在進行這項新實驗時，邁克爾•杜瑞斯和我也研究了5組具有不同獎勵的實驗，但是在這項實驗中，動物總會達到或接近納什均衡。在這種情況下，儘管動物們所做出的行為和所贏得的果汁數量在組與組之間都有所不同，但是這兩種選擇的相對效用卻是完全等價的。這正是納什均衡所定義的東西。所以說如果猴子們在維持納什均衡，它們是透過保持它們所作選擇的相對效用等價來做到這一點的。如果猴子們在計算並維持納什均衡行為，那麼在我們所研究的各種不同的條件下，如果 LIP 區域神經元的啟用率能夠將相對預期效用譯成程式碼，LIP 區域神經元的啟用率就不應該會有變化。令人驚訝的是，這正是我們所觀察到的。在圖12—5中，左邊的圖形表示在某一天的實驗中，我們觀察到的某隻猴子的行為一它選擇曠工的頻率的連續平均值。可以看出，當我們讓猴子們面對5組不同的納什均衡條件時，這種變化非常明顯，而且非常具有系統性。右邊圖形中描述的是最重要的資料神經元的啟用率。正如理論所預言的那樣，這些神經元的啟用率在一天中相當穩定，而動物的行為在不同的實驗組之間卻存在明顯的變化。這我們提供了非常有說服力的證據，即LIP 神經元將相對預期效用進行了編碼。這對於在普拉特的實驗中產生更具確定性的行為，以及產生具有不可約簡的不確定性的行為來說，都是必 816 不可少的、唯一的決策變數。 100p 80 100p 80200 0 200 400 實驗次數 600 800 0 0 200 400 600 實驗次數 800 圖 12-5 注：（左圖）五個不同的納什均衡條件下猴子僱員和計算機僱主進行果汁博弈的行為。（右圖）對LIP 區域神經元活動的測量。正如對相對預期效用的系統編碼的預測一樣，神經元的活動並不隨納什均衡的水平值而變化。再三考慮之後，我們意識到這一分析可以向前再推進一步。從我們 • 256•

第12章博弈與大腦完成的分析來看，LIP 區域神經元的啟用率反映了在納什均衡行為中類似於相對預期效用的東西。如果我們在一個更加精細的水平上檢查神經元的反應，我們會得到怎樣的結果呢？回憶一下，透過對猴子僱員在每一局博奔中的行為的詳細分析，我們的計算機僱主實際上達到了納什均衡反應。每次實驗中，透過對猴子行為的觀察，這位僱主都會程式化地去尋找一個最佳策略。一般情況下都會達到納什均衡。但是對猴子每次博弈中的行為進行更為仔細的分析，就會進一步發現存在一種圍繞著均衡機率的細微而系統的波動。實際上，正是我們的計算機僱主對這些波動的敏感性才迫使我們的猴子在平均水平上保持納什均衡比率。與此相類似的是，正是猴子和這些計算機僱主的相同的對波動的敏感性，迫使它維持納什均衡比率。這就是不管哪一種納什均衡都可以在實驗中實現的原因。如果猴子所做的計算與我們的計算機僱主類似，那麼我們就可以以這些博弈為基礎，檢驗 LIP 區域神經元的活動，並將其看作是相對期望效用微小波動的證據。要找到這些波動，我們首先需要開發一個能夠模擬工人行為的計算機程式，或者說另一個版本的計算機僱主——只不過它現在扮演工人的角色。隨後我們會按照前一天實驗中猴子僱員獲益和受損的方式做出相同的安排。每當猴子進行完一次博弈後，我們就讓計算機僱主對下次博弈中的兩種行為工作或曠工—的相對期望效用進行評估。然後我們再把計算機的分析同我們已經研究過的LIP 區域神經元的啟用率進行比較。這樣，我們發現計算機評估的相對期望效用同神經元的啟用率之間呈現出正相關關係。神經元的啟用率似乎反映了在逐局博弈的基礎上所進行的運算，這一運算與我們的計算機進行的運算很相近。不管是宏觀還是微觀範圍內，博弈論似乎都可以解釋我們的猴子以及 LIP 區域神經元的行為。這樣，博弈論既可以解釋平均起來猴子遵循納什均衡的行為，也可以解釋神經元的平均啟用率。在更加微小的範圍內，我們也可以開始用博弈論來描述 LIP 區域中的神經元所做出的序列運算。更為重要的是，無論猴子執行的是普拉特曾經採用的確定性任務還是杜瑞斯採用的存在不可約簡的不確定性的任務，這些計算看起來都是相同的。 L.IP 區域中的神經元看起來確實把所有行為看成是由一組單一的、目標導向的規則和運算控制的閉聯集。 • 257• 317

318 決策、不確定性和大腦—神經經濟學 12.5 總結那些自稱一元論而非二元論者的哲學家們已經提出所有人類和動物的行為必須被看成是具有完全的確定性。他們普遍認為現實世界中的宏觀物理體系必然先驗地具有確定性，由此大腦也必然具有確定性。在本書的第一部分中，我曾經指出，謝林頓的觀點就是反射理論是利用簡單的神經生理學要素構建行為的確定性邏輯演算法。我的觀點則是，這一假想雖然才華橫溢，但不幸的是它卻是錯誤的。如果現實世界中的動物要倖存下來的話，它們沒有——實際上，我認為它們也不能——以確定性方式解決所有問題。相反，生物體肯定至少有兩類不確定性：一類是基於動物所面臨的認識論上的侷限性，另一類是需要同其他生物進行有效競爭的不可約簡的不確定性。從認識論角度看，我認為動物通常對於周圍的世界只具有不完全的資訊，因此它們必須對周圍世界的可能狀態以及它們行為的可能結果做出統計性的估計。認識到這種不確定性是一個突破，經濟學也因此而誕生。邁克爾•普拉特和我推測，經濟學理論也許是研究大腦在實際中如何解決各種決策問題的優秀的可計算模型。我們對於腦頂皮層中確定性決策的研究支援了這個假說。對於不可約簡的不確定性，我認為無論什麼時候，動物做出的決策一定會受到擁有智慧的競爭者的影響，博弈論一定可以用來描述這個生物體所面臨的可計算問題。實際上我還認為，任何一個在達到均衡時需要混合戰略的博弈，比如工作一曠工博弈，如果行為能真正地滿足動物的要求，那麼這一行為就必須具有不確定性。在邁克爾•普拉特和我的研究中，當猴子在進行工作一曠工博弈時，我們假設博弈論可以作為不確定條件下進行決策的可計算模型。我們關於腦頂皮層的研究支援了這一個假說。與普拉特的觀察結合起來，這些資料表明一個整體性的經濟學方法可以作為一個完備的可計算模型，描述感覺運動過程中所包括的所有成分。自從20世紀70年代以來，生態生物學家開始利用這種經濟學方法，研究野生或者實驗室中的動物的行為。他們發現，這些模型能夠很好地描述出這些動物所面臨的可計算問題和它們採用的行為策略。我在這裡給出的結論只是對實際觀察的結果進行了很小的擴充套件，但這些結論 • 258

第11章不可約筒的不確定性與博弈論