AI 新聞與投資
決策、不確定性和大腦:神經經濟學

第12章 博弈與大腦

14 / 16

已經表明動物的行為確實是大腦運算的產物。 註釋 [1]更確切地說,從長期來看,這一工資水平正是使你對於是否繼續在我這裡工作感覺沒有差異的工資水平。 [2] 對於這個行為的隨機性的一個更為正式的數學檢驗就是ljungBox Q統計量,它也證實了我們的研究物件行為中的隨機性。 • 259•

319 第13章綜合(I)行為與生理學 13. 1 神經經濟學砑究計劃神經科學研究的最終目的就是理解大腦是如何產生行為的。在前面的章節中,理論分析與經驗研究的結果都強烈地提示我們,要想達到這一目的,必須透過兩個階段。第一,我們必須擁有必要的工具,以便能夠真正地確定一個行為到底實現了什麼;另外,我們必須能夠確定行為與完全定義的目標相接近的程度。第二,我們必須學會對這些行為的效率進行定量的描述,並以此為主要的數學工具將行為和神經生理學聯絡起來。 • 260•

第13章綜合(I)行為與生理學在本書的第二部分,我們曾經指出,對於真實世界中動物的行為來說,對其目標的定義必須從根本上建立在機率理論的基礎上。我們的結論來自於數學家和經濟學家的發現:如果諸如機率和價值等概念能夠精確地形式化,那麼任何行為的目的都可以用數學形式表示出來。在20 世紀60年代,生物學家們開始在生態學的範圍內對這一假設進行檢驗, 試圖說明任何生物系統的目的都可以表徵為最最佳化進化適應度的一種努力。他們首先針對動物的覓食現象,進而針對更為抽象的擇偶現象提出了這一論點。透過40餘年的研究,生態生物學家蒐集到了明顯的證據支援這樣的觀點:以內在適應度為目標函式,基於經濟學的模型可以給出動物們面臨的這些問題的最優解。 同一時期,經典經濟學拋開生態生物學家們普遍採用的經驗方法,320 致力於得出一個關於人類選擇最優決策的理論。實際上,20世紀60年代早期,經典經濟學幾乎就做到了這一點。理性選擇理論定義了任何一位行為者為了最有效地實現特定的目標所必須進行的運算。然而,實際觀察的結果表明理性選擇理論對人類真實行為的描述是失敗的,經濟學作為一門科學,在獲得了一些數學上的成功之後,陷入了一個徘徊不前的時期。 又經過了幾十年的研究,經典經濟學的失敗和人類對生態生物學的進一步認識,為經濟學界帶來了新的革命。有一些經濟學家開始對人們最大化貨幣效用的觀念提出了質疑,轉而考慮源於生物科學的生態目標。還有一些經濟學家則試圖利用行為生態學家們首創的行為實驗對經濟學研究的領域進行擴充套件。 直到20世紀70年代,行為生態學家和實驗經濟學家已經開始在研究中採用上述的新目標,但是神經生物學家卻很少試圖對有關的神經功能進行概念化。瑪爾和他的同事雖然使眾多的神經生物學家確信對與目標有關的神經系統進行研究是非常重要的,但是他的研究方法對於確定具有生物學意義的計算目標卻無法提供更多的幫助。並且,即便是具有生物學意義的計算目標得以確定,對於行為生態學家和實驗經濟學家致力於研究的系統,在神經科學家中間仍然有一種避免將機率論作為研究工具的趨勢。 不過最近在神經生物學界,利用基於目標的方法對行為和神經生理學的現象進行描述已經呈現出流行的趨勢。人們甚至認為,對於這種基於目標的研究策略來說,統計方法和機率論方法至關重要。例如威廉• 紐瑟姆和他的同事們,在20世紀90年代早期曾經利用統計和機率論的821 • 261•

決策、不確定性和大腦— 一神經經濟學方法來描述猴子對於刺激訊號運動方向斷定的效率。然後,他們又根據測得的效率來識別哪些神經的活動從原則上可以精確地導致他們觀察到的那些行為模式。 在本書的第二部分,我們曾經提出,現在神經科學的目標應該是進一步推廣這種研究方法。我們應該開始採用基於機率論的方法來理解大腦如何從外部世界獲取資訊,以及如何將這些資訊和大腦內部儲存的外部世界結構的表象結合起來從而達到確定的可計算目標。本書的主題就是透過將經濟學、生物學和神經科學綜合起來,以便最好實現這一目標。 對於神經科學家來說,最大的挑戰就是將行為和大腦聯絡起來。非常明顯,為了實現這一目標,我們必須有關於行為的正確理論。經濟學正是試圖描述在一個充滿不確定性的世界中,任何目標應該以怎樣的方式實現的數學方法。行為生態學家認識到了這一點,他們研究的領域集中在動物的行為如何接近與最大化內在適應度有關的經濟目標上。實驗經濟學家認識到了這一點,他們研究的領域集中在人類行為如何接近與最大化效用有關的經濟目標上。神經生物學家也開始認識到了這一點, 而且在現在看來,一個很自然的假設就是:對於其他兩門學科所確定的這種最大化問題,某種形式的神經經濟學,在解釋人類和其他動物的大腦在實際中如何求出最優解時將起到關鍵的作用。 13.2 應用神經經濟學我們在前幾章中介紹的那些實驗,看起來好像與這樣的觀點並不一致:以博弈論和其他經典經濟理論為基礎的經濟模型,是聯絡大腦活動與行為的有效工具。例如在我自己的實驗室中,許多實驗都圍繞著證明猴子的選擇行為以及腦頂神經的行為都可以用經濟學工具進行很好的描 322 述。然而,神經經濟學方法的目的並不是簡單地理解少數腦頂神經的活動。所有神經經濟學方法的最終目的必須是提供一個包括解釋大腦如何產生和組織哪些行為的計算理論。 建立一個完備的神經經濟學理論是一項浩大的,並且主要是經驗上的工程。本書的主要目的是描述應該如何構建這樣的一個理論,而不是說明這樣的理論最終會是怎樣一個樣子。開始這樣的一個工程,首先要能夠用基於經濟學的理論來描述各種行為。其次,就要用生理學工具去 • 262•

第13章綜合(1)行為與生理學尋找能夠部分完成或全部完成被研究行為所要求的計算的神經模組。最後,還應該提出關於所有計算如何執行的在細胞水平上的解釋。不幸的是,我們事先並不知道大腦如何執行或模組化這些計算,因而神經經濟學方法就必然會表現出某種程度的重複和迭代。在提出理論之後,接下來就是進行行為的和生理一細胞的實驗,這些實驗可能會對先前提出的理論做出修正,進而又要進行新的實驗。另外,由於神經經濟學的研究方法仍處於早期階段,最初提出的關於行為以及生理一細胞的理論不可避免地有些粗糙,當然它們也完全有可能是錯誤的。 13.3 神經經濟學例項如果經驗性的神經經濟學研究方案最終能夠得出一些有用的結果,那麼儘管這些早期的模型完全有可能是錯誤的,但它們仍然是我們必須經歷的第一個階段。認識到這一點,與我們類似的許多實驗室正在試圖透過實驗建立並檢驗能夠描述諸如做出決定、集中注意力、 學習、獎勵甚至感情等過程的神經經濟學。不過我要強調的是,這些模型和實驗僅僅是一些例子,只是表明神經經濟學正在發揮著它的作用。但是這些例子仍然是很重要的,因為它們說明了神經經濟學方法是如何發揮作用的。在閱讀下面給出的四個利用神經經濟學方法分析傳統的神經科學問題的例項的同時,應該牢記這些:(1)為什麼我們可以期望將視覺感受和做出決定的過程分離開來?(2)不斷變化的先驗概率如何被神經系統利用,從而選擇出最優的行為反應?(3)透過什麼方式,我們可以測度和研究視覺一運動學習新知識的過程。(4)怎樣才能定量測度獎勵價值的計算和更新過程?我們給出這些例子的目的只是想使讀者對於神經經濟學在實際中如何被採用有一個較好的瞭解。 例項1:視覺注意力美國的心理學家威廉 • 詹姆斯(William James)提出了也許是最有名的關於注意力的定義。他寫道: 每個人都知道注意力是什麼。用一種生動、鮮明的形式來表述,它是心智對看起來可能同時出現的一些物件或一系列思想中某一個的佔領。匯聚、集中和有意識是它的要素。它意味著對某些事物的放棄,以便能夠更有效地處理某一件事情⋯⋯(James,1890) • 263 323

決策、不確定性和大腦——神經經濟學威廉•詹姆斯寫下這些話之後,人們還提出了其他關於注意力的定義,但是它們都有一個共同的特點:注意是這樣的一個過程,正常情況下處理感覺的速度和精度得到加強,而這種加強一般都伴隨著聚焦於感知到的世界。從這一點出發,喬治 •斯柏林和芭芭拉 •都舍(George Sperling and Barbara Dosher,1986)提出,我們將注意力集中在某件事物上的能力,就像是將有限的資源投放在世界的某一特定位置或某一特定的事物上,目的就是提高對該點感知的速度和精度。把注意力看作是一種必須有效配置的資源,斯柏林和都舍認為理論上可以利用一種簡化的效用理論來定義注意力的最優配置。斯柏林和都舍甚至認,至少在原則上,有效地收集感覺資料和確定做出怎樣的反應行為都是可以模 324 塊化的問題。為了使這種模組化邏輯更為清晰,我們來看一個具體的例子(見圖13-1)。 高位或低位礻圖13—1 透過實驗分離注意力和決定想象維維安 •希爾拉米特羅(Vivian Ciaramitaro)和我曾經研究過的一個實驗情景 (Ciaramitaro, Cameron and Glimcher,2001)。一只猴子經過訓練,可以在直視前方的同時注意它所看的位置上方10度 • 264•

第13章綜合(1)行為與生理學的目標。在一個可預測的時刻,一個光斑或明或暗地閃現在這一位置。 這隻猴子的任務是在光斑以暗淡的狀態出現時將視線轉向上方,而在光斑以明亮的狀態出現時將視線轉向下方。在猴子的視線變化以後,如果它做對了,就會得到一杯果汁作為獎賞。這一任務對於猴子來說是很困難的,因為光線的明暗程度很接近——即使猴子將所有的注意力都集中在這一點上,它能夠辨別出亮光斑的準確度也僅有80%。請注意在這個實驗中,我們可以獨立地控制帕斯卡認識到的兩種變數。我們可以控制亮光斑和暗光斑出現的可能性,同時我們還可以控制任一結果(亮或暗)相對於猴子來說的價值。 假設在大量的實驗中,我們可以系統性地控制各種光斑出現的可能性,使得任意一次給定實驗的結果可能都是暗光斑。我們完全有理由相信,根據經驗,猴子會確定這樣的可能性(也就是先驗機率):任一給定實驗的結果都是暗光斑。例如,假設猴子觀察到了連續的100次實驗,其中有99次出現的都是暗光斑,它必然會記住每次實驗幾乎都出現暗光斑這樣一個事實。也就是說,出現暗光斑的先驗機率是 0.99, 這樣,我們可以確信猴子能學會並記住類似於這種可能性的某種東西。 當然,猴子完全有可能利用記憶以外的其他方式來確定某次實驗的結果更可能是亮光斑或暗光斑。它可以根據眼睛接收到的感覺資訊來確定一次給定實驗的結果是亮或暗。經濟理論對這樣的過程可以提供一種數學描述。我們可以利用貝葉斯定理描述感覺資訊影響猴子對每次實驗結果為暗光斑的機率進行估計的方式。 為了更清楚地說明這一點,考慮一組實驗,在這組實驗中,出現亮光斑和暗光斑的先驗機率都是50%,而猴子正確辨認出暗光斑的機率是60%。在這些條件下,如果猴子做出暗光斑的判斷,那麼這一判斷正確的可能性就比較大。現在考慮另一組實驗,在這組實驗中,出現亮光斑的先驗機率是99%,顯然,出現暗光斑的可能性很小。在新的條件下,即便猴子感覺出現的光斑是暗的,它也有很大的可能性是一個亮光斑。因此,如果猴子想要有效地完成自己的任務,它的猜測就必然反映出比觀察結果更多的內容。它必然是將先驗知識和現時觀察結合起來計算後驗機率。 正如我們在預期效用理論中熟知的那樣,猴子在決定向上看和向下看時,依據的絕不單純是對於可能出現的狀態的貝葉斯估計。猴子必須知道由果汁的毫升數表示的各種反應的價值。如果在出現亮光斑時向下看會給它帶來20毫升的果汁,而在出現暗光斑時向上看可以給它帶來 • 265 325

327 決策、不確定性和大腦——神經經濟學 0.02毫升的果汁,那麼我們可以預測,猴子將總是向下看而不管出現的是何種視覺刺激。與此相對比,如果對於亮光斑向下看和對於暗光斑向上看的獎勵完全相同,那麼後驗機率將是控制猴子向上看和向下看的決定性因素。 總而言之,猴子將會透過計算預期效用來求解這樣的問題。在這兩種條件下的相對效用必須確定下來。這些效用必須和相應的後驗機率估計相乘以得出向上看和向下看這兩個過程的預期效用。一個理性的猴子將會向能夠給它帶來最高效用的方向看。 經濟學方法為這一實驗中猴子面臨的抉擇問題提供了一個客觀的描述。一個做出最優選擇的猴子透過進行貝葉斯預期效用計算來求解這一問題的答案。但是集中注意力於光斑的過程又是怎樣的呢?如何按照神經經濟學的方法來對此進行分析呢? 為了回答這一問題,我們必須將這個問題變得稍稍複雜一些。在新的實驗中,猴子必須觀察的光斑在每次實驗時都將出現在兩個可能的位置:一個是猴子視線上方10度的位置,另一個則是猴子視線下方10度的位置。稍稍考慮一下,光斑出現在上方的次數佔90%,出現在下方的次數佔10%。如果我們的猴子可以同時關注兩個不同的位置,並且不論光斑出現在什麼位置,猴子判斷的準確性都一樣,那麼此時猴子的任務同我們上面提到的情況就是完全一樣的,只不過猴子需要進行的運算是前者的兩倍。但是,如果猴子處理視覺資訊的資源是有限的,情況又會是怎樣的呢?如果將猴子的注意力分散在兩個不同的位置會降低猴子判斷的準確性,情況又會是怎樣的呢?如果我們認為猴子分辨亮暗光斑的能力是一種有限的資源,那麼這種新的任務就需要猴子做出第二個計算。猴子必須決定將注意力集中在哪個位置(或者更確切地說,猴子必須決定如何配置它處理視覺訊號的資源),從而最大化它可能獲得的果汁數量。 考慮這樣一種情況,猴子分辨亮暗的能力是一種有限的資源,並且還具有以下的特點:如果猴子將全部注意力資源用於研究上面的位置, 那麼它對出現在上方的光斑進行亮暗判斷的準確率將是80%,而對於出現在下方的光斑進行亮暗判斷的準確率則為60%。如果相反,猴子將其注意力資源分散到兩個位置,那麼在任一位置猴子判斷正確的比率都是70%。直觀地說,我們可以認為這樣就可以描述能夠調節視覺處理精度的關注系統了。那麼,關於這種關注過程的神經經濟學模型又是怎樣的呢?斯柏林和都舍利用他們基於效用的分析對這一問題給出了一 • 266

第13章綜合(I)行為與生理學種答案。在上述條件下,一個做出最優選擇的猴子將會透過分配它的注意力資源,並且調節視覺系統的準確性,從而最大化它所能獲得的果汁數量。這也許就是這種情況下注意力的目標。 考慮這樣一種情況,光斑出現在上方的機會是90%,而不論出現在什麼位置,亮光斑和暗光斑出現的機率都是50%,只要做出正確的判斷,猴子就會得到1毫升果汁的獎賞,如果判斷錯誤的話,則什麼也不會得到。從做出決定的角度來看,這一任務是相當簡單的。出現的光斑是亮光斑的先驗機率是50%。對亮暗光斑的嘗試將得到同樣的效用。 唯一不對稱的是光斑可能出現的位置。此時猴子會怎樣做呢?直覺上, 猴子明顯會將幾乎所有的注意力用於對上方的研究。這將使猴子對於這種情況下真正重要的位置,也就是上方的後驗機率的估計儘可能準確。 當然,這樣做無疑將會降低猴子對下方出現的光斑判斷的準確性,但這應該是猴子願意支付的成本。按這樣的觀點,從經濟學角度講,注意力在空間的分配應該是最大化重要位置的後驗機率估計。這就是我們已經用文字表述過的內容,在藉助於貝葉斯法則的情況下,一種更為正式的表述。 現在考慮另一種情況,光斑出現在上方的機會仍然是90%,不論光斑出現在什麼位置,亮暗光斑仍然是各佔 50%的機率,但是對於出現在下方的光斑如果判斷正確的話,猴子將會得到1毫升果汁的獎賞, 其他的反應則什麼也得不到。在這種情況下,雖然僅僅是獎勵的方式發生了變化,猴子也會將其全部的注意力投放到視線下方。 這些例子表明,從經濟學的角度來說,注意力扮演的角色並不是廣義地減少失誤,而是專門用於減少對最大化收益有用的後驗機率進行估計時的失誤。用經濟學的術語來講,注意力可以被描述為用於達到特定目標的一個過程。有效地專注於某一事物意味著將處理感覺的資源用於提高重要後驗機率的準確性上。與此相對照,有效地決定採取怎樣的行動則是一個不同的過程。這一過程必然是透過將注意力和感知生成的後驗機率和效用結合起來,從而最大化區域性收益。經濟學分析將表明,至少在原則上,這兩種過程可以怎樣清晰地被模組化。 當維維安•希爾拉米特羅和我進行了一個與此非常相似的實驗之後,我們發現,無論是人還是猴子受試者,進行亮暗辨識的效率系統性地隨著光斑出現在某一特定位置的機率而改變。不管在什麼情況下,猴子的判斷也不可能完全有效,但是它們在某一特定位置辨識亮暗的效率毋庸置疑地表現為光斑出現在該位置的機率的函式。重要的是,我們的 • 267

決策、不確定性和大腦——神經經濟學資料表明,在猴子準確地分配它們的注意力從而使它們的後驗機率估計最有效的同時,對於做出決定這一一過程本身卻沒有任何影響。印這一觀察結果看來是根據經濟學方法得出的,得到專注與決定可分這一假設的有力支援。猴子們可以獨立地管理它們的注意和決定過程。 例項2:評價視覺運動在本書的第5章我們描述了威廉•紐瑟姆關於猴子對視野中移動光斑的感知判斷所做的實驗。在那些實驗中,受過訓練的猴子可以注視顯 829 示出來的光斑的雜亂無章的運動,並且報告在平均水平上這些光斑是向左還是向右運動。紐瑟姆發現,當光斑中的大多數確實是向左或向右運動時,猴子可以很容易地識別運動的平均方向。但是,當向著同一方向一致運動的光斑的比例減少時,這一任務對於受試的猴子來說變得越來越難。當向著同一方向一致運動的光斑的比例減少到1%或2%時,這些猴子的表現就像是它們被迫做出猜測一樣。 1998年,喬希 • 戈德和邁克爾 •謝德林(Josh Gold and Michael Shadlen,他們當時都在華盛頓大學)開始對這種猴子幾乎被迫瞎猜, 但又不完全是瞎猜的非常困難的情況感興趣。他們發現,在這樣的情況下,猴子會專心地盯著顯示的光斑達兩秒鐘之久才做出判斷。這使得他們猜想在這兩秒鐘的時間內,猴子是在蒐集越來越多的證據,以便做出向左或向右的判斷。 戈德和謝德林(Gold and Shadlen,2000)認識到,在正規的數理經濟學意義上,這一過程可以被模型化為,猴子在利用感覺資料對光斑運動的方向進行一種類似於連續貝葉斯分析的或然性判斷。為了檢驗動物確實是在進行極大似然分析的假設,戈德和謝德林設計了一個非常聰明的實驗方案。在一次典型的實驗中,猴子只是簡單地注視著顯示出來的光斑,然後在實驗結束後透過眼球的運動表示光斑運動的方向。不過,偶爾地,戈德和謝德林會在光斑顯示結束之前直接刺激猴子眼球的運動。他們知道在缺乏光斑顯示的情況下,這種刺激會導致猴子的眼球向上運動。他們進一步推測到,如果猴子正在決定是向左還是向右看, 那麼這一刺激導致的眼球的運動將會發生偏離,至於向左和向右偏離的數量,則與猴子對光斑運動方向的判斷成比例。實際上,這正是他們發現的結果。當光斑剛剛顯示出來就馬上對猴子施加刺激時,他們發現不論是向左還是向右的偏離都沒有發生。隨著他們等待啟動刺激的時間越長,觀察到的猴子眼球運動的偏離越多。如果連續播放的光斑運動逐漸 • 268•

第13章綜合(I)行為與生理學增強了猴子關於運動方向的確定性,那麼這就正是我們可以預計得到的結果。 這一結果揭示出,在神經經濟學的層面上來講,當每一幅畫面出現時,猴子肯定是在進行一種類似於貝葉斯極大似然估計的運算。這一思想可以更明白地表示為,在每一幅畫面播放結束後,猴子將正式地計算光斑向右運動的後驗機率,從而強化或弱化它下一次向右或向左看的計劃。戈德和謝德林(2001)甚至成功地針對這一過程建立了一個數學模型,以壓倒性的證據表明向左看還是向右看確實可以用經濟學的形式描述為極大似然運算。 這些實驗是由這樣的一個假設出發的:在面對明顯的不確定性認識的情況下,決定向左還是向右看的過程可以用貝葉斯和拉普拉斯在18 世紀建立的工具準確地描述出來。他們的行為和數學分析表明,這種基於經濟學的模型實際上可以解釋觀察到的行為現象。 例項3:學習先驗機率截止到目前,整本書中我們一直將外部世界視為一種相對靜止的環境,一直認為控制決策和注意力的先驗機率是固定不變的。但是,在現實世界中,這些機率是不斷變化的。我們記憶狀態的不斷變化以及對各種活動過程價值的估計,都充分地反應了我們所處環境的動態特性。 所有基於經濟學的理論都有這樣的一個前提假設:動物們可以學習描述它們周圍環境的先驗機率,並且可以將這些先驗機率儲存起來以備將來之需。我們是否可以利用神經經濟學的方法來測度動物們儲存的這些先驗機率的瞬時值?是否可以觀察到新的經歷對它們的更新?或者, 我們是否可以對這樣的假設進行檢驗:至少對某些種類的記憶來說,可以在動物的學習過程中,在可識別的大腦結構中得到更新? 為了實現這一目標,人們可以訓練猴子來執行這樣的任務。當猴子坐在影片顯示器前面時,一箇中心視覺目標將會出現,猴子則被要求將視線集中在這些目標上。這時我們可以在四個隨機選擇的偏離中心的位置增加視覺目標。猴子的任務是將視線轉向其中的一個目標,然後再注視原來的位置。當它做完這些時,外圍的那個它注視過的目標將會消失。接下來,猴子的任務是將視線轉向另一個外圍目標,然後再回到原來注視的位置。同樣地,猴子看過的那個外圍目標又會消失。猴子必須重複上述過程,直到所有的外圍目標都被它看過一次。 一旦猴子看過了所有的四個外圍目標,它將獲得一次獎勵。但是關 • 269• 331

332 決策、不確定性和大腦—神經經濟學鍵的是,獎品的多少與猴子看四個外圍目標的順序有關。不需要告訴猴子,我們可以在每天隨機地選擇一個正確的順序。如果猴子恰好按照正確的順序注視出現的四個光斑,它將會得到最高的獎賞,大約是1毫升的果汁。如果它注視這四個光斑的順序對了兩個,其他的兩個卻沒有按照正確的順序,實驗結束後,它將獲得0.5毫升的果汁。類似地,如果它只按照正確的順序注視了其中的一個光斑,或者一個也沒有對,它將會分別獲得0.25毫升或0毫升的果汁。 這樣,猴子每天的目標就是儘可能快地學會正確的順序,以便獲得最多的果汁。在每天剛開始,一套新的四個外圍目標出現時,猴子當然是無章可循,只能盲目地瞎豬。隨著猴子經驗的增加,它將更多地瞭解到怎樣的動作會獲得獎賞,它的選擇也就越來越接近正確的順序了。 為了理解這一實驗的基本原理,可以考慮在一天中最初的50次實驗中猴子的第一個動作。由於此時猴子並不知道哪一個動作是正確的, 我們可以預計猴子將會隨機地嘗試一個外圍的光斑,在不同的實驗中不斷地變換其選擇。如果我們為此畫一個圖,那麼顯示出來的結果將會是猴子在第一個動作中注視四個光斑中任何一個的機率都相同,也就是都是25%。用經濟學的術語來講,猴子的行為告訴我們它對這四個外圍光斑哪一個應該是第一個的先驗機率的估計是25%。 如果我們對最後的50次實驗進行同樣的分析,可以預料到猴子幾乎總是做同一個動作——正確的第一個動作,也就是說,猴子基本上不再把其他三個可能的動作作為第一個動作。一天的學習結束以後,猴子的行為告訴我們,它已經確信某一特定的光斑是正確的第一個光斑的先驗機率是100%。 如果我們考察猴子在中間階段的表現,我們將可能發現,猴子在對目標序列處理得越來越好的同時,也在改善著它對先驗機率的估計。在許多次的實驗中,猴子對先驗機率的估計會逐漸地由25%變化至 100%。透過觀察任意的50次實驗,我們總能確定猴子此時對某一個光斑是正確選擇的先驗機率的估計。 如果我們假定大腦某一部位的神經,比如端腦的基底神經節,對先驗機率進行編碼,那麼這將是一個很容易檢驗的假設。我們只需要簡單地考察這些基底神經節被啟用的比率是否與受試動物表現出的對先驗概率的估計的變化緊密相關即可。這樣的實驗可以幫助我們定量地定義臨時記憶,並且還可以檢驗大腦某些部位對這些臨時記憶進行編碼的假設。 • 270•

第13章綜合(1)行為與生理學例項4:對價值的學習類似的方法同樣也可被用於理解動物如何學習估計它們特定的反應所能產生的價值。弗菜堡大學的沃爾弗蘭 • 舒爾茨(Wolfram Schultz) 和他的同事們在研究猴子大腦神經細胞的多巴胺神經元以及大腦內側皮質區的過程中開始探索這一問題。在現在已經廣為人知的一系列實驗 338 中,舒爾茨考察了猴子按壓槓桿獲取果汁獎賞的過程中這些神經元的活動(Schultz,Dayan and Montague,1997; Schultz,1998)。在一次典型的實驗中,猴子可能以按壓槓桿開場,並且每壓一次將獲得1毫升果汁的獎勵。舒爾茨發現在這樣的條件下,當猴子接受了應得的獎品後, 他所研究的多巴胺神經元會以一個固定的基本比例激發潛在的活動。但是當他在猴子沒有預料到的情況下忽然把獎品加倍後,接受了獎品的猴子的這些神經元就會爆發性地激發潛在的活動。而當實驗連續進行很多次,獎勵的數量保持在一個比較高的水平時,神經元的活動性就會逐漸恢復到原來的水平。如果他突然將果汁的數量降低到最初的水平,神經元的活動性也會相應地減少。同樣地,在連續進行多次實驗,獎勵的果汁維持在一個較低水平的情況下,神經元激發活動的比率也會恢復到原來的水平。 舒爾茨提出了這樣一個假說:這些多巴胺神經元可以傳送一種誤差訊號。他認,這些神經元激發潛在活動的比率可以反映剛剛得到的獎勵是多於還是少於預期的數量。從經濟學的角度來看,這一點是很重要的,因為這樣的訊號可以重新整理對於某一反應價值的估計。 按照與上一節所描述的實驗中相似的方法訓練猴子,可以很容易地對上述神經元傳送有助於重新整理價值估計的訊號的假設進行檢驗。假設某項任務中有四個目標被點亮,每一個目標都對應著不同的獎勵,比如說分別是0.25毫升、0.5毫升、0.75毫升和1毫升的果汁。在執行這項任務時,猴子可以自由地選擇它關注的光斑的順序。在上一個實驗中, 猴子只是在實驗結束之後獲得總的獎品,但是在這一實驗中,猴子事先並不知道每一個目標分別會為它帶來多少獎品。因此我們現在需要額外再加上一個新的特點:不論是在第一個、第二個、第三個或第四個動作完成之後,實驗都可以突然結束。不管猴子做出的是什麼動作,實驗在第一個動作完成之後結束的可能性是25%,在第二個動作完成之後結束的可能性也是25%,依此類推。這種實驗結束時間的不可預測性會 334 產生兩種效應。第一,它可以使猴子確定四個動作的不同價值,因為在 • 271•

335 決策、不確定性和大腦——神經經濟學不同的情況下它可能只完成了第一、第二或第三個動作。第二,它相當於賦予了猴子一個優先權,使它可以按照價值來安排動作的順序,從而使它的動作價值達到最大。 確切地說,在這一任務中,猴子被允許完成第一個動作的先驗機率是100%,而猴子能夠做完所有四個動作的先驗機率則是25%。這樣, 在不知道這四個動作的相對價值的情況下,第四個動作的預期價值僅僅是第一個動作預期價值的25%。因此,一個理性的猴子將總是會首先做出具有最高價值的動作,而將價值最低的動作留到最後去做。 與前一節所描述的實驗相類似,我們可以用這一方法來考察猴子的行為和神經元激發活動的比率,然後確定它們是否與猴子重新整理獎品價值估計的速度有關。 13.4 理論的侷限性:它已經盡善盡美了嗎? 所有的這些實驗都提出了很重要的一點。在這些實驗以及其他類似的實驗中,動物行為的資料說明這些受試者的行為從來都不是真正最優的。不少人認為這一現象證明了經濟學關於最優行為的模型對於研究行為和大腦來說沒有太大的作用。我們在這裡給出一些關於這些反對觀點的意見。經濟學模型描述的是動物和人類在需要做出決策時所面臨的任務。它決定了應該怎樣去解決問題。真實世界中動物和人類的行為與正確的解答存在著偏差,它們的表現只具有次優性。我們在此想要指出的是,也許有點出人意料,但從神經經濟學的角度來看,這種與最優行為的偏離實際上是一件好事。 神經生理學的目標是理解生物體進行怎樣的運算,以及它們如何進行這些運算。每當生物體的行為偏離最優路徑時,它們的行為就會向我們提供一些生物體如何進行這些運算的重要線索。當我們發現神經迴路偏離最優經濟運算的形式與受試動物的行為偏離最優性的形式相同時, 這就證明我們識別出了隱藏在用數學形式描述的(儘管並不完美)行為後面的神經迴路。 為了儘可能清楚地說明這一點,我們在這裡給出最先由傑德•齊格倫茲(Gerd Gigerenzer) 提出,並出現在齊格倫茲、託德、ABC研究組2000年著作的第8章中的一個例子。假設一個細菌生活在食物完全隨機分佈的世界裡。食物出現在任何一個給定位置的先驗機率是固定的 • 272•