AI 新聞與投資
統計學方法與資料分析引論

第十二章 第十三章

18 / 34

多元迴歸與一般線性模型多元迴歸續論第十一章 11.1 引富和業例 11.2 估計模型中的引數 11.3 迴歸引數的推斷 11.4 利用迴歸預測新的y值 11.5 線性迴歸中擬合不足的考察 11.6 逆迴歸問題(校準) 11.7 相關 11.8 小結線性迴歸和相關 11.1 引言和案例預測一個變數未來的值是重要的管理活動。財務官員必須預測未來現金流量,生產經理必須預測原材料的需求,人事經理必須預測未來職員的需求。解釋過去的變化也是重要的。解釋顧客數量過去的變化能夠幫助經理T解對社會服務機構的服務的需求。找出可以解釋某個汽車零部件規格限變異的變數能夠幫助企業改進這個零部件的質量。迴歸分析的基本思想是利用一個定量的自變數的資料預測或解釋一個定量的因變數。 我們可以區分預測(關於未來的值)和解釋(關於現在或過去的值)。由於事後估計的原因,解釋比預測更容易。但經常會用詞“預測”來概括這兩種情況,因此, 這本書裡我們有時會對預測和解釋不加區別。 為了使預測(或解釋)有意義,被預測的變數(因變數)和用來預測的變數(自變量)之間必須存在某種聯絡。毫無疑問,如果你試了足夠多次,可能發現28種股價在一年中變化的公眾股票完全能夠被棒球聯盟的28個主要球隊在7月4日比賽的輸嬴比例來預測,但是,這樣的預測是荒謬的,因為這二者之間毫無關聯。預測需要一種關聯單元,代表這兩種變數之間存在關係的本質。對於時間序列資料,很簡單關聯單元就是時間。變數可以在同一時期觀測,或為了做到真正地估計,自變量的觀測比因變數的觀測早一個時期。對於橫斷面資料(cross-sectional data),變量之同應該存在一個經濟上或物理上的本質聯絡。假如我們打算預測不同的軟飲料的市場份額的變化,那麼就應該考慮到這些飲料的推銷宣傳活動,而不是各種品牌的實心麵條調味計的廣告宣傳。預測時需要關聯單元似乎是顯然的,但許多預測是在沒有明顯的關聯單元的環境中進行的。 本章我們介紹簡單線性迴歸分析,這種方法適用於一個自變數,並且預溯因變

• 584• 第十一章線性迴歸和相關試y的方程是給定的自變數z的線性函式。例如,假如某縣公路管理部門主任想預測用於投標的重新鋪路的合同的成本,我們可以合理地預見,這個成本是將要重新鋪設的公路英里數的函式。一個合理的開始是利用線性的預測函式。令y=這個專案總的成本(千美元),2=需要重新鋪設的公路的英里數, =預測的這個項目總的成本(千美元)。預測方程 =2.0+3.0x(例如)就是線性方程。常數項, 比如2.0,是截距,可解釋為當z=0時y的預測值。在公路重新鋪設的例子中,我們可以把截距解釋為這個專案開始時的固定成本。x的係數,比如3.0,是這條直線的斜率,就是當x改變一個單位時y的預測變化。在公路重新鋪設的例子中, 假設有兩個專案相差一英里,我們可以預測長專案的成本比短專案多3(千美元)。 一般地,預測方桿表示為其中p。是截距,而B是斜率,參看圖 11.1。 一x 1 2 3 4 5 圖 11.1 線性預測函式簡單線性迴歸的基本思想是用資料擬合與因變數y和單個自變望z相關的預測直線。簡單迴歸的第一個假定是這兩個變數的關係是線性的。按照直線性的假設,當×變化時方程的斜率不改變。在公路重新鋪設的例子中,我們可以假定從長距離專案中不會獲得(實質的)規模經濟。除非直線性假定成立(至少大致), 否則利用簡單線性迴歸就沒有多大意義了。 表面上,直線性並不總是合理的假定。例如,我們打算用=某汽車商的電臺廣告的重複次數,預測=知道這家汽車商的盛夏打折銷售的司機的數量,直線性的假定意味著商業廣告的第一次播出不會比第一千零一次播出導致更多的司機知道此事。(你已經聽過上述那樣的商業廣告)我們強烈懷疑這個假定在。的廣泛範圍內的有效性。我們很清楚商業廣告重複的次數越多,其影響越小,因此一個直線的預測不很好。 假定存在直線性,我們將y表示為的線性函式: =B+B。但是,按照這

11.1 引言和案例 • 585 個方程,»是工的確切的線性函式;沒有留下餘地考慮不可避免的誤差(少的實際值與預測值的差異)。為此,對應每一個y我們引入一個隨機誤差項e,並假定模型為 3=B+Bx+E 我們假定隨機變數y是由可預測的部分(z的線性函式)和不可預測的部分(隨機誤差6:)組成。係數B0和B,可解釋為真實的截距和斜率,而誤差項:包含所有的其他已知和未知的因素的影響。在公路重新鋪設的專案中,一些不可預測的因素比如罷工、天氣條件和裝置故障的影響都包含在:,還包含一些因素比如公路的陡峭或維修前的條件————那些應該在預測中考慮的但最終沒有考慮到的因素。不可預測的因素和被忽略的因素的綜合影響就構成了隨機誤差項。 例如利用不同的新汽車本身的重量(自變數)預測這些新汽車所消耗汽油的平均里程(因變數),一個方法是每輛車安排不同的司機行駛一個月時間。預測誤差可能是由哪些不可預測和忽略的因素產生呢?這個研究中不可預測(隨機)因素包括司機的駕駛習慣和技術、行駛路程的型別(城市與公路)和途中所遇紅燈的次數。 可能被忽略的因素有發動機的規格和變速裝置的型別(手動與自動)。 在迴歸分析的研究中,自變數的值(z;的值)一般看作預先確定的常數,因此隨機性的惟一來源就是。:項。儘管絕大多數經濟和商務應用中工;的值都是固定的,但並不總是這樣的。例如,z;代表某個才能測試中申請者的得分,y:代表申請者的生產能力,如果資料是申請者的隨機樣本,那麼z:(%:)是隨機變數。在迴歸分析研究中把z看作固定的還是隨機的無關緊要,如果z;都是隨機的,我們可以簡單地把所有率陳述視為在z;取定觀測值的條件下的相應的機率陳述。 當我們假定所有的z:都是常數,那麼關於z:的模型中惟一的隨機部分是隨機誤差項E。以下是模型的正式的假設條件。 定義 11.1 迴歸分析的正式的假定: 1.所有誤差的期望值都是零,即對所有的i,E(E:)=0。 2.所有誤差的方差都是相同的,即對所有的i,Var(e:)=0。 3.誤差是相互獨立的。 4.所有差都服從正態紛布,即對所有的i,:都是服從正態分佈。 這些假定都顯示在圖11.2中。因變數的實際值服從正態分佈,其均值都落在迴歸線上且對自變數所有的值都具有相同的標準差。惟一未在圖中顯示的假定是觀測值彼此的獨立性。 有了這些正式的假定,就可以匯出以後的顯著性檢驗和預測方法。我們一開始可以透過觀察資料的散點圖來檢驗模型的這些假定。散點圖就是簡單地畫出每對(x,3:)的座標,其中因變數作為縱軸。看看這些點是不是基本落在一條直線的周圍或者是一條確定的曲線模式。除此之外,我們還觀察是否有明顯地遠離資料

• 586• 第十—章線性迴歸和相關 y=1.5+2.5x 12 9 6 3 1 2 3 4 圖 11.2 迴歸分析中y的理論分佈的一般模式的離群值。圖11.3(a)顯示了一個散點圖。 最近,平滑法被用來直接透過資料描繪出一條曲線而不必要假定任何特定的模型。假如這樣的平滑法產生的曲線接近直線,那玫線性迴歸就是合理的。 L.OWESS(locally weighted scatterplot smoother)就是一個這樣的方法。粗略地講, 平滑法就是將資料沿:軸取一個非常窄小的“小段”,在小段上計算出擬合資料的直線,再將這個小段沿2軸慢慢移動,重新計算直線,如此重複下去。最後將這些所有的小育線連線成一條平滑的曲線。小段的寬度稱為帶班;一般是由進行平滑的計算機軟體控制的。簡單的散點圖(圖11.3(a))和透過這些資料的 LOWESS 曲線顯示在圖11.3(b)中。散點圖表明是曲線關係:LOWESS 曲線印證了這一點。 100- •• 100 P y 50 50 0 0 0 100 x () 200 0 100 x (b) 200 圖 11.3(a)散點圖和(b)LOWESS 曲線

11.1 引言和案例 • 587• 另一種散點平滑是樣條擬合。這個方法是取一個窄小的資料小段,在上面擬合出一條曲線(一般是三次方程),再移動到下一個小段擬合出另一條曲線,如此重復下去。最後將這些曲線連線成一條連續的曲線。 許多經濟關係都不是線性的。例如,任何回報遞減模式都趨向於產生一種增加的關係,只是其增加率是逐漸減少的。如果散點圖本身或擬合的LOWESS曲線沒有表現出線性性,那麼我們一般是透過對自變數或因變數做變換將二者的關係直線化。一個好的統計軟體或表格演算法都可以計算像平方根這樣的函式。變換後的變數可以簡單看作另一個變數。 例如,某個大城市每個春季都要派遣職員修補街道的坑洞。每天所派遣的職員人數和修補的坑洞數都被記錄下來,修補的坑洞數和職員數的散點圖和帶有 LOWESS曲線的散點圖顯示在圖11.4中。二者的關係是非線性的,就算沒有 IOWESS曲線,斜率下降也是明顯的。這並不奇徑,因為派道職員越多,僱傭的工人工作效率越低,這些職員不得不走得更遠去發現坑洞,如此下去。所有這些原因都顯示會出現回報遞減現象。 150 150 + 十 •+ + + 100 數 ‡ + + 100 - 數 + + 50 500 0 0 5 10 職員數 (a) 15 0 10 職員數 (b) 15 圖 11.4 街道坑洞資料的散點圖我們可以透過嘗試幾種自變數變換的方法來尋找更接近線性的散點圖。三種常用的變換是平方根變換、自然對數變換和倒數變換(1除以變數)。將每種變換用於修補坑洞數的資料。變換後的散點圖和相應的 LOWESS 曲線顯示在圖 11.5a一c中。平方根變換(a)和倒數變換(c)並沒有得出直線關係,而自然對數變換(b)就得出了非常好的結果。因此,我們將用Ln(職員數)作為自變數。 尋找一個好的變換需要不斷地嘗試,也會犯不少錯誤。下面是一些幫助找出合適變換的建議。在散點圖中尋找變換要注意兩個方面。首先,二者的關係是非線性的嗎?其次,沿著y(縱)軸是否有變差逐漸增大的趨勢?如果有這種趨勢,那

• 588• 第十一章線性迴歸和相關 150 數100500 + 150 數100林株 50. 0 # 十+ 十 0 2 3 職員數的平方根 (a) 150 100 50 0 4 0 2 3 職員數的對數 (b) 4 † † + "T 0.00.10.20.304050607080.91.0 職員數的倒數 (c) 圖 11.5 預測變數變換後的散點圖麼常數方差的假定就有問題了。這些建議雖然不能覆蓋所有的情況,但是包含了最常見的問題。 定義11.2 選擇變換的幾個建議: 1.假如散點圖顯示因變數是隨自變數增加而增加,但增加的幅度是逐漸減少的;且在曲線周圍的變差大致是常數,則對自變數:作平方根變換、自然對數變換或倒數變換。 2.假如散點圖顯示因變數是隨自變數增加雨增加,但增加的幅度是逐漸增加的;且在曲線周圍的變差大致是常數,用:和x”作為預測變數。因為這個方法使用了兩個變數,所以需要下兩章所介紹的多元迴歸分析。 3.假如散點圖顯示因變數是隨自變數增加到最大值後下降,且在曲線周圍的變差大致是常數,用z和z作為預測變數。

11.1 引音和案例•589• 4.假如散點圖顯示因變數是隨自變數增加而增加,但增加的幅度是逐漸減少的;且在曲線周圍的變差隨著被預測變數y的增加而增加的,則用y2作為因變性。 5.假如散點圖顯示因變數是隨自變數增加而增加,但增加的幅度是逐漸增加的;且在曲線周圍的變差隨著被預測變數y的增加而增加的,則用In(y)作為因變量。有時候也用In(x)作為自變數。注意原始變數的自然對數增量十分接近原始變數相應的百分比變化,因此,變換後的變數的斜率可以用百分比的變化很好地解釋。 例 11.1 某航線實行飛行常客優惠專案,該專案的參加者中得到的免費旅行大量增加。 為了預測未來這些旅行數量的趨勢,專案負責人收集「最近72個月的資料。因變量v為免費旅行的次數;自變數:為月數。圖11.6給出了利用Minitab繪製的帶有LOWESS平滑曲線的散點圖。應該用什麼變換呢? 300 200 斑航 100 0 x 0 10 20 30 40 50 60 70 月圖11.6 常客免費航班解答散點圖的模式顯示因變數是隨自變數增加而增加,但增加的幅度是逐漸增加的。LOWESS曲線是明確向上的。另外,圍繞平滑曲線的變動(上下)是逐漸增加的,曲線高階周圍的點(這個例中的右端)比曲線低端周圍的點更分散。變差逐漸增加建議對變數作變換,這時候自然對數(In)變換常常是很好的選擇。 圖11.7給出了 Minitah 對y取對數後重新繪製的散點圖。散點圖的模式非常接近直線,並且圍繞直線的變差十分接近常數。 我們將在第十二章詳細討論模型假定的檢查。對予一個預測變數的簡單迴歸模型,仔細檢查散點圖,最好再用平滑曲線擬合資料,可以幫助我們避免嚴重的錯誤。

• 590• 第十一章線性迴歸和相關 6 5 4 3 xXXx x x ×× x 0 10 20 30 40 50 60 70 月圖 11.7 對數變換後的結果一旦已經確定了任何數學變換,我們必須估計迴歸線的實際方程。實際上,我們惟一獲得的是樣本資料,總體的截距、斜率和誤差的方差都必須用有限的樣本數據來估計。這一節的假定使得我們能夠用樣本資料對總體引數做出推斷。 案例:比較診斷大腸桿菌的兩種方法