當»聯絡於一組定性變董時,一般線性模型中的z表示虛擬變數(編碼為0 和1)或虛擬變數的乘積。我們在12.1 節中討論了在有一個定性變數時如何用虛擬變基來表示y。同樣的方法也可以建立y與多個定性變數之間的關係模型,我們將在第十五章中討論這樣的模型,在那裡,我們將更詳細地討論方差分析。 當既聯絡於定性變數也聯絡於定量變數時,也可以用一般線性模型。12.7
12.2一般線性模型 • 689, 節中將給出一個這種情況的特殊例子,其他的應用將在第十六章中討論。 為僕麼這個模型稱為一般線性模型呢,況且該模型還可以用來表示多項式模型?一般線性模型中的“線性”一詞是指諸B進入模型的方式,而不是指自變數在模型中出現的方式。一個一般線性模型關於諸B(在通常的代數意義下)是線性的。 為什麼我們現在討論…-般線性模型呢?我們在這一章中將要給出的關於多元迴歸模型中單個引數B,一組8以及E(y)的推斷方法適用於任何般線性模型。 也就是說,使用一般線性模型的方法,我們得到關於多元迴歸的推斷(第十二和第十三章)以及方差分析(第十五章至第十九章)的一條共同的線索。當你學習這六章的時候,儘可能隨時回過頭來與一般線性模型相聯絡,我們將幫助你建立這種聯系。從這一章的12.3節到12.10節,我們將集中討論一般線性模型的特殊脩形, 即多元迴歸模型。 練習基本技能 12.1 8.寫出一個聯絡響應變數y與三個定性自變數的一階多元迴歸模型。 b.說明這個模型可以寫成一個一般線性模型。 12.2 寫出一個聯絡響應變數y與三個定量自變數的二階多元迴歸模型。 《提示:一階模型包含有工;的項,二階模型除包含有這些項外,還含有二階項和交叉項。 12.3 參見練習12.2。說明你給出的模型可以寫成一個一般線性模型的形式,並說明一般線性模型中各項的意義。 12.4 考慮模型 2=80+81z1+B242+E 其中 J1 對於處理2 X1= 1o 其他 2 (對於處理3 a.解釋模型中的各個B。 b.用該模型表示處理2與處理3上平均響應的差。 12.5(選擇題)參見練習12.4。假定在模型中增加一項B3z3,其中z3表示由定性變數“位置”所確定的虛擬變數: 11 對於位置2 3= 1o 其他 a.解釋模型中的各個 B。(提示:考慮三個處理和兩個位置的所有組合。)
•690• 第十二章多元迴歸與一般線性模型 b.寫出對於位置2,處理2與處理3上平均響應的差。對於位置1,這個差還一樣嗎? <.給出一個試驗的例子,使得對於這個試驗,該模型可能是一個合理的近似。 12.6(選擇題) 在一項研究中,考察了一個定量自變數(年齡)對於反應時間 (用剎車時間來測量)的影響。試驗物件中有男性也有女性。有人提出了兩個模型: -B+BLK1+B2X2+E 和 =B0+BI1+B2 2+B 142+E 其中 1 年齢(歲)和 2 1女性 lo男性給出這兩個模型中諸阝的解釋,並說明這兩個模型的實際區別。 12.3 估計多元迴歸係數多元迴歸模型建立了y與一組定量自變數之間的聯絡。對於一個n次測量的隨機樣本,我們可以把第;個觀測值寫成 y:=Bo+ Btil +Bxn2 +•+ BxatEi (i=1,2,",1、82k) 其中 zil. 12,•,工為相應於觀測值y的各定量自變數的取值。 為了得到多元迴歸模型中B,B,…和Bx的最小二乘估計,我們應用第十一章中對於線性迴歸模型所使用的方法。我們有n次觀測的隨機樣本,透過選取 Po.B成使之極小化、S(殘差)=二;(3一y),找到取小二乘預測方程然而,雖然對於線性迴歸方程 y=B+B&+E 容易寫出8o和8的解,但現在我們必須對手80,B,…和及同時解一組方程才能得到它們的估計,這組方程叫做正規方程,如下所示。 Yi … ≥y +⋯+ Zzi¼: Er:Bo +…+ 1 工il: 2i " =i + + + + ⋯+
12.3 估計多元迴歸係數•691• 注意這組方程的特點:在象上表中所做的那樣標出行和列以後,我們可以透過行列相乘再求和來得到正規方程中的任何一項。例如,第二個方程中的最後一項可以這樣得到:行元素 z:乘以列元素(zs&),再求和,結果是2不i1 澱。由於所有正規方程中的項都可以如是得到,要寫出這些用以求解最小二乘估計 B0, B,“及的方程容易得很。這些方程的解不一定是顯而易見的,這也就是為什麼我們將藉助於各種各樣的軟體包來求解的原因所在。 例 12.5 在練習11.44中,我們給出了在暴露於空氣中不同的時間後一種化合物的重量損失。另外還有可以利用的資訊,即暴露過程中環境的溼度。完全的資料在表 12.3中給出。 重量損失y(磅) 4.3 s.s 6.8 8.0 4.0 5.2 6.6 7.5 2.0 4.0 5.7 6.5 表12.3 重量損失、暴麗時間和相對混度資料暴露時間z」(小時) 4 5 6 7 4 5 6 7 4 5 6 7 相對溼度,工2 0.20 0.20 0.20 0.20 0.30 0.30 0.30 0.30 0.40 0.40 0.40 0.40 a.如果假定的模型為 =80+B1x1+ B2x2 +E, 其中工1為暴錦時間,2為相對溼度,試對這一回歸問題建立正規方程。 b.從下面給出的計算機輸出結果確定 Bo.B和B2的最小二乘估計,預測當暴露時間為6.5小時,相對溼度為0.35時的重損失。 (注:在下面結果中,CBS 表示觀察值序列號,WT_1.O58 表示重量損失,TIME 表示時間,HUMID 表示相對溼度)
•692• 第十二章多元迴歸與一般線性模型 OUTPUT FOR EXANEL 12.5 OBS 1 2 3 6 7 8 9 10 11 12 13 WT_LOSS 4.u 5.5 6.8 8.0 4.0 5.2 6.6 7.5 2.0 4.0 5.7 6.5 TIHE 4.0 5.0 6.0 7.0 4.0 5.0 6.0 7.0 4.0 5.0 6.0 7.0 6.5 Dependent Variable:NT_ LOSS NEIGHT LOSS Analysis of Variance Source DE Sum of Squares Hodel Error C Total 2 9 11 31.12417 1.34500 32.46917 Root HSE Dep Mean C.V. 0.38658 5.50833 7.01810 Parameter Bstinates HUHID 0.20 0.20 0.20 0.20 0.30 0.30 0.30 0.30 0.40 o.40 0.40 0.40 0.35 Hean Square F Value 15.56208 104.133 0.14944 R-square Adj R-sg erob>F 6.0001 0.9586 0.9494 Variable INTERCEP TIHE HUHID DF 1 1 1 Parameter Estimate 0.666667 1.316667 8.000000 Stanlard ErTOr 0.69423219 0.09981464 1.36676829 T Eor HO: Parameter = 0 0.960 13.191 -5.853 Prob> Ir| 0.3620 0.0001 0.0002
OES 1 2 3 4 5 6 7 日 9 10 11 12 13 mT.IOSS 4.3 5.5 6.8 8.0 4.0 5.2 6.6 7.5 2.0 4.0 5.7 6.5 PRED 4.33333 5.65000 6.96667 8.2日333 3.53333 4.85000 6.16667 7.48333 2.73333 4.05000 5.36667 6.68333 6.42500 RESID - 0.03333 -0.15000 -0.16667 - 0.28333 0.46667 0.35000 0.43333 0.01667 - 0.73333 -0.05000 0.33333 -0.18333 • Sum of Residuals Sun of Squared Residuals Predicted Resid Ss (Press) o 1.3450 2.6123 解箵 1.對於這個模型,三個正規方程如下。 1 = ™i 12.3 估計多元迴歸係數 •693• LS5HEAN 3.80985 5.23519 6.55185 7.75985 3.11091 4.57346 5.89012 7.06091 2,20985 3.63519 4.95185 6.15995 6.05269 U957EAN 4. 85682 6.06481 7.38148 日.80682 3.95575 5.12654 56.44321 7.90576 3.25682 4. 45481 5.78148 7.20682 6.79731 Zxy: + + EzB 二硫 Nxi2y: =l + 對於這些資料,我們有 2>:=66.10 二z:= 66 Zziy:=383.3 Zxiz2y:= 19.19 Zx= 378 乙路=1.16 把這些數代入正規方程,得到如下結果: 66.1= 12B+ 66B +3.6B2 383.3=66B。+ 378B+19.8序2 19.19= 3.6B+19.881+1.16店2 + + + EIi1 2 Exi2?B2 Zx:2 = 3.60 2zit2 = 19.8
•694• 第十二章多元迴歸與•一般線性模型 b.解(a)中的正規方程可得 Bo,B,和B2。這個解當與這裡給出的輸出結果的數值一致。最小二乘預測方程為 =0.667+ 1.317 1- 8.000.z2 其中x1為暴酵時間, 2為相對溼度。把×1=6.5及 2=0.35代人上述方程,我們有 = 0.667 + 1.317(6.5) - 8.000(0.35) = 6.428 該值除了入誤差以外,與計算機輸出結果中第 13個觀測值處的預測值一致。 有很多軟體程式可以用來計算一般線性模型中引數的最小二乘估計。這些程序的輸出中,一般都含有變數名的一個列表,並附有所估計的偏斜率,這些偏斜率被標以“COEFFICIENTS”(係數),也有的標以“ESTIMATES”(估計)或“PARAMETERS”(引數)。截距 B。通常叫做“INTERCEPT”(截距)或“CONSTANT”(常數),有時,它也被與斜率一起列出,只是不帶變數名。 例 12.6 下面給出的三個變數的資料用 Excel 中的 spreadsheet 程式進行了分析。找出偏斜率和截距的估計。 y: 25 1: -10 2: -5 34 -10 0 42 Intercept X1 ×2 28 40 36 -10 0 0 44 10 5 -5 0 5 -5 Coefficients Standard Rrror t Stat P-value 39.0 1.256 31.055 7.4E-08 0.983 0.154 6.393 0.0007 0.333 0.308 1.084 0.3202 53 01 0 49 10 5 解答如在輸出結果中所標出的,截距的值為39.0。與x1和z2相應的偏斜率分別為0.983和0.333。很多程式都用類似的方法在一列中標出迴歸係數。 在多元迴歸方程中,自變數 z;的係數一般不等於對該自變數做簡單線性迴歸時它的係數。在多元迴歸中,z;的係數表示當其他自變保持不變時,該自變試變化的效應。在簡單線性迴歸中,所有其他潛在的自變數都被省略。如果其他自變數與x;是相關的(因此當子,變化時有不能保持常數的趨勢),用z;作為惟一自變數的簡單線性迴歸不僅捕捉了x;變化時的直接效應,而且也反映了與之相關的其他z的變化的間接效應。在多元迴歸中,透過令其他變數保持不變,我們擺脫了這種間接效應。
12.3 估計多元迴歸係數 • 695• 例 12.7 比較下面的 StanaQuest 程式的輸出結果中,多元迴歸模型與簡單(一個預測因子)迴歸模型中工的係數。解釋這兩個係數不同的原因。 •regress y x1 x2 ¥1 FI--+ x1 x2 cons: Coef. Std.Erz. t P≥Jt [95& Conf.Interval] 1 3 10 1.870829 4.1833 1.183216 0.535 0.717 8.452 0.646 0.548 0.014 -7.049526 - 14.99929 4.909033 9.049526 20.99929 15.09097 •regress yxl Y Coef. Std.Err. t P>It 195 * Cont.Interval] x1 cons 2.2 10 0.7659417 1.083205 2.872 9.232 0.064 0.003 - 0.2375683 6.552758 4.637568 13.44724 •correlate yx1 x2 y x1 ×2 Y ×1 x2| 1.0000 0.8563 0.8704 1.0000 0.8944 1.0000 解答在多元迴歸模型中,工的係數為1,但在簡單迴歸模型中,其係數為 2.2。之所以有如此差異,是因為兩個z是相關的(結果中顯示二者相關係數為 0.8944)。在多元迴歸模型中,我們考慮固定z2,而x1變化;在簡單迴歸模型中, 我們考慮z1變化而讓22自由。 除了估計截距和偏斜率外,估計殘差標準差s。也很重要。殘差標準差也稱為估計的標準誤差。殘差的定義仍然如前,即y的觀測值與預測值之間的差: 殘差平方和 SS(殘差),又叫做 SS(誤差),正如其名,定義為各個預測誤差的平方的和: SS(殘差)=】(3-3.)2 該平方和的自由度是一(k+1)。一個自由度是由於截距而減去的,而對應於系
•696、 第十二章多元迴歸與一般線性模型個偏斜率中的每一個也減去一個自由度。均方殘差 MS(殘差),也叫做 MS(誤差),定義為殘差平方和除以 (k+1)。最後,殘差標準差s。是MS(殘差)的平方根。 殘差標準差也叫做“std dev”,“估計的標準誤差”,或“MSE 方根”。如果輸出結果不清楚,你可以手工對 MS(殘差)開平方。一如既往,我們總是用經驗準則來解釋標準差,即預測誤差的大約95%落在均值計程車2殘差標準差的範圍內,預測誤差的平均值自然是0。 1 2 3 4 5 6 7 日 9 20 11 12 13 14 15 16 17 18 19 例 12.8 在下面給出的例12.6 中資料的輸出結果中找出SS(殘差)以及S。 A C D The regzession equation is y= 39.0+ 0.983 x1 + 0.333 x2 Predictor Coef Stdev t-ratio Constant ×1 ×2 39.000 0.9833 0.3333 1.256 0.1538 0.3076 31.05 6.39 1.08 8=3,76日 R- $9 =87.5* R- sa(adj) = 83.38 E P 0.000 0.002 0.320 F —⋯; Analyais of Variance SOURCE Regression ErrOr rotal DF 2 6 8 SS 596.83 85.17 682.00 MS 29日.420 14.190 F 21.02 P 0.002
12.3 估計多元迴歸係數 • 697、 解答在標有“Analysis of Variance”(方差分析)的一段輸出結果中,SS(殘差)顯示為 SS(Error)=85.17,df(即自由度)為6,MS(誤差)為14.19。殘差標準差由s=3.768 標示出來。注意,在不計舍入誤差時,有3.768=/14.19。 殘差標準差在決定用迴歸方程作出的預測所可能有的誤差時是很關鍵的。預測單個»值時使用的精確的標準誤差將在12.4 節中給出。若忽略外推和自由度效應,粗略地說,可能的誤差近似為士2S。這個近似可以作為衡量一個迴歸模型的預測質量的一個粗略的指標。 例 12.9 一個商業學校的招生辦公室建立了一個迴歸模型,以用能力測驗成績和班級排名來預測等級分平均值(4.00= A;2.00= C平均,最小的畢業平均值;0.00= F)。殘差標準差為Se=0.46。同該值能表明用這個迴歸方程可給出很精確的預測嗎? 解答預測的可能誤差的一種度量是2:=0.92。例如,如果預測到的平均值為2.80,那麼一個人的等級分大約在2.80-0.92=1.88(成績不好不能畢業)到 2.80+0.92=3.72(可以優異成績畢業)!這不是精確的預測。 練習應用 12.7(醫藥)一家制藥公司希望瞭解一種藥物的劑量與效果之間的關係。 為此,在15個試管中接種一種病毒,並在30C的條件下培養5天。要研究5個不同的劑量水平(2,4,8,16 和32mg),為每個劑量水平隨機指定三個試管,給每個試管只注射一個劑量水平的藥物,然後測量其響應(藥物對培養病毒的作用強度的一種度量)。所得資料如下。 劑量水平 2 4 8 16 32 喻應 $,7,3 10,12,14 15,17,18 20.21,19 23,24,29 a.畫出資料的圖。 b.對這些資料擬合一個線性迴歸模型。 c.還有什麼樣的模型可能是合適的?
• 698• 第十二章多元迴歸與一般線性模型 d. 下面給出用SAS軟體對線性和二次迴歸方程算得的輸出結果。哪一個回歸方程看起來擬合得更好?為什麼? OUXPUT FOR EXERCISE. 12.7 OBS 1 2 3 4 DOSE 2 2 2 4 4 4 8 8 8 RESPONSE 5 3 10 15 32 24 29 Dependent Var iable: RESPONSE PROTECTIVE STRENGIH Analysis of Variance Source Hode1 Error C Totai DE 1 13 14 Root MSE Dep Mean C.V. Parameter Estimates Variable INTERCEP DOSB DF 1 1 Sum of Squares 590.91613 173.48387 764.40000 3.65307 15.80000 23.12069 Mean Square 590.91613 13.34491 R-square Adj 8-sg F Value 44.280 Prob≥E 0.0001 Q.7730 0.7556 Parameter Estimate 8.666667 0.575269 Standard ErTOr 1.42786770 0.0864$0‡6 T for HO: Parameter= 0 6.070 6.654 Prob> /m 0.0001 0.0001
CES 1 2 3 4 5 6 B 9 10 11 12 13 14 15 DOSE 2 B 16 16 16 32 32 32. RESPONSE 5 7 10 12 14 15 17 18 20 21 19 23 24 29 Sum of Residuals Sun of Sguared Residuals Fredicted Resid Ss (Press) PRED 9.日172 9.8172 9.8172 10.9677 10.9677 10.9677 13.268日 13.2688 13.26日8 17.8710 17,8710 27.8710 27.0753 27.0753 27.0753 12.3 估計多元迴歸係數 •699• RESID - 4.81720 - 2.81720 -6.81720 -0.96774 1.03226 3.03226 1.73118 3.73118 4.73118 2.12903 3.12903 1.12903 - 4.07527 -3.07527 1.92473 173.4839 238.0013 * * * * * LIN REC RESIDUALS * * * -6 -8 * -+ 20 LIN REG PREDICTED VALUE 25 30 --
•700• 第十二章多元迴歸與一般線性模型 QUADRATIC REGRESSION ANAL.YSIS Dependent Variable: RESPONSE PROTECTIVE STRENGTH Analysis of Variance Source Hodel ErrOr C Total DF 2 12 14 Sum of Sguares 673.82062 90.57938 764.40000 Hean Square 336.91031 7.54828 Root MSE Dep Hean c.v. 2.74741 15.80000 17.38869 R-square Adj 8-ag 0.8815 0.8618 Parameter Estimates Variable DF Parameter Estimate Standard BETOr INTERCEP DOSE DOSE2 1 1 1 4.483660 1.506325 -0.026987 1.65720388 0.28日36373 0.00814314 OBS 1 2 3 4 5 6 7 日 DOSE 2 2 2 RESPONSE 5 7 日 10 11 12 13 14 15 16 16 16 32 32 32 PREDICTED 7,3884 7.3884 7.3884 10.0772 10.0772 10.0772 14.6071 14.8071 14.8071 22.6762 21.6762 23.6762 25.0512 25.0512 25.0512 F Value 44.634 Frob>E 0.0001 T for HO: Parameter=0 2.706 5.224 -3.314 RESIDUAL -2.38836 -0.38836 -4.38836 -0.07717 1.92283 3.92263 0.19292 2.19292 3.19292 ~ 1.67615 - 0.67615 - 2.67615 -2.05123 -1.05123 3.94877 Prob≥!T 6.0191 0.0002 0.0062
12.3 估計多元迴歸係數 • 701• * 2 QUAD REG RESIDUALS * * * * * * * * -6 5 152025 QUAD REG PREDICTED VALUE 12.8 參見練習12.7。為了線性化響應與自變甘之間的關係,常對劑量水平做對數變換。 8.查對數表或用計算器求出5個劑量水平的對數。 b.如果以z:表示對數劑量,擬合模型 =B+月z1+E 下面給出了擬合後的殘差圖。 c.對(b)中的結果與練習12.7中的結果進行比較。對數變換提供了比練習 12.7中更好的線性擬合嗎? REGRESSION ANALYSIS USING NATURAL, LOGARITEIH OE DOSE Dependent Variable: RBSPONSE PROTECTIVE STREIGEH Analysis of Variance Source Model ErTOr C Total DF 1 13 14 Sum of Squares 710.53333 53.86667 764.40000 Hean Square 710.53333 4.14359 F Value 171.478 Frob>E 0.0001 Root HSB Dep Mean C.V. 2.03558 15.80000 12.88342 R-square Adj R-$g 0.9295 0.9241
• 702• 第十二章多元迴歸與一般線性模型 Parameter Estimates Variable INTERCEP LOGDOSE DE 1 1 Standard Error 1.23260547 0.53616972 r for HO: Paraneter=0 0.974 13.095 Prob≥1/ 0.3480 0.0001 * * * RESIDUALS Parameter Estinate 1.200000 7.021116 4+ 3+ 2+ 1* 0 -* -2+ -3+* 6.067 * * * * * * * * * 25.533 10.933 15.800 20.667 PREDICTED VALUE 12.9{商業)一家化工工業公司研究其促銷活動(基本的直接接觸和貿易展覽)、直接開發費用以及短期研究投入對銷售額的影響。他們收集了24個季度(6 年)的資料,並用 Stata 多元回婦程式進行了分析,結果如下(每個季度100,000美元): .regress Sale Frono Devel Research Source SS df Hodel Residual 43901.7677 13136.2323 3 20 Total 57038.00 23 MS -----… 14633.9226 656.811614 I----- 2479.91304 —- Humber of obs = E(3,20) erob≥『Rsquare = =l = Adj B-aguare Root HSE = 24 22.28 0.0000 0.7697 0.7351 25.628
Sales Prono Devel Research CONS Coet. 136.0983 - 61.17526 -43.69508 326.3893 Std.Ezr. 28.10759 50.94102 48.32298 241.6129 t 4.842 -1.201 - 0.904 1.351 12.3 估計多元迴歸係數 • 703• P≥ir! 0.000 0.244 0.377 0.192 [95 * Conf. Interval] --- 77.46609 194.7297 -167.4364 45.08585 - 144.495 57.10489 - 177.6063 日30.3849 a.寫出估計後的週歸方程。 b.找出MS(殘差)以及其平方根,殘差標準差。 c.給出促銷費用的係數B.的解釋。 12.10(商業)在航空支線上,航空公司把顧客從一些小城市運送到一個大的空中樞紐。為了基於每個小城市到該樞紐的臣離(英里)和小城市的人口對通向 22 個小城市的支線收入進行預測,做了一項迴歸研究。得到的相關係數和散點圖如下。 Correlations Variable Revenue Air miles Population Ssattcrplo: Natrix 上 299TRcvenu 50400 - 350300250200350- • 300 250 200 150 200Revenue 1.0000 0.1133 0.8632 Air miles 0.1133 1,0000 -0.1502 Population 0.6632 -0,1502 1.0000 Air miles Fopuiation 50 200 300 400 500 IS0 200250 30035050 100 150 200
• 704• 第十二章多元迴歸與一般線性模型 a,這兩個自變數是嚴重相關的嗎? b.這些散點圖是否表明可能有槓桿點的問題? 12.11 用JMP 軟體對航空支線的資料進行了多元迴歸分析,部分結果如下。 Response:Revenue Sunnary of Fit RSquare RSquare Adj Root Hean Square Brroz Mean of Response Observations (or Sum Ngt.s) Parameter Est imates Tern Intercezt Air miles {Fopuiation Estinate 86.736862 0.2922116 1.5310653 Mhole-Hodel Test]L Analysis of Variance! Souzce DF Sum of Sqgures Model 2 60602.202 Brror 19 14635.298 CTotal 21 75237.500 0.805479 0.785003 27.7539 252.5 22 Std Error 27.74907 0.120336 0.174004 t Ratio 3.13 2.43 8.8o Prob>[t] 0.0056 0.0253 0.0000 Mean Sguare 30301.1 770.3 E Ratio 39.3378 PIob>F 0.0000 a. 不考慮這些輸出結果,你能否期望空中里程與人口的斜率的符號(正或質) 嗎? b.上述輸出中的斜率的符號是否與你所期待的符號一致? c給出空中里程的係數的意義。 12.12(工程)一家製造商要檢驗一臺用於對試驗纖維進行檢驗的磨損檢測儀的研磨效果。研磨時機器有6種轉速:100,120,140,160,180 和 200轉每分鐘。 剪裁了48塊同樣質地的5英寸見方的纖維織品,為每種轉速隨機指定其中8塊。 把這些織品指定到機器的順序是隨機的,每一塊織品在指定的轉速下試驗3分鐘。 測量並記錄下每一塊織品的磨損量,資料如下。
12.3 估計多元迴歸係數 •705• 轉速(Speed)(轉/分) 100 120 140 160 180 200 磨損量(Wear) 23.0,23.5,24.4,25.2,25.6,26.1,24.8.25.6 26.7,26.1,25.8.26.3,27.2,27.9,28.3,27.4 28.0,28.4,27.0,28.8,29.8,29.4.28.7,29.3 32.7,32.1,31.9,33.0, 33.5,33.7,34.0.32.5 43.1,41.7,42.4,42.1,43.5, 43.8.44.2,43.6 54.2.43.7.53.1,53.8, 55.6, 55.9, 54.7,54.5 a.畫出該資料集的圖(對於所有轉速而言,磨損量的變異性都是一樣的,所以你可以對每個轉速畫出其平均值,這樣可以節省時間)。 b. 什麼樣的迴歸模型看上去是合適的呢? c.對於線性、二次和三次模型的輸出結果如下面幾頁。哪一個迴歸方程的擬合效果更好些?為什麼? d.資料中有什麼特殊的現象嗎?可能發生了什麼? L.IXEAR REGRESSION AMALYSIS FOR WEAR TESTER DATA Dependent Variable: FABRIC WEAR Analysis of Variance Source DF Sum of Squares Mean Square F Value Prob>E Hodel Error C Tatal 1 46 47 4326.79207 682.84710 5009.63917 4326.79207 291.474 14.84450 0.0001 Root MSE Dep Hean C.u. 3.85286 34.92917 11.03048 R-sguare Adj R-sg 0.8637 0.8607 • Paraneter Est imates Variable OE Parameter Estimate Standard Error T Eor HO: Paraneter =0 Prob> |r INTERCEE SPEED 1 1 -6,765476 0.277964 2.50470943 0.01628129 -2.701 17.073 0.0096 0.0001
• 706• 第十二章多元迴歸與--般線性模型 Variable INTYRCEE SPERD DE Variable Label 1 Intercept 1 HACHINE SPEED SPEED 1 2 3
MEAR 32.5 43.1 41.7 42.4 42.1 43.5 43.8 44.2 43.6 54.2 43.7 53.1 $3.8 55.6 55.9 54.7 s4.5 12.3 估計多元迴歸係數•707• PRED1 RESID1 37.7088 - 5.20861 43.2681 -0.16810 43.2681 - 1.56810 43.2601• 10.86810 43.2681 -1.16810 43.26日1. 0.23190 43.2581 0.53190 43.2681 0.93190 43.2681 0.33190 48.8274 5.37262 48.8274 - 5.12738 48. 8274 4.27262 48.8274 4.97262 48.8274 6.77262 48.8274 7.07262 48.8274 5. 87262 48.9274 $.67262 # RESIDUALS-LINEAR REGRESSION 6 肯 * * 0 -4 -6t * * --++-- -+- 21.031 26.590 32.150 37.709 43.268 48.827 PREDICTED VALUE-LINEAR REGRESSION
• 708• 第十二章多元迴歸與一般線性模型 NOTE:6 cbs hidden QUADRATIC REGRESS TON ANALYSIS FOR NEAR TESTER DATA Dependent Variable: FAARIC MEAR Analysis of Variance Source DF Sum of Squares Hean Square F Value Model Error C Total 45 47 4839.09302 169.74614 5009.63917 2419.94551 3.77214 641.532 Root MSE Dep Mean C.Y. 1.94220 34.92917 5.56039 R-sguare Adj R-ag 0.9661 0.9646 Parameter Bstimates Var iable IWTERCBP SPERD SPERD2 DF 1 1 1 Parameter Bstinate 63.139286 -0.705071 0.003277 Standard Error 6.12529508 0.06468583 0.00026096 z for HO: Parameter = 0 10.308 -8.326 11.663 variable INTERCEP SPEED SPERD2 Variable "E Label 1 Intercept 1 HACHINE SPEED 1 SPEED SQUARED ORS 1 2 3 6 SPEED 100 100 100 100 100 100 WEAR 23.0 23.5 24.4 25.2 25.6 26.1 FRBD2 25.4000 25.4000 25.4000 25.4000 25.4000 25.4000 Prob≥E 0.0001 Frob>Irl 0.0001 D.0001 0.0001 RESID2 ~2.40000 -1.90000 -1.00000 - 0.20000 0.20000 0.70000
12.3 估計多元迴歸係數•709• PRED2 25.4000 25.4000 25.7164 25.7164 25.7164 25.7164 25.7164 25.7164. 25.7164 25.7164 28.6543 28.6543 28.6543 28.6543 28.6543 28.6543 28.6543 28.6543 34.2136 34.2136 34.2136 34.2136 34.2136 34.2136 34.2136 34.2136 42.3943 42.3943 42.3943 42.3943 42.3943 42.3943 42.3943 42.3943 53.1964 53.1964 53.‡964 RESID2
• 710• 第十二章 OBS 44 45 46 47 48 多元迴歸與一般線性模型 SPRRD 200 200 200 200 200 WEAR 53.8 55.6 55.9 54.7 54.5 PRED2 53.1964 53.1964 53.1964 53.1964 53.1964 RESID2 0.60357 2.40357 2.70357 1.50357 1.30357 RESIDUALS-QUADRATIC REGRESSION 2 0 -2t* -4 -6 -8 -10 • * * * •-F1:-- --十 25 30 35 40 45 s0 55 PREDICTBD VALUE-QUADRATIC REGRESSION CUBIC RIGRESSION ANAL.YSIS FOR WEAR TESTER DATA Dependent Var iable: FABRIC WEAR Analysis of Var jance Source DF Sin of Squares Hean Sguare F Value Prob>F Hodel EIrOr C Total 3 44 47 4846.7日202 162.85714 5009.63917 1615.59401 3.70130 436.494 0.0001 Root KSE Dep Nean C.V. 1,92388 34.92917 5.50794 R-sguare Adj R-sg 0.9675 0.9653
• 12.3 估計多元迴歸係數 (•711• Parameter Estimates Variable INIERCEP SPEED SPEED2 SPEED2 .E 1 1 1 Variable INTERCEP SPEED SPEED2 SPEED3 DE 1 1 1 1 Parameter Estimate 18.872619 0.238477 -0.00320日 0.000014410 Variable Label Intercept MACHINE SPERD SPERD SQUARED SPEED CUBED SPEED 100 100 100 100 100 100 100 100 120 120 120 120 120 120 120 120 140 140 140 140 140 140 140 140 160 150 160 160 KEAR 23.0 23.5 24.4 25.2 25.6 26.1 24.8 25.6 26.7 26.1 25.8 26.3 27.2 27.9 28.3 27.4 28.0 28.4 27.0 28.8 29.8 29.4 28.7 29.3 32.7 32.1 31.9 33.0 Standard Error 33.00952220 0.69668199 0.00476113 0.00001056 T for HO: Parameter= 0 0.572 0.342 -0.674 1.364 Prob≥川 0.5704 0.733日 0.5040 0.1794 PRED3 25.0542 25.0542 25.0542 25.0542 25.0542 25.0542 25.0542 25.0542 26.2006 26.2006 26.2006 26.2006 26.2006 26.2006 26.2006 26.2006 28.9310 28.9310 28.9310 28.9310 28.9310 28.9310 28.9310 28.9310 33.9369 33.9369 33.9369 33.9369 RESID3 -2.05417 - 1.55417 -0.65417 0.14583 0.54583 1.04503 -0.25417 0.54583 0.49940 - 0.10060 -0.40060 0.09940 0.99940 1.69940 2.09940 1.19940 -0.93095 -0.53095 - 1.93095 - 0.13095 0.86905 0.46905 - 0.23095 0.35905 - 1.23690 -1.83690 - 2.03690 - 0,93690
•712. 第十二章多元迴歸與一般線性模型 PRED3 33.9369 33.9369 33.9369 33.9369 41.9101 41.9101 41.9101 41.9101 41.9101 41,9101 41.9101 41.9101 53.5423 53.5423 53.5423 53.5423 53.5423 53.5423 53.5423 53.5423 4 + * 0 -2 * -10+ L-----… --十 25 30 35 40 45 50 $5 FREDICTED VALUE-CUBIC REGRESSION
12.4 多元四歸中的推斷•713• 12.13 參見練習12.12 中的資料。假定試驗中另外一個變數是受到控制的,並且對於每個轉速,前四塊織品用0.2的濃度加了保護塗房,而後四塊織品用 0.4的濃度加了保護塗層。z,表示機器轉速,22表示塗層的濃度。用手頭的統計軟體擬合下面的模型。哪個模型看起來能提供更好的擬合?為什麼? 3=80+月 1+B +B 2+E 12.4 多元迴歸中的推斷線上性迴歸模型防+B +e中,我們對B。和及!進行推斷。同樣,我們對於一般線性模型(當然也包括多元迴歸),也考慮對於其中任何引數的推斷。 然而,在此之前,我們必須首先介紹決定係數 R’。決定係數 R2的定義和解釋與第十一章中的,2非常相似。(習慣上對於多元迴歸用R2,而對於簡單線性迴歸的平方誤差的縮減比例。例如,如果我們有一個三個自變基z1,2,23的多元回歸模型,並且R 5-22s=0.736,那麼,我們由 z1,2 和z3的變異性可以解釋y 的變異性的73.6%。確切地說, =SS(總和)一SS(殘差) SS總和其中 SS(總和)=】(y) 例 12.10 在例 12.8 的計算機輸出結果中找出 Rx。 解答我們所求的是 R-$9 =87.5%,而不是標有adj 的那個值。換一種方法,輸出結果表明,SS(總和)=682.00,SS(殘差)=85.17,由此我們可以得出 R二1=(682.00-85.17)/682.00-0.875。 在一個多元迴歸方程中,複決定係數 R2不小於任何一個單個變數的決定系數,除此以外,R2與單決定係數,,r 廣品,之間沒有一般的關係。如果所有自變數相互之間是完全不相關的,那麼 R2恰為所有單決定係數的和。換言之, 如果所有×是互不相關的,則用所有預測因子建立的模型的SS(迴歸)等於用每一個x所建立的簡單迴歸模型的SS(迴歸)的和。如果z之間是相關的,則很難把 1 2,“,Xk的總預測價值R -
•714• 第十二章多元迴歸與一般線性模型的相應值。 當自變之間相關時,有共線性(有時稱為復共線性)存在。在多元迴歸中,我們試圖分離各個預測因子的預測價值。當預測因子高度相關時,這樣做非常困難。 例如,假若我們要解釋地方房產銷售隨時間的變異,用國民生產總值(GDP)和國寮儲蓄收入(DI)作為預測因子。DI幾平恰好與GDP成比例,所以這兩個預測因子的相關性極高。現在你說,房產銷售中的變異性是更多地產生於GDP的變異性還是產生於DI的變異性呢?如果你能把們分開,那真算你走運!它們中的任何一個幾乎與兩個一起同樣地能解釋房產銷售中的變異。 共線性通常在某種程度上存在於多元迴歸的研究中。當各個x輕度相關時問題不大,但若相關很強,問題就嚴重了。因此,如果在一個迴歸研究中有共線性—事實上它通常在某種程度上存在—-那就不容易把綜合的R工j,分解成與各個x對應的分量。相關的x在解釋»的變異性時常常相互覆蓋,所以常常 (但不總是)有許多統計計算機程式輸出序列平方和。這些平方和,是當各個自變數接照你指定給程式的變數次序依次進入迴歸模型時,SS(迴歸)的增量,即新進入的自變量對迴歸平方和的貢獻。序列平方和非常依賴於變數進人模型的具體顧序。當然,這個麻須的製造者也是共線性。例如,如果迴歸研究中的所有變數是高度正相關的(就像在經濟資料中那樣),則無論第一個進入模型的自變數是哪一個,通常它都能解釋大部分的變異,而其餘的自變數的貢獻則很少。此時,對於任何,當給定所有其他的自變數時,其解釋能力(有時稱為那個z的單獨預測價值)是小的。當資料表現出嚴重的共線性時,確實很難分離出各個自變數的預測價值。 例12.11 下面是例12.6中資料的輸出結果,解釋其中的序列平方和。如果用x2和工1 依次作為預測因子,我們會得到相同的序列平方和嗎? HIB >Correlation ‘y'‘x1'‘x2'. x1 ×2 Y 0.922 0.156 ×1 0.000 HT>Regress 2x 2. The regression equat ion is
12.4 多元迴歸中的推斷 • 715• ¥= 39.0+ 0.983 ×1 +0.333 x2 Predictor Constant X1 ×2 Coef 39.000 0.9833 0.3333 Stdev 1.256 0.1538 0.3076 t-ratio 31.05 6.39 1.08 P 0.000 0.001 0.320 8= 3.768 R-sg =87.58 R-sq(adj) =83.3% Analysis of Variance SOURCE Regreas ion Error Total DF 2 6 8 SS 596.83 85.17 682.00 HS 298.42 14.19 F 21.02 P 0.002 SOURCE ×1 x2 DF 1 1 SEO SS 580.17 16.67 解答結果中標有SEQ SS的一列顯示,一個r」就解釋了,的總變差中的 580.17,在x,後增加2則解釋了y的總變差中的另外的16.67。在這個例子中,兩個自變數是完全不相關的,這是一個少見的情況。在這種情況下,把預測因子加入模型的次序無關緊要。 MTB >Regress 'g 2‘x2'‘x1’. The regression equation is Y= 39.0+ 0.333x2+0.983 x1 Predictor Constant ×2 x1 Coef 39.000 0.3333 0.9833 Stder 1.256 0.3076 0.1538 tratio 31.05 1.08 6.39 P 0.000 0.320 0.001 8=3.768 8-sg = 87.5% R-sq(adj) =83.3米 Analysis of Variance
•716• 第十二章:多元迴歸與一般線性模型 SOURCE Regression Error Total DF 2 6 8 SS 596.83 日5.17 682.00 HS 298.42 14.19 F 21.02 P 0.002 SOURCE ×2 x1 DE 1 1 SBQ SS 16.67 580.17 12.4節的思想在於迴歸係數和標準差s。的(最佳猜測)點估計。由於這些估計基於樣本資料,它們會在某種程度上有誤差,管理人員在解釋模型時也應該考慮到這種誤差。我們現在給出多元迴歸模型中偏斜率的檢驗。 首先,我們考慮多元迴歸模型中諸偏斜率(B1,B2, …,&)的一個總的零假設 (原假設)的檢驗。該零假設即Ho:8=B=•=及=0。由這個假設,不包含任何自變的迴歸模型具有完全的預測價值。它告訴我們,所有那些精心選擇的預測因子是絕對無用的。研究假設是很一般化的,即H。:至少一個B; 0。該假設只不過是說,在所有預測因子中,有某一個有一些預測價值。 檢驗統計量是第十一章中的F統計量。為了給出這個檢驗,我們首先定義y 關於x1, 2,⋯, &的迴歸平方和。我們再次記該平方和為SS(迴歸),也稱為SS (模型)或解釋了的平方和,它是y的預測值與平均值之間差的平方和。 定義12.2 SS(迴歸)=乙(3:-)2 SS(總和)=乙(y:-3)2 = SS(迴歸)+SS(殘差) 不像SS(總和)和SS(殘差),我們不把SS(迴歸)解釋成預測誤差項,而是把它解釋成為頂測值鄉;隨z的變化而變化的程度。如果SS(迴歸)=0,則預測的 y()值都相同。此時,關於z的資訊對於y的預測是無用的。如果SS(迴歸)相對於 SS(殘差)比較大,這就表明自變數1,*2•“,&有實際的預測價值。我們用均方而不是用平方和來表示檢驗統計基。同往常一樣,均方是平方和除以其自由度。 BoB==⋯=0=0 H:至少有一個8*0 T.S.: F= SS(迴歸)/k MS(殘差) R.R.idh=k,df=n-(k+1),當F>F。時,拒絕Ho. 檢查假定,得出結論。
12.4 多元迴歸中的推斷 71 例12.12 2.在下面重新列出的例12.11 的計算機輸出結果中找出SS(迴歸)。 b.找出F統計量。 c.我們是否可以放心地說自變數1和z2一起,至少有一定的預測能力? MTB >regress cl on 2 vars c2 c3 The regression eguation is Y= 39.0+0.9日3 ×1 +0.333x2 Predictor Constant xi x2 Coef 39.000 0.9833 0.3333 Stder 1.256 0.1538 0.3076 t-ratio 31.05 6.39 1.0日 P 0.000 0.001 0.320 8= 3.758 R-sg =87.5* F-sa(adj) = 83.3% Analysis of Variance SOURCE Regression ErTOr Total DF 2 6 8 SS 596.63 85.17 682.00 HS 298.42 14.19 F 21.02 P 0.002 解答 a. 輸出結果的方差分析表明,SS(迴歸)為596.83。 b.那裡也給出了 MS(迴歸)和MS(殘差)的值。MS(殘差)被標記為 MS(EPror)(MS(誤差)),這是常見到的另一個名字。 F-3優點-2.貨-2102 c.對於 df =2,db=6,a=0.01, 表中的F值為10.92。因此,我們有很強的依據(值遠小於0.01,為0.002)拒絕零假設,認為這些x合在一起至少有一定的預測價值。 子的知識而帶來的y的誤差平方和的減少。因為y關於z的迴歸解釋了y的總誤差平方和中的100R 1 2,%,
•718• 第十二章多元迴歸與一般線性模型剩下的1-R2部分與殘差平方和有關: SS(殘差)=(1-R -,)SS(總和) F檢驗統計量可以重新寫為該統計量要與自由度為df= 和df=n一(k+1)的F分佈的表值相比較。 例12.13 —-家大城市銀行研究其各支行中平均每筆賬目的大小(ACCTSIZE)與支行所在郵政編碼地區的人均收入(INCOME),商業賬號的數量(BUSIN)以及與之競爭的銀行支行數量(COMPET)之間的關係。資料用 Staistix 進行了分析,結果如下: CORREI ATIONS (PRARSON) BUSIN COMPFT INCCHE ACCTSTZE -0.6934 0.8196 0.4526 BUSIN COMPET -0.6527 0.1492 0.5571 UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OE ACCISIZE PREDICTOR VARIABLES COEFFICIEYTT STD ERROR SIUDENT'ST P VIF CONSTANT BUSIN GOMPET INCOME 0.15065 -0.00288 -0.00759 0.26528 0.73776 8.894E-04 0.05810 0.10127 0.20 -3.24 -0.13 2.62 0.8404 0.004日 0.8975 0.0179 $.2 1.4 4.3 R-SQUARED ADJUSTED R-SOUARED 0.7973 0.7615 RESID. MEAN SQUARE. (HSE) STANDARD DEVIATION 0.03968 0.19920 SQURCE REGRESSION DF 3 ss 2.65376 MS 0.88458 E 22.29 P 0.0000
12.4 多元迴歸中的推斷•719• RESIDUAL TOTAL 17 20 0.67461 3.32838 0.03968 a.給出多元迴歸預測方程。 b.用R的值檢驗假設Ho:B1=B2=B3=0(注意:n=21) 解笞 8.從輸出結果知,多元迴歸預測方程為 $=0.15085- 0.00288z1- 0.00759z2+ 0.26528zg b.基十R”的檢驗過程為 Ho:P=B2=B3=0 H:至少有一個B不為0 T.S.:F= (1-R3 0.2027/17 R.R.:對於df=3和df=17,F分佈的0.05臨界值為3.20。 由於F統計量的計算值22.29大於3.20,我們拒絕Ho,並認為有一個或更多的x有預測能力。這一點從值也可以得到: 值為0.0000,比0.05小得多。注意,我們算得的F值與輸出結果中給出的根同。 在這個F檢驗中拒絕零假設並不等於完事大吉。拒絕零假設只不過是說,確有依據表明在自變數中某些變基具有一定的預測價值,但這既不表明自變數與因變甘的關係有多強,也不表明哪些自變數是有用的。因此,接下來我們的任務就是作出關於每個偏斜率的推斷。 為了作出這些推斷,我們需要估計每個偏斜率的標準誤差。與往常一樣,對於任何基子樣本的估計,其標準誤差都表示這個估計有多麼準確。大多數迴歸的計算機程式都計算並顯示引數估計的標準誤差。偏斜率的標準誤差依賴於三個方面:殘差標準差,預測因子變差的大小,以及對應的自變數與其他自變數的相關程度。我們在下面給出的標準誤差的表示式對於考察共線性是有益的,但不太適合於用作計算。就把計算交給計算機做吧! 定義12.3 多元迴歸中B;的標準誤差的估計: 9B,= 的R2的值。注意,S為y關於x1,22,、 e的多元迴歸中的殘差標準差。
•720• 第十二章多元迴歸與一般線性模型與簡單迴歸中一樣,殘差標準差越大,係數估計的不確定性也越大。此外,預測因子的變異性越小,係數估計的標準誤差越大。上述標準誤差的最重要的應用在於用來說明共線性效應。如果一個自變數x,與另一個或兒個自變數高度共線性,由定X R; 以一個接近於0的數使標準誤差變得很大。所以,嚴重的共線性的一個重要的效應是導致偏斜率的估計有很大的標準誤差,即這些估計不很精確。 (標準誤差的平方)由於共線性而增加的程度。某些計算機軟體包輸出這個因子的值,由此我們可以看到其中的共線性問題的嚴重程度。如果VJF 是1,說明根本就沒有共線性。如果該值很大,比如10或更大,那麼共線性就是一個嚴重的問題。 對於任何偏斜率的估計,如果它有大的標準誤差,表示其可能有大的誤差。工j 的偏斜率B估計『當其他z都保持不變,而z;增加一個單位時的效應。如果z) 與其他x有很強的共線性,那麼當z;增加時,其他的z也會變化而不能保持拼量,因此,當z;與其他自變數嚴重共線時,估計 B;就很困難,就可能會有大的誤差。 每個偏斜率估計B;的標準誤差可以用於求B,的置信區間和對其作假設檢驗。 置信區間有熟悉的形式,即”估計加上或減去(表值)•(標準誤差的估計)”,其中的表俏是從自由度為 (k+1)的:分佈表中查得的。 定義12.4 母的置信區間為 B,-50/2 S月,≤月≤B+ to/zsg, 其中1a 2在自由度為n (k+1)的t分佈的右側尾部切下的面積為a/2。 例 12.14 對於例12.7中的資料,計算兩因子模型中的B,的95%置信區間。有關的輸出結果如下: •regress Y ×1 x2 Y Coef. std.Erz. t P>[t] [95 * Conf. Interval] ×1 ×2 COnS 3 10 1.970829 4.1833 1.183216 0.535 0.717 6.452 0.646 0.548 0.014 - 7,049526 - 14 99929 4.909033 9,049526 20.99929 15.09097 解答由上述結果:為1.00,其標準誤差為1.870829。在自由度為 df=31
12.4 多元迴歸中的推斷•721• -(k+1)=5-(2+1)=2的:分佈的尾部切下面積0.025的:值為4.303。置信區間為1.00-4.303(1.870829)≤B≤1.00+4.303(1.870829),或 7.050≤ B≤9.050。輸出結果中的置信區同保留了更多的小數位數。 例 12.15 在例12.12的輸出結果中找出z2的偏斜率的估計以及它的標準誤差。計算 B2的90%的置信區間。 HTB>Regress'y' on 2 var8x1、x2 The regression equation is Y= 39.0+0.983 x1 +0.333x2 Predictor Constant x1 x2 Coef 39.000 0.9833 0.3333 Stdev 1.256 0.1538 0.3075 t-ratio 31.05 6.39 1.08 P 0.000 0.001 0.320 解答 B2為0.3333,標準誤差(標有 Stdev)為0.3076;查表得:值為1.943 [尾部面積為0.05,自由度為9-(2+1)=6df]。所求的置信區間為0.33331.943(0.3076) B≤0.3333+1.943(0.3076)或 0.2644≤ B≤0.9310。 Ha:B=0的解釋關於B,的通常的零假設為Ho:B, =0。這個假設並不是說z;本身對預測沒有價值,而是說該自變數在其他自變基的基礎上對預測沒有附加的價值,即如果其他變數已經用在迴歸模型中,最後加入x;不會改進預測。Ho:B,=0的檢驗衡量.; 是否對於預測有附加的價值。H。的:檢驗總結如下。 關於風,的檢驗的小結 Ho:l. B≤0 2.8≥0 3.A=0 H:1.B≥0 2.月<0 3.成$0 T.S.it=例/9, R.R.:1.t≥1
• 722• 第十二章多元迴歸與一般線性模型 2.1≤t 3.1dl>ta/2 檢查假定並得出結論。 所有多元迴歸的程式都輸出這個檢驗統計量的值。 例 12.16 a. 用例12.14中的資訊檢驗Ho:B=0,取。=0.05,備擇假設為雙邊假設。 b.這個檢驗的結果與前面置信區間的結果是一致的嗎? 解筶 a.假設 Ho:B=0 H。:B的檢驗統計量為二隊/5=1.00/1.871=0.535。 由於自由度為5-(2+1)=2的:分佈的0.025分位數為4.303,我們不能拒絕H0,也就是說,z1沒有表現出在另一個自變數z2存在時有附加的預測能力。 b.95%的置信區間包含0,這也意味著對於該雙邊檢驗問題,在a =0.05 的水平上不能拒絕Ho:8=0。 例12.17 在例 12.15 的輸出結果中,找出檢驗Ho:B2 =0的:統計量。在常見的水平上,能支援 He:B2>0嗎? 解答:統計基的上方標有“ -ratio”。對下 z2,1統計量為1.08。與自由度6 和a=0.10對應的:表值為1.440,所以在a=0.10 的水平上不能拒絕 Ho。從另一方面來看, 值為0.320, 比a=0.10大,同樣也不能拒絕H0。 本章我們所討論的 F 檢驗和:檢驗是針對不同的零假設的。有時會有這樣的情況:F檢驗導致了拒絕Ho:B=B2=•=限=0,但沒有一個對於Ho:B;=0的:檢驗是顯著的。在這種情況下,我們可以說,迴歸方程作為一個整體具有預測能力,但我們找不出哪個變數具有預測能力。記住每一個:檢驗是檢驗單獨的預測價值的。給定所有其他變數,對於預測來說這個變數附加了價值嗎?當兩個或多個預測因子高度相關的時候,經常發生這樣的事,即雖然所有z一起被證實是有用的,但沒有x;有顯著的、單獨的預測能力。如果我們試圖用國民生產總值和畫家儲蓄收入來預測房產的銷售,我們就不大可能在給定 DI 時找到GDP的附加價值,或者在給定 GDP 時找到 DI 的附加價值。
. 12.4 多元迴歸中的推斷 • 723• 練習 12.14 參見練習12.9的計算機輸出結果。重新列出如下。 •regress Sale Promo Devel Research SOURCE. SS df MS MODEL Residual 43901.7677 13136.2323 3 20 Total 57038.00 23 - - 14633.9226 656.811614 -- 2479.91304 SALES Coef. std.Err. t Nunber of obs = E(3,20) Prob≥F R-square Adj R-square Root HSE 24 = = = 22.28 0.0000 0.7697 0.7351 = 25.628 --1-- [ss * Cont. Interva1] Promo Devel Research CONS -61.17526 28.10759 50.94102 - 1.201 -0.904 0.244 77.46689 194.7297 -167.4364 45.08585 -144.495 57.10499 - 177.6063 830.3849 8.找到F統計量。 b.沒有總預測價值的假設在水平。=0.05上能被拒絕嗎? c.找出對於促銷(PROMO)的係數角的:統計量。 d. 檢驗研究假設B 0,取a=0.05。 e.給比(d)中檢驗的結論。 12.15 找出前面練習(d)中檢驗的p值,檢驗是單側的還是雙側的? 12.16 總結練習12.14 中的:檢驗。你檢驗的零假設是什麼? 12.17 下面的資料是人工構造出來的,用來說明相關和不相關的自變數的效應。 17 1 te: v: 1 21 1 2 1 26 1 3 2 22 1 4 2 27 2 1 3 25 2 2 3 28 2 3 34 29 4 37 38 38 3 1 2 3 4 5 5 6 這些資料的輸出結果如下: MTB >Regress Y' 3'xw'w. The regression equation is Y=10.0+5.00X + 2.00W+1.00T
•724• 第十二章多元迴歸與一般線性模型 Predictor Constant Coef 10.000 5.000 2.000 1.000 Stdev 5.766 6.895 1.528 3.416 8=2.646 R-ag= 89.5* Anaiysis of Variance t-ratio 1.73 0.73 1.31 0.29 R-sq(adj) = 65.6* P 0.121 0.489 0.227 0.777 SOURCE Regression Error Total SOURCE X DF 3 8 11 DF 1 1 1 sS 479.00 56.00 535.00 KS 159.67 7.00 F 22.81 P 0.000 SEQ SS 392.00 66.40 0.60 8.找出 MS(迴歸)和 MS(殘差)。 b.F 檢驗統計量的值是什麼? c.確定該F檢驗的值。 d.從F 檢驗可以得到什麼結論? e.計算z的真實係數的95%置信區間。 12.18 在練習12.11 中,我們曾經把每條支線上的收入作為小城市人口和它到空中樞紐的航空距離的函式進行預測。下面重新列出由JMP軟體計算的結果。是否有證據清楚地表明兩個自變數一起對於預測收入至少有一些價值? Response:Revenue Summary of Bit RSquare RSquare Adj Root Mean Square EIrOr Nean of Response Observations (or Sizn Ngts) Paraneter Fstimates 'Term Estimate Intercept 86.736862 Air miies 0.2922116 LPopuiation 1.5310653 0.805479 0.785003 27.7539 252.5 22 Std Error 27.74907 0.120336 0.174004 t Ratio 3.13 2.43 8.00 Prob≥[t] 0.0056 0.0253 0.0000
12.4 多元迴歸中的推斷•725• Whole-Model Test,L Analysis of Variance SourCe DE Hodel 2 ErrOr 19 C rotal 21 Sum ot Sqiares 60602.202 14635.298 75237.500 Hean Sqzare 30301.1 770.3 E Ratio 39.3378 Prob>E 0.0000 12.19 在航空支線的迴歸問題中,是否有很強的依據表明每一個自變數在給定另一個自變數時,都有附加的預測價值? 12.20 用練習12.18 中航空支線問題的輸出結果,計算兩個偏斜率的90% 的置信區同。有關的白由度在輸出結果中標有“Error”的地方給出。 12.21 一家金屬加工廠用多元迴歸方法進行了一項能源的研究。因變數是 >=每天的能源耗費(以幹美元為單位),自變數為z1=一天中加工的金屬的噸數, 2= 平均外部溫度-60°(與工會的合同要求當外界溫度達到60時,要開冷氣), 3 所使用的機械的瓦特數、 4= 1 2•用Statistix 對資料進行了分析,' 部分輸出結果如下(z」在輸出結果中表示為METAL,2 表示為 TEMP,3表示為 WATTS, z4 表示為METXTEMP): CORREIATTONS (PEARSON) HIETAL. METXTEHP TEMP NATTS RNERGY 0.6128 0.4929 0.4007 0.5775 METAL METXTEP TEME 0.1094 -0.0606 0.2239 0.9831 0.3630 0.3529 UINWE.TGHTED LEAST SOUARES LINEAR RRGRESSION OE PNTERSY PREDICIOR VARIABLES COEHE ICIENT SID ERROR STUDEHT'ST P VIE CONSTANT HIETAL. TENER NATTS METXYEME 7.20439 1.36291 0.30588 0.01024 - 0.00277 17.5322 0.92438 1.62104 0.00473 0.07722 0.41 1.47 0.19 2.16 -0.04 0.6855 0.1559 6.8522 0.0427 0.9717 8.8 250.0 1.5 246.4 R-SOUARED 0.6636 RESID. MEAN SQUAFE (HSE) 6.51555
• 726、 第十二章多元迴歸與一般線性模型 ADTUSTED R-SQUARED 0.5963 STANDARD DEVIATION 2.55255 SOURCE DF SS HS F REGRESSION RESIDUAL TOTAL. 4 20 24 257.048 130.311 387.360 CASES INCLLIDED 25 HISSING CASES O 64.2622 6.51555 9.86 0.0001 2.寫出估計後的模型。 b.總結各個:檢驗的結果。 c.對於 XA,即 METXTEMP的係數,計算其95%的置信區間。 d.輸出中 VIF列表明瞭付麼樣的共線性問題? 12.5 迴歸係數子集的檢驗上一節中,我們給出了檢驗一個迴歸模型中所有迴歸係數的 F檢驗以及檢驗一個係數的:檢驗。還有一個F檢驗,用來檢驗真實係數中的某幾個為0這樣的零假設,即給定其他的預測因子後,這幾個預測因子沒有價值。例如,如果我們要基於國家的最低工資、國察的通貨膨脹率、地區的人口密度和地區中中檔房屋租價來預測各個地區當前的工資額度,那麼就可能要檢驗一下在給定有關國家的兩個變數後,與地區有關的兩個變數(密度和房價)是否增加了預測的精度。 此時的零假設為“密度和房價的真實係數為0”。根據這個零假設,一旦最低工資和通貨膨脹率作為預測因子包括在模型中,密度和房價這兩個自變數一起對與預測就沒有價值了。 檢驗的思想是,比較當密度和房價包含或不包含在預測方程中時的SS(迴歸) 或R2。當它們包含在模型中時,R2將至少與不包含它們時的值一樣大。類似地, 完全模型的SS(迴歸)比較大。上述零假設的F 檢驗是要檢驗迴歸平方和的這一增量是否比在零假設下所能預期的大一些。一般地,以k記預測因子的總數,B為其係數沒有被假設為0的預測因子的個數(g<),則一8表示其係數被假設為 0的預測因子的個數。關鍵是要求出用所有預測因子(完全模型)和只用零假設中沒有出現的g個預測因子(簡略模型)時的SS(迴歸)。一旦算得它們的值,檢驗可按下面的步驟進行。為了記號簡便,我們假定簡略模型中包含 AL,Bz•,B,從而包含在零假設中的是後面的那些變數。 預測因子子集的 F檢驗 Fo:Aatl = Ba+z=:=B=0
12.5 迴歸係數子集的檢驗•727• H。:Ho不真 T.S.:F=LSS(回堅,密舍)28迴歸,簡略)!(一82 SS(迴歸,完全) [ (+1)] K.K.: >F,這裡,F。在自由度為df=(g)和d=[n (k+1)] 的F分佈右側尾部切下面積a。 檢查假定,得到結論。 例 12.18 某州漁業委員會為了在湖中重新放養適當數量的魚苗,要估計從給定的湖中一個季度內鱸魚捕撈的數量。委員會可以透過在季度前後採用大規模“拉網式”的方法很準確地得到季度內的捕撈數量,但這個方法耗費巨大,日常無法實施。因此,委員會抽取了一些湖的樣本,並記錄下y:季度內的捕撈量(千條/每平方英里湖面),工:每平方英里湖面岸邊居民數,z2:按平方英里計算的湖的大小,29=1 如果該湖對公眾開放,否則取值為0,z4:一個結構指標(結構有雜草湖床(weed beds),沉降樹(sunken trees),地面陷落(drop-offs)以及其他鱸魚棲息之地),資料如下。 y 3.6 0.8 2.5 2.9 1.4 0.9 3.2 2.7 2.2 5.9 3.3 2.9 3.6 2.4 0.9 2.0 1.9 3.1 2.6 3.4 92.2 86.7 80.2 87.2 64.9 90.1 60.7 50.9 86.1 90.0 80.4 75.0 70.0 64.6 50.0 50.0 $1.2 40.1 45.0 50.0 X2 0.21 0.30 0.31 0.40 0.44 0.56 0.78 1.21 0.34 0.40 0.52 11.66 1.78 0.91 1.10 1.24 1.47 2.21 2.46 2.80 0 0 0 0 0 0 81 26 52 64 40 22 90 74 50 61 40 22 St 1
• 728• 第十二章多元迴歸與一般線性模型委員會確信z1和x2 對於預測y都是重要變,因為這兩個變其反應了湖上捕撈的強度大小。這就有了一個問題:z3和z。作為附加的預測因子是否有用? 因此,擬合了包含和不包含z3和z4的迴歸模型(只含各個變數的線性項)。部分 Minitab 的輸出結果如下: HTB>regress 'catch' on 4 variables'residenc''size''access''structur' The regression equat ion is catch - 1.94+ 0.0193 residenc + 0.332 size + 0.836 access + 0.0477 structur Predictor Constant residenc size access atructur Coef -1.9378 0.01929 0.3323 0.8355 0.047714 Stdev 0.9081 0.01018 0.2458 0.2250 0.005056 t-ratio - 2.13 1.90 1.35 3.71 $.44 P 0.050 0.077 0.196 0.002 0.000 8=0.4336 8-s9 =8日.2* R-sq(adj) =85.0% Analysis of Var iance SOURCE Regression ErTOr Total DF 4 15 19 SS 21.0474 2.8206 23.8680 HS 5.2619 0.1880 • 27.98 P 0.000 SOURCE residenc size access structur DF 1 1 1 SEQ SS 0.2780 1.5667 2.4579 16.7448 MTE >regress catch' on 2 vars 'residenc''size' The regression eqvation is catch= -0.11+ 0.0310 residenc + 0.679 size Predictor Constant residenc Coef -0.107 0.03102 Stdev 2.336 0.02650 t-ratio -0.05 1.17 P 0.964 0.258
12.5 迴歸係數子集的檢驗•729• 0.287 size 0.6794 0.6178 1.10 6= 1.138 R-$9 =7.7 R-ag(adj) =0.0* Analysis of Variance SCURCE Regression Erzor Total,E 2 17 19 SS 1.845 22.023 23.868 HS 0.922 1.295 F 0.71 P 0.505 8.寫出完全和簡略模型。 b.寫出檢驗“省略的變數沒有附加的預測價值”時的零假設。 c.對於上述零假設進行F檢驗。 解箸 a.完全和簡略模型分別為 Y= Ba+ Bxi + Bztiz + Bsais + Baxia + Ei 和 Yi= Bo + Biz + Bxi2 +Ei 基於樣本資料的相應的多元迴歸預測方程為完全: =-1.94+0.0193 +0.332z2+0.836x3+0.0477 4 簡略: =-0.11+0.0310z1+0.679 z2 b.zs和zA沒有附加預測能力的零很設為 Ho:Bs=Ba=0. c.對於(b)中H。的檢驗統計量要用到SS(迴歸,完全)=21.0474,SS(迴歸, 簡略)=1.845,SS(殘差,完全)=2.8206, =4,8=2以及 =20: T.S.:F=LSS(迴歸,密舍)一登迴歸,簡略)11(4-2) SS(迴歸,完全)/[20-5] =(21.0474~1:845)/2 = 51.059 2.8206/15 自由度為2和15的表億F0.01為6.36,檢驗統計量的值比表值大出很多, 所以我們有充分的依據斷言開放和結構兩個變數具有附加的預測價值(p <0.001)。 練習 12.22 練習12.9的輸出結果如下。
• 730• 第十二章多元迴歸與一般線性模型 a.找出 R’的值,並用它來確認 F 統計量的計算緒果。 b. 你能否斷言這些自變數至少有一些預測能力? .regress Sales Promo Devel Research SOURCE | SS df MS MODEL Residual 43901.7677 13136.2323 3 20 --- 14633.9226 656.811614 Total 57038.00 23 2479.91304 Manber of obs = F(3,20)= Prob>FH R-square = Adj R-sguare = Root HSE = 24 22.28 0.0000 0.7697 0.7351 25.628 SAL.ES Coef. Std.Brr. t P≥Itl [95 % Conf,Interval] Promo Deve1 Research cons 136.0983 -61.17526 -43.69508 326.3893 28.10759 50.94102 48.3229日 241.6129 4.842 - 1.201 -0.904 1.351 0.000 0.244 0.377 0.192 77.46689 194.7297 -167.4364 45.08585 -144.495 57.10489 - 177.6063 日30.3849 12.23 輸出如下: 練習12.22 中資料的另一個迴歸分析只用了開發費用作為自變數。 • regress Sales Promo SOURCE! SS af MS HODEL Residual 39800.7248 17237.2752 1 22 Total| 57038.00 23 -— 39800.724日 783.512509 -—一 2479.91304 Mumber of obs = F(1,22)= Prob >FR-square - Adj R-sguere= Root MSE 24 50.80 0.0000 0.6978 0.6841 27.991 SAL.ES Coef. Std. Err. t P>It [95% Cont. Interval] Eromo cons 78.24931 - 0-6490769 10.97888 44.58506 7.127 - 0.015 0.000 0.989 55.48051 101.0181 - 93.11283 91.91458 8.找出該簡略模型的R2的值。 b.用a=0.01實施F 檢驗的各個步驟。 c.我們是否能得到這樣的結論,即省去的自變董對於預測至少有一些價值? 12.24 基於例 12.13中的資料建立了兩個模型,結果如下,其中的變批
12.5 歸係數子集的檢驗•731 BUSIN, COMPET 和 INCOME 分別表示商業帳號數量,競爭銀行數以及人均收人。 CORRELATIONS (PEARSON) ACCISIZE BUSIN COMEET BUSIN COHPET INCOME -0.6934 0.8196 0.4526 -0.6527 0.1492 0.5571 CASES INCL.UDBD 21 MISSING CASES O (Model 1) UNWE IGHTED LEAST SOUARRS LINEAR REGRESSION OF ACCTSTZE PREDICTOR VARIABLES CORFFICIENT STD ERROR STVDENT”ST P CONSTAHT BUSIN COHPET INCOME 0.15085 -0.00288 - 0.00759 0.26528 0.73776 8.894E-04 0.05810 0.10127 0.20 -3.24 -0.13 2.62 0.8404 0.0048 0.8975 0.0179 R-SQUARED ADJUSTED R - SQUARED 0.7973 0.7615 RESID.HEAN SOUARE (MSE) STAHDARD DEVIATION SOURCE REGRESSION RESIDUAL, TOTAL DE 3 17 20 ss 2.65376 0.67461 3.32839 MS 0.88458 0.03968 F 22.29 P 0.0000 (Hodel 2) UNWE.IGHTED LEAST SQUARES L.INEAR RRGIKRESSION OE ACCTSI2E PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDEHT ST P CONSTANT INCOME 0.12407 0.20191 0.96768 0.09125 0.13 2.21 0.8993 0.0394 VIF 5.2 7.4 4.3 0.03968 0.19920 R-SQUARED 0.2049 RESID. HEAN SOUARE (MSE) 0.1392日
•732• 第十二章多元迴歸與一般線性模型 ADJOSTED R - SQUARED 0.1530 STANDARD DEVIATION 0.37321 SOURCE DF SS HS E P REGRESSION RESIDUAL TOTAL 1 19 20 0.68192 2.64645 3.32838 0.68192 0.1392日 4.90 0.0394 CASES INCLUDED 21 HISSING CASES O a. 找出只用 INCOME(收入)作為預測因子的簡略模型的R2值。 b.找出完全模型的 R2值。 c.比較(a)(b)中的兩個值。只用變 INCOME 能給出一個充分的擬合嗎? 12.25 基於輸出中的平方和計算前一練習中的F統計量,並解釋F檢驗的結果。 12.26(社會)一家汽車籌資公司使用一個相當複雜的愾車貸款信用積分系統。填寫所需的問卷很費時間,這不僅花費銷售工作人員的時間,也冒著疏遠顧客的風險。公司決定看一看是否可以用三個變數(年齡、月家庭收入以及償還債務所佔收入的比例)能夠對信用積分進行合理地近似。收集了由500份申請組成的一個樣本的資料(沒有明顯的偏差),計算了各份申請的複雜系統下的積分作為多元迴歸中的因變數。利用JMP進行計算,部分結果如下。 8.這三個預測因子解釋了積分變差中的多大部分? b.用這個數驗證總體F統計量的計算。 c.這個 F 檢驗能否清楚地表明這三個預測因子對於積分的預測是有價值的? Response: Rating acore LSunnary of Fit RSquare RSqvare Adj Root Hean Sguare Brror Hean of Response Dbservations (or Sum Wgts) Parameter Estimates Term Intercept Age Honthly income Debt fraction 0.979566 0.979443 2.02339日 65.044 500 Estimate 54,657197 0.0056098 0.0100597 -39.95239 Std Brror 0.634791 0.011586 0.000157 0.883684 t Ratio 86.10 0.48 64.13 - 45.21 Prob>[t] 0.0000 0.6265 0.0000 0.0000
12.5 迴歸係數子集的檢驗 •733• Etfect Test Source Age Honthlz income Debt fraction Whole- Model Test Nparm 1 1 1 DE 1 1 1 Sum of Squares 0.960 16835.195 8368.627 F Ratio 0.2344 4112.023 2044.05 Prob>E 0.6285 0.0000 0.0000 mg6084 S036.40'56 60'70 80g0 100 Rating score Predicted Analysis of Variance Source Model †Error iC Total DF 3 496 499 Sum of Squares 97348.339 2030.693 99379.032 Mean Square 32449.4 4.1 F Ratio 7925.829 Prob>F 0.0000 只用月收入變數對倍用積分資料重新進行了分析。JMP 的輸出結果 12.27 如下所示。 Response: Rating score Summary of Fit] RSquare RSguare Adj Root Mean Square Brror Hean of Response Observations (or Sum Wgts) 0.695261 0.895051 4.571792 65.044 500 丶
•734. 第十二章多元迴歸與一般線性模型 Lack of Fit Paraneter Bstimates] ITerm Estimate std Error t Batio Erob≥!t Intercept 30.152827 0.572537 52.67 0.0000 Monthiy income 0.0135544 0.000208 65.24 0.0000 x.在去掉年齡和債務比例這兩個預測因子後,迴歸平方和減少了多少? B. •旦給定收入變數,年齡和債務比例這兩個變數增加的預測價值在通常的水平上是顯著的嗎? 12.281工程)一家化學公司試驗在兩種催化劑的不同用量下的產量。在催化劑1的五個水平和催化劑2的四個水平的搭配上測量了產量。擬合一個二階模型來近似描述預想的非線性關係,其中各變數的定義為: 一產基, 1一催化劑1 的用量, 2=催化劑2的用量,z3,x=2172, s=。迴歸分析的部分結果如下(結果中 1、 2、 3、 4、2 分別表示 Catl、Cat2、@Cat1Sg、@Cat1Cat2、@ Cat2sq)。 Dependent variable:xield Mul tiple Regression Analysis Table of Estimates Standard Error 4.3905 2.01212 2.73977 0.301968 0.319573 0.50529 t Value 11.39 3.30 2.67 -4.08 -2.42 -2.33 Constant Cat1 Cat2 @Cat1Sq @CatiCat2 @cat25g Estimate 50.0195 6.64357 7.3145 -1.23143 -0.7724 - 1.1755 R-squared = 86.24* Adjusted R- squared = 81.33 8 Standard error of estination = 2.25973 Analysis of Variance Source Hodel EIrOr Sum of Squares 448.193 71.489 D.E. 5 14 Mean Square 89.6386 5.10636 P Value 0.0000 0.0052 0.0183 0.0011 0.0299 0.0355 F-Ratio 17.55 P Value 0.0000 .
12.5 迴歸係數子集的檢驗•735• Tota1(corr.) 519.682 Source Cati Cat2 @cat1$g @Cat1Cat2 @cat2sg Model Sun of Squares 286.439 19.3688 84.9193 29.8301 27.636 448.193 19 Conditional Sums of Squares D.F. 1 1 1 1 1 5 Hean Square F- Ratio 286.439 19.3688 84.9193 29.8301 27.636 56.09 3.79 16.63 5.84 5.41 P Value 0.0000 0.0718 0.0011 0.0299 0.0355 Multiple Regresaion Analysls Dependent variable: Yield Estimate Table of Estimates Standard t Error Value Constant Cat1 Cat2 70.31 -2.676 -0.6802 2.57001 0.560822 0.70939 27.36 -4.77 - 1.24 R-sqvared = 58.85 8 Adjusted R- squared = 54.00* Standard error of estimation - 3.54695 Analysis of Variance Source Sum of Squares D.F. Mean Sqvare Nodel Error Total(corr.) 305.808 213.874 519.682 2 17 19 152.904 12.5808 a. 寫出估計後的完全模型。 P Valne 0.0000 0.0002 0.2315 F - Ratlo 12.15 P Value 0.0005
•736• 第十二章多元迴歸與一般線性模型 B.寫出估計後的簡略模型。 <找出完全模型和筒略模型的R2的值。 d. 有無令人信服的證據表明模型中的二階項改進了模型的預測能力? 12.6 用多元迴歸進行的預測多元迴歸模型的一個重要應用是在給定z變數的值以後,預測相應的»值。 最優猜測預測很簡單:只要把z的值代入估計後的迴歸方程即可。在這一節中, 我們討論有關的標準誤差。 與簡單迴歸一樣,對於給定的z值,»的預測值可以用兩種方式解釋。首先, 該值可以認為是對E(y)的一個最佳猜測,這裡E(y)為z取給定的值時,y的無窮多個觀測值的平均值。另一種解釋,通常也是更感興趣的解釋是,該值是對十有給定的值的個體的y的預測值。不論哪種解釋,標準誤差的計算都需要矩陣代數,我們在本書中對此不做要求。 計算機程式通常給出個體y值預測的標準誤差。雖然這個資訊也可以用來求E(y)的估計的標準誤差,但往往更關心的是個體y值的預測。在多數計算機程式的輸出結果中,均值的預測區間稱為置信區間;而把個體值的預測區間稱為預測區間。預測中加上或減去的項可以由標準誤差乘以自由度為df=n -(k +1)的一個:表值得到。實際上,許多計算機程式直接給出加上或減去的項。作為一個租略的近似,我們可以用2 se來表示一個個體值的預測誤差限。 例 12.19 一冢食品廠的廣告部經理要建立一個方程,以基於兒童電視節目中的廣告費用(c),白天電視節目中的廣告費用(d),報紙中的廣告費用(n)預測銷售量(s)。 收集了前30個月的月份資料(除以價格指數以控制通貨膨脹的影響),擬合了一個多元迴歸模型,計算機輸出結果如下。 HTB>regress c1 3 c2-c4; SUBC> predict at 31 5 12. The regression equation is s= 0.053+0.00562 c+0.0184 d-0.00600n Predictor Constant c Coef 0.0526 0.005618 Stdev 0.1374 0.002930 t-ratio 0.38 1.92 P 0.705 0.066
12.6 用多元迴歸進行的預測 • 737. d n 0.01841 -0.005996 0.01211• 0.004362 1.52 -1.37 0.141 0.181 s+ 0.04736 R-sg + 30.8* R-sq(adj) = 22.9% Analysis of Variance SOURCE Regression Error Total DE 3 26 29 SS 0.026003 0.058317 0.084320 MS 0.008668 0.002243 F 3.86 P 0.021 SOURCE ¢ d n 1 1 1 SEQ SS 0.000330 0.021434 0.004238 Fit 0.24686 Stdev.Fit 0.01998 95%C.I. (0.20579,0.28794) 95%E.I. (0.14118,0.35255) 2.寫出迴歸方程。 b.找出c=31,d=5,1 12時的預測值。找出E(y)的95%置信區間的上限和下限,以及個體y值95%的預測上限和下限。 ‘解答 • a.由標有“Coef”的那一列給出迴歸方程為 0.0526+ 0.005618c+ 0.01841d- 0.005996n b.y的預測值上面標有“Fit”。如同把c=31,d=5,n=12代入方程中所能得到的那樣,的預測值為0.24686。均值 E(y)的95%置信區間在結果中標有“95%C.1.”的地方給出,即(0.20579,0.28794),而個體y值95% 的預測下限和上限分別為0.14118 和 0.35255。 多元迴歸中的外推比線性迴歸中更為微妙。在簡單迴歸中,外推發生在對數據範圍以外的z值預測其»值的情形。在多元迴歸中,我們不僅要關心各個單個預測因子的範圍,而且還要考慮幾個預測因子一起的值的集合。用一個多元迴歸模型預測一位30歲的中層管理人員的工資,或者預測一位有25年工作經驗的中層管理人員的工資可能相當合理的,但用迴歸來預測30 歲的有25年工作經驗的中層管理人員的工資就不合理了!外推不僅與用於建立模型的各單個z;預測
•738• 第十二章多元迴歸與一般線性模型因子的範圍有關,而且還與z;的相關性有關。在工資預測的例子中,顯而易見,年齡和經驗是止相關的,所以小年齡與多年經驗的組合在資料中不會出現。當用多元迴歸進行預測時,我們必須考慮,每個單個變數的值是否是合理的,而且還要考慮所選擇的預測因子值的組合是否是合理的。 例 12.20 州漁業委員會希望用例12.18中的資料來預測每平方英里8個居民,0.7平方英里大小,對外開放變數為1,結構指標為55的一個湖中的捕撈量,以及各變數值分別為55,1.0,1和 40的另一個湖中的捕撈量。Minitab 的輸出結果如下: MTB >regress catch' on 4 variables residenc''size' 'access''structur'; SUBC >predict at 8 .7 1 55; SUBC>predict at 55 1.0 1 40. The regresgion equvation is catch= - 1.94 + 0.0193 residenc + 0.332 size + 0.836 accesa + 0.0477 structur Predictor Constant residenc size access structur Coef - 1.9379 0.01929 0.3323 0.8355 0.047714 Stdev 0.9081 0.01018 0.2458 0.2250 0.005056 t-ratio -2.13 1.90 1.35 3.71 9.44 P 0.050 0.077 0.196 0.002 0.000 • 8= 0.4336 R-sq =88.2米 R-sq(adj) =65.0% Fit 1.9090 2.1998 stdev.Fit 0.6812 0.1850 95 * C.I. (0.4567.3.3613) (1.0054,2.5941) 95% E.I. (0.1874,3.6306) Xx (1.1947,3.2049) x dienotes a row with X values avay from the center Xx denotes a row with very extrene X values 給出兩個湖的捕撈量的95%的預測區間。為什麼第一個預測區間比第二個寬那麼多? 解答預測區間上面標有“95% P.I.",對於第一個湖,預測區間為(0.1874,
12.6 用多元迴歸進行的預測•739, 3.6306),對於第二個湖,為(1.1947.3.2049)。第一-個區間帶有一個警告資訊,說是x的值很極端(該資訊是由計算軟體給出的,標有XX記號,譯者注)。如果我們回過頭來檢查一下資料,就會發現沒有一個湖每平方英里的居民數接近8。因此, 預測是個嚴重的外推,這使得預測區間很寬。在本例中,問題出自一個預測因子,其餘的z值都在資料的範圍內。 練習 12.29 基於練習12.17中的資料進行了一項預測。回憶從1變到3,2e 從1唸到4,從1變盜。下面是 Minitab 的輸出結果: MTB>Correlationgxw x x v Y 0.856 0.402 0.928 x w 0.000 0.956 0.262 MIB>Regress 'yi 3'x'‘w''v's SUBC >Predict at x 3 w 1 v6. The regression eqvatlon is Y=10.0+5.00x+2.00w+ 1.00v 8=2.646 R-$9 =89.5% R-sq(adj》 = 85.6* Fit 33.000 stdev.Fit 4.077 95*C.I. (23.595,42.405) 95%P.I. (21.788.44.212) XX x denotes a row with X values avay from the center Xx denotes a row with very extrene K values 找出95%的預測區間。解釋為什麼 Minilab 給出“很極端的 X值”的警告。 12.30 參見練習12.28 中化學公司的資料。基於有和沒有二階項的模型對 X1 =3.5,z2=0.35(觀察點21)以及 z1=3.5, z2=2.5(觀察點22)時的產量預測值進行了計算。Execustat 的輸出結果如下: Hultiple Regression Analysis Dependent variable: Yield
•740• 第十二章多元迴歸與一般線性模型 Table of Estimates Constant Cati Cat2 @cat1$q @CatiCatz @Cat2sa Estimate 50.0195 6.64357 7.3145 - 1.23143 - 0.7724 - 1.1755 Standard EzrOr 4. 3905 2.01212 2.73977 0.301968 0.319573 0.50529 t Value 11.39 3.30 2.67 - 4.08 -2.42 -2.33 Value 0.0000 0.0052 0.0183 0.0011 0.0299 0.0355 R-squared =86.24% Adjusted R-sgvared = 81.33 8 Standard error of estimation = 2.25973 Table of Predicted Values (Hissing Data Oniy) Row Predicted rield 95.00% Prediction Linits Lower Upper 95.00米 Confidence Limits Lower Uipper 21 22 59.926 52.3679 54.7081 57.0829 65.1439 67.6529 57.993 60.2605 61.8589 64.4753 Huitiple Regression Analysis Dependent variable: Yield Table of Bstimates Standard Error 2.57001 0.560822 0.70939 t Value 27.36 -4.77 -1.24 Value 0.0000 0.0002 0.2315 Constant Catl Cat2 Estimate 70.31 -2.676 - D.B802 R-sqvared = 58.85 8 Adjusted R-squared = 54.00 % Standard error of estimation r 3.54595
12.7 比較幾條迴歸線的斜率 • 741• Row 21 22 Eredicted Yield 57.9633 58.7435 Table of Predicted Values (Hissing Data Only) 95.008 Prediction Limits Lower Upper 50.028 65.6986 51.0525 66.4345 95.00% Confidence Linita Lower 55.5416 56.9687 Upper 60.185 60.5183 母.找出在迴歸模型 =50.0195+6.6436z1+7.3145z2 - 1.2314z) - 0.7724z122-1.1755z23下個體預測的9S%預測區間。 b.找出在迴歸模型 =70.3100-2.6760x, -0.8802z2下個體預測的95%預測區間。 c.在(a)中模型下的預測區間比(b)中模型下的預測區間是否窄的多? 12.7 比較幾條迴歸線的斜率這個問題是在既有定性自變數又有定量自變數時建立一個多元迴歸模型這樣一個一般問題的特例。說明這個特殊問題的最好的辦法是舉一個例子。 例12.21 研究人員要比按兩種藥品(A和B)的不同劑量對於老鼠響應的影響。研究採用了一個由60只老鼠構成的樣本,這些老鼠處於特的緊張狀態。把它們隨機地分為兩個大小相等的組,第一組的老鼠接受約品 A, A 有三個水平(5,10和 20mg),每個水平隨機地分配十隻老鼠。同樣地,第二組中的30只老鼠接受藥品 B,B 有三個水平即5,10和20mg,每個水平隨機地分配十隻老鼠。每隻老鼠都接受了給它指定的藥劑,30分鐘觀察期過後,給每隻老鼠的焦急表症打分,分數從0 到30。假定焦急得分是藥物劑量的線性函式,寫出聯絡老鼠得分與兩個自變數 “藥品”和“劑量”的模型。解釋的其中的各個B。 解答對於這個試驗,我們有一個定性變基(藥品)和一個定量變數(量)。令z1 表示劑量,則我們有模型 3=B0+BIX1+ BX2 +BZIX2+E 其中 X1= 劑量 2= 1 如果為產品B,x2 =0 否則
•742• 第十二章多元迴歸與一般線性模型在此模型下,y的期望值為 E(y)=Bo+ PIx1+ B2T2 + B3E182 於藥品 A和藥品 B,分別代入z2=0和z2=1,我們得到對於給定的劑基,老鼠焦急得分的期望值為藥品 A:E(y) = Bo+Bx1 藥品A:E(y)=Bo+B1x1+B+B 1=(B+B)+(肚+B)x1 這兩個期望值表現為線性迴歸直線。模型的引數可以用這些直線的截距與科率來解釋。具體說來, Bo:藥品 A 迴歸直線的 y截距, B:藥品 A 迴歸直線的斜率, Bz:藥品B3 和A的迴歸直線的截臣的差, Bs:藥品B和 A的迴歸直線的斜率的差。 圖12.4(a)顯示了B子0的情形(也就是說,在兩個變數“藥品”和“劑量“之間存在互動效應)。因此,迴歸直線不平行。圖12.4(b)顯示了B=0(無交耳效應)的情形,此時,兩條直線平行。 -B --B A --A jo (2) 及千0:互動效應存在, 相交直線 16 (b) 及=0:互動效應存在, 平行直線圖12.4 兩條迴歸直線的比較例 12.22 例12.21 中討論的試驗的樣本資料列於表12.4。感興趣的響應是由訓練有素的研究人員給出的焦急得分。用這些資料擬合一般線性模型
12.7 比較幾條迴歸線的斜率•743• 藥品 -—- A 5 15 16 16 15 18 16 13 17 19 15 a¥= 16 16 15 17 15 18 18 17 17 15 16 av= 16.4 表12.4 老的焦急得分劑量(mg) 10 18 16 17 15 18 19 19 18 20 16 av=17.6 19 18 21 20 22 21 23 22 20 19 av =20.5 20 20 17 19 18 21 21 18 20 19 17 av=19.0 24 23 25 24 23 22 25 26 25 24 aV=24.1 試驗人員特別感興趣的是比較迴歸直線的斜率。斜率的差異表明綺品對於老鼠的焦急程度有不同的影響。構造一個統計檢驗,以檢驗兩個斜率是否相等,取& =0.05。 解答用完全模型 Bo+B I+BX2+BXI 2+E 我們得到最小二乘擬合為 =15.30+0.19x1-0.70x2+0.30z132 SS(迴歸,完全)-442.10,SS(殘差,完全)=133.63(參見下面的計算機輸出)。 相應於 Ho:B=0(也就是說,斜率相同)的簡略模型為 • Y=Bo+BIXI+BX2+E REGRESSION ANALYSIS OF ANXIETY TREATHENTS - COMPLETE NODEL Mocel: HODEL.1 Dependent Variable:SCORE Analysis of Variance
• 744• 第十二章多元迴歸與一般線性模型 Source DE Sum of Squares Hean Square F Value Hodel ErrOr C Total 3 56 59 442.10476 133.62857 575.73333 147.36825 2.38622 61.758 Root MSE Dep Mean C.V. 1.54474 18.93333 8.15884 R-sguare Adj R-s9 0.7679 0.7555 Parameter Rst imates Variable INTERCEP DOSE PRODUCT FRD-DOSE DF 1 1 Parameter Estimate 15.300000 0.191429 - 0.700000 0.300000 standard Error 0.59827558 0.04522538 0.84608944 0.06395835 Variable INTERCEP DOsE FRODUCT ERD-DOSE DF 1 1 Variable Label Intercept DRUG DOSE LEVEL DRUG FRODUCT PRODUCT TIHES DOSE REGRESSION ANAL.YSIS OF ANXIETY TREATMHENIS - REDUCED MODEL Hodel:MODELI Dependent Variable:SCO8E Analysis of Variance Prob>F 0.0001 T for HO: Parameter=0 25.573 4.233 -0.827 4.691 Source DF Sum of Squares Mean Sqvare F Value Prob>E Prob>Ir 0.0001 0.0001 0.4116 0.0001
12.7 比較幾條迴歸線的斜率 •745、 59.656 0.0001 Hodel ErrOr C Total 2 57 59 Root MSE Dep Hean C.V. Parameter Estimates 389.60476 186.12857 575.73333 1.80705 18.93333 9.54425 194.90238 3.26541 R-square Adj R-sg 0.6767 0.6654 Variable INTERCEP DOSE FRODUCT DE 1 1 1 DF 1 1 1 Parameter Estinate 13.550000 0.341429 2.800000 Variable Labei Intercept DRUG DOSE LEVEL DRUG PRODUCT Standard Error 0.54711020 0.03740940 0.46657715 T Eor HO: Parameter=0 24.766 9127 6.001 Prob>Im 0.0001 0.0001 0.0001 Variable INTERCEP DO$E PRODUCT 由此我們得到 =13.55+0.34z-2.80z2 SS(回片,簡略)=389.60。歸因於z1z2 的殘差平方和的下降為 SStop =SS(迴歸、完全) SS(迴歸,簡略) = 442.10 - 389.60 = 52.50 從而 F= 【SS(迴歸,完全) SS(迴歸,簡略)]/(一g) SS(迴歸,完全)/[n (k+1)] 52.50/1 133.63/56 = 22.00 由於觀測到的 F值超過了附表8中與 d,=1,df=56(實際上為60)和 a =0.05 對應的值4.00,我們拒絕Ho,認為兩組的斜率是不同的。注意,我們可以用:檢驗來檢驗H0:B3=0,並得到相同的結果。從計算機輸出結果,!統計量的值為
• 746• 第十二章多元歸與一般線性模型 4.69,在0.0001 的水平上是顯著的。對於這種型別的檢驗問題,:統計盤和F統計量的值是有關係的: ’=F(這裡 4.692222)。 上面給出的關於比較兩條迴歸直線的斜率的結果很容易推廣到三條或更多條迴歸直線的比較的情形,只要增加模型中的虛擬變數以及所有定量變數和虛擬變量之間的互動作用項就行了。例如,在比較三條迴歸直線的斜率時,模型應當包含定變數x1,兩個虛擬變數x2 和z3,以及兩個互動作用項x122 稱 21230 練習應用 12.31(醫學)試驗人員想比較三種不同的藥品的效力。為此,往12 支試管中接種了要研究的病毒培養物,在35°C的條件下孵化兩天。三種葯品各取4個水平(0.2,0.4,0.8和1.6),12 支試管培養物中每支試管接受劑量—藥品的一個組合。比較這些藥品的方法之一是考察它們的(對於劑量)斜率。 a.寫出聯絡響應y與自變數“劑董”和“藥品”的一般線性模型,使得期望響應為log 劑量(z1)的線性函式。解釋模型中的引數。 b.假定三條迴歸直線有相同的截距從直觀上看來是合理的,因為這相應於藥品的0劑量水平。對(a)中的模型作出變化,以適應這一假定。 12.32 參見練習 12.32。 2.用下面的資料作出三個斜率的比較。為了你的檢驗擬合完全模型和筒略模型。取a=0.05。 劑量 0.2 0.4 0.8 1.6 A 2.0 4.3 6.5 8.9 藥品 B 1.8 4.1 4.9 5.7 C 1.3 2.0 2.8 3.4 b.是否有依據表明斜率是相等的? c.就如何檢驗零假設“截距全為0”提出建議。
12.8 logistic 迴歸 • 747• 12.8 Logistic 迴歸在許多研究中,許多響應變數表現為兩個可能的俏之一。比如,響應變數是一個取值了0,1 的二值隨機變數。例如,黃麴黴素 B,被懷疑為致癌物質。在關於它的一項研究中,用了不同劑量的黃麴黴素 B,餵養試驗動物。在一段時間以後, 解剖這些動物,記錄下患肝臟腫瘤的患者的數目。如果一個動物有腫瘤,其響應俏 =1,否則y=0。類似地,銀行要確定哪些顧客最像是能夠歸還貸款的人。為此, 他們要記錄若下自變數以描述這些顧客的可算程度,然後,決定這些變數是否與二值變數有關,這裡, =1如果顧客償還貸款,y=0如果顧客不償還貸款。下面介紹一個聯絡二值變數y與解釋變數的模型。 當響應變數y為二值變數時,鄉的分佈結為一個值,即 =Pr(y=1).我們要把p與自變數的一個線性組合聯絡起來,困難是P任0,1之間變化,而解釋變量的線性組合可以在(一∞,+∞)內變化。在第十章中,我們介紹了把機率變為幾率(odds,原文誤為 odds ratio——譯者注)的變換。由於機率從0變到1,機率從0 變到無分。取機率的對數,則當機率從0變到1時,得到一個取值於(-∞,+8) 的變數。用來研究二值變數與一組解釋變數之間聯絡的常用模型為logistic 迴歸分析模型。在這個模型中,機率的自然對數與解釋變數透過一個線性模型聯絡起來。我們這裡只考慮單個自變數的情形,但是,這個模型可以推廣到多個自變數的模型。令p(x)為自變數等於x時,»等於1的機率。我們用z的線性函式來建立對數機率的模型,即簡單logistic 迴歸模型: mipa=B+月8 這個變換可以直接用p(z)表示成 $(x) =-coll. 1+eatBz 例如,一隻暴露小z個單位的黃麴黴素B」的老鼠患癌症的機率就可能用上述方程中的p()來表示。B0和B1 的值可以從觀測資料用極大似然估計的方法估計出來。 我們可以用p(z)來解釋Logistic模型中的引數 Bo和B。從截距引數 Bn可以得到自變數z=0時,與y=1對應的事件的發生機率。例如,當動物沒有暴爾於黃曲莓素 B、時,患癌症的機率相應於=0時y=1的機率,即p(0)。從logistic 迴歸模型可以得到 2(0)-j+
• 748• 第十二章多元迴歸與一般線性模型斜率引數B:衡量了事件發生機率與自變數的取值之間相關聯的程度。當81 =0時,事件發生的機率與x取值的大小沒有關係。在我們的例子中,這相當於說動物忠肝癌的機率與暴露的黃麴黴素B,的量的大小無關。圖12.5中給出了兩個 logistic 迴歸函式的曲線。如果及≥0,事件發生的機率隨自變數的值的增加而增加;如果BL<0,則事件發生的機率隨自變數的值的增加而減少。 1.0 0.8 0.6 B1<0 nW 0.4 B20 0.2 0.0 -10 -5。 s 10 圖 12.5 logistic 迴歸函式當B和B均為0時,事件的發生和不發生有同樣的可能性,這是因為 e' 這表明與=1相應的事件發生的機率與變數x無關。由此,模型對於確定事件發生的機率沒有提供資訊,所以不論自變數z的值是什麼,事件的發生與不發生的機會相等。 不論我們是應用簡單 logistic 迴歸模型還是多元logistic 迴歸模型,用於估計模型引數的計算方法都需要用計算機軟體來實現。下面我們用一個例子來說明 logistic迴歸模型的應用。 例12.23 A.F.Smith(1967)的一個研究報告(Lancet 雜誌,第2卷,178)記錄了被懷疑有過心臟病發作的患者的一種酶,即肌復酸酐激酶(CK)的水平。這項研究的目的是判斷患者入住醫院時CK 量的測量,能否有助於識別被診斷為有心臟病發作的患者是否真有過心臟病發作。測量了360 名患者入院時的CK 的水平,在經過一段時間之後,醫生瀏覽了這些患者的記錄,確定360名患者中哪些患實際上真有過心臟病發作。下面的表中給出了試驗的資料。
CK 值 20 60 100 140 180 220 260 300 340 380 420 460 500 12.8 Logistic 迴歸 • 749• 有心臟病患者數 2 13 30 30 21 19 18 13 19 15 7 8 35 無心臟病患者數 88 26 8 5 0 1 1 1 0 0 0 0 0 用計算機軟體計算迴歸方程曲線的估計以及心臟病發作機率的95% 信區間,輸出結果如下。 LOGISTIC REGRESSION AHALYSIS EXANELE The LOGISTIC Procedure Data Set: WORK. LOGRES Response Variable (Events):& Response Var iable (TYials):M Nunber of Observations:13 Link Function:Logit Response Profile Ordered Binary Value Outcome 1 EVENT 2 NO EVENT Count 230 130 Model Fitting Information and Testing Global Nul1 Hypothesis BETA = 0 Intercept Criterion Intercept Only and Covariates Chi-Square for Covariates:
• 750• 第十二章 •多元迴歸與一般線性模型 AIC SC -2 1.OGL Score 472.919 476.806 470.919 191.773 199.545 187.773 • 2日3.147 with 1 DE (p= 0.0001) 159.142 with 1 DF (p=0.0001) Variable DF INTERCET CK 1 1 Analysis of Maxinun Likelihcod Bstimates Parameter Estimate -3.0284 0.0351 Standard wald Error Chi-Square 0.3670 68.0948 0.00408 73.9842 Pr> Chi-Sguare 0. 0001 0.0001 Standardized •Estimate 3.100511 1 4 6 8 9 11 12 13 LOGISTIC REGRESSION ANALYSIS EXAMPLE cK 20 60 100 140 180 220 260 300 340 380 420 460 500 ERBD ICL 0.06897 0.05151 0.28453 0.21224 0.61824 0.51935 0.86833 0.78063 0.95410 0.91643 0.99094 0.97067 0.99776 0.99000 0.99945 0.99662 0.99986 0.99886 0.99997 0.99962 0.99999 0.99987 1.00000 0.99996 1.00000 0.99999 UCL 0.14937 0.36988 0.70821 0.92436 0.98502 0.99724 0.99950 0.99991 0.99998 1.00000 1,00000 1.00000 1,00000 a.CK 水平與心臟病發作機率透過 logistic 迴歸模型的聯絡顯著的嗎? b.從計算機的輸出結果,得到Bo與B的估計。 .作為CK水平的函式,構造心臟病發作機率的估計。特別地,估計CK水平為140的患者的發作機率。 解笹 8.從輸出結果,我們得到,在logistic 迴歸中假設Ho:B=0 Ha:B 0的p 值為0.0001,由此,CK與心臟病發作的機率是顯著的。 b.從計算機輸出結果,我們得到B。=-3.0284 和 B=0.0351。注意及,是止的,這表明,有高CK水平的患者已經發生心臟病發作的機率大。
12.8 Logistic 迴歸 • 751• c.作為CK 水平的函式,心臟病發作機率的估計由 .-3.0284+0.0351* CK 我們用此公式來計算-個CK水平為140的患者受到心臟病發作的機率。這個機率為由上面的計算機輸出,我們得到這個機率的95%置信區間為從 0.781到 0.924。因此,我們有95%的自信說,水平為140 的患者中, 78.1%到92.4%的人有過心臟病發作。心臟病發作的機率的估計以及這些機率的95%的置信區間由圖12.6 表示出來。我們注意,心勝病發作的機率的估計隨CK水平的增加而迅速增長。這表明CK 水平是心臟病發作的一個有用的指標。 1.0 菇08 辭病發作機率的, 0.6:0.4 0.2 0 T 100 200 300 CK 400 500 圖12.6 心臟病發作機率的估計及其95%置信區間練習應用 12.33(工程)一位質過控制工程師研究了系統控制工程師的經驗和他們在給定時間內完成包括跟蹤所有計算機程式和控制裝置這樣的複雜設計的能力之間的關係。對於25位經驗(按月計算)大相徑庭的工程師,給了他們同樣的控制設計專案。研究的結果在卜表中給出,其中,如果一名工程師在規定的時間內成功地完成廠該設計專案,則對應的y=1,否則,如果完不成專案,則對應的 =0。 a.用下面的計算機輸出確定經驗與完成任務的機率是否有聯絡。
• 752• 第十二章經驗月數 2 4 5 6 7 8 8 9 10 10 11 12 13 多元迴歸與一般線性模型專案完成 0 0 0 1 1 1 0 經驗月數 15 16 17 19 20 22 23 24 27 30 31 32 專案完成 1 1 0 1 1 0 1 0 1 1 b.計算有24 個月經驗的工程師成功地完成任務的機率。給出這個機率的 95%置信區間。 SAS Code for Logistic Regression option 1s=70 ps = 55 nocenter nodates data logreg; input x y @@; Label x="HONTTIS EXPBRTENCE' Y = 'SUCCESS INDICATOR'; cards: 2040506070816190 10 010 011 1 121 13 0 15 116 1 17 0 19 1 20 122 023 1 24 1 27 1 30 0 31 132 1 run; pror print; proc logistic descending; model y=x: output out = new p= pred lover = 1c1 upper = ucl; proc sort; by xs proc grint; var x pred 1c1 ucl; run; -- The LOGISTIC Procedure Data Set: WORK. LOGREG Response Variable:Y SUCCESS INDICATOR ---
12.8 Jogistic 迴歸 • 753。 Response Levels: 2 Number of Observations:25 Link Function:Logit Response Profile Ordered Valre Y 1 1 2 Count 13 12 Variable INTERCPT DE 1 1 Analysis of Maximon Likel ihood Estinates Parameter Standard Estimate ErTOr -1.6842 0.9451 0.1194 0.0589 Wald chi-Sqvare 3. 1759 4.1091 F> Chi-Square 0.0747 0.0427 The LOGISTIC Procedure Association of Predicted Probabil ities and Observed Responses• Concordant - 77.6% SomersD = 0.551 Discordant - 22.48 Gamza - 0.551 ried =l 0.0& Taura = 0.287 (156 pairs) c = 0.776 OES 1 2 3 7 8 9 10 11 12 x 2 4 5 6 7 8 8 9 10 10 11 12 The LOGISTIC Procedure 95&Eower PRED 0.19070 0.23029 0.25213 0.27530 0.29974 0.32538 0.32538 0.35211 0.37980 0.37980 0.40830 0.43742 Limit 0.04320 0.06487 0.07884 0.09518 0.11399 0.13526 0.13526 0.15884 0.18434 0.18434 0.21117 0.23858 95 * Upper Limit 0.55155 0.56339 0.57042 0.57839 0.58749 0.59794 0.59794 0.61001 0.62397 0.62397 0.64011 0.65863 Standardized Estimate 0.585706
•754• 第十二章多元迴歸與•般線性模型 OES 13 14 15 16 17 18 19 20 21 22 23 24 25 X 13 15 17 19 20 22 23 24 27 30 31 32 PRED 0.46698 0.52660 0.55623 0.58547 0.64199 0.66894 0.71954 0.74299 0.76512 0.82333 0.86958 0.8日253 0.69435 Eimit 0.26568 0.31574 0.33753 0.35684 0.38830 0.40092 0.42133 0.42962 0.43691 0.45436 0.46732 0.47097 0.47436 Eimit 0.67964 0.72639 0.75512 0.78239 0.83514 0.85917 0.90040 0.91732 0.93186 0.96307 0.98065 0.98447 0.98756 12.34 最近開發出一種內粉刷用塗料的新增劑,這種新增劑可以大大增加塗料抵抗玷汙的能力。為調查這種新增劑對子兒童是否安全,進行了一項研究。 把不同劑量的這種新增劑餵給試驗動物,記錄了動物患肝癌的個數。資料有下表給出。 劑量(ppm) 0 10 實驗動物數 30 20 患癌症的動物數 0 2 25 20 2 50 30 7 100 30 25 200 30 30 a.用下面的計算機輸出確定餵給試驗動物的新增劑的劑量是否與動物患肝癌的機率有關。 b. 計算新增劑暴露量為100ppm 的試驗動物患肝癌的機率;給出這個機率的 95%置信區間。 SAS Code For Exercise option 1s= 70 ps - 55 nocenter nodate; TITLE'OUTPUT FOR EXERCISE; data logreg: input ×RN @④; label x = 'AHOUNT(PPH)';cards; 0030 10220 25 220 50730 100 25 30 200 30 30 mun; Proc print;
12.8 Logistic 迴歸 • 755• proc logistic descending: model R/N= x; output out = new p= pred lower = 1c1 upper=ucl; Proc sort;by x; proc Print; var x pred lcl ucl; Tun; 1—。 OUTPUT FOR EXERCISE OBS 1 2 3 4 5 6 X R 10 25 50 100 200 2 2 7 25 30 N 30 20 20 30 30 30 The LOGISTIC Proxedure Response Profile Ordered Binary Value Outcome 1 EVENT 2 NO EVEAT Count 66 94 Variable DE JNTERCPT X 1 1 Analysis of Maximum Likel ihood Estimates Parameter Estimate -3.6429 0.0521 Standard Error 0.5530 0.00824 Hald Chi-Sguare 43.3998 39.9911 Variable odds Ratio Analysis of Haximum Likelihood Estimates Variable Label INTERCPT X 1.053 Intercept AMOUNT(PEH) Pr> chi-Sguare 0.0001 0.0001 Standardized Estimate 2.044518
• 756• 第十二章多元迴歸與一般線性模型 OBS 1 2 3 4 5 6 x 10 25 50 100 200 PRED 0.02551 0.04221 0.08783 0.26156 0.82738 0.99886 95% Lower Limit 0.00878 0.01681 0.04308 0.16907 0.66925 0.98818 95* Upper Limit 0.07182 0.10203 0.17077 0.38142 0.91905 0.99989 12.9 多元迴歸的一些理論結果(任選) 在本節中,我們用矩陣的符號來給出多元迴歸的一些理論結果,目的是看一看多元迴歸的計算,不論是手工計算還是用計算機計算,在實際上是如何進行的。我們不給出其中多數結果的證明,這些證明可在許多專門的教材中找到,如 Draper and Smnith(1998)。 矩陣記號的使用在於是多元迴歸本身。回憶把響應變數與一組自變數聯絡在一起的形如的模型,該模型稱為一般線性模型。在這個模型中,截距引數和偏斜率引數的最小二乘估計 Bo:B1,•,多可以用矩陣得到。 定義n×1矩陣Y 32 Y= 為觀察值矩陣, (k+1)矩陣X 「1 1 £11 …•工1R X= 21: L1 Tn1 為增加了一列1的自變數取值矩陣。矩陣的第一行包含一個1和對應第一個y 的觀測值的個自變數的取值,第一行包含一個1和對應於y2的k個自變數的取值,同理,其他的行包含其餘的各個的觀測值對應的自變數的取值。 接下來我們來看多元迴歸模型中截距引數和偏斜率引數的最小二乘估計 Bo, B1,…,Bk。回憶最小二乘原理是透過極小化殘差平方和來選取估計。熟悉微積分的讀者會看到,求SS(殘差)關於 Bo,B1,•Bx的微分並令其為0,即可得到這
12.9參多元四歸的一些理論結果(任選)•757• 個問題的解。所得到的正規方程,用矩陣表示出來,即為 (X'X)B= X'Y 其中 po B=: 為要求的係數估計的向量。假定矩陣X'X 有逆矩陣(只要沒有一個z;與其他x 完全共線性即可滿足這一假定),則該方程的解為 B= (X'X)-IX'Y 例12.24 假設在某個試驗中, • 「257 19 Y= 33 L23 X= 「1 1 1 L1 -2 -2 2 2 $=B+B¢1+B2×2 57 -5 5 -s 求預測方程的最小二乘估計。 解答由這些資料, 「40 0 X'X= 0 16 o o 0 100」 「1007 X'Y = 24 80 矩陣 x'x是一個對角矩陣,其逆矩陣很容易求。正規方程的解為 B=(X'X)-IXY 「0.25 0 = 0 0.0625 0 0 0 「1007 0 24 0.01JL80. 25 =! 1.s L0.8
• 758• 第十二章多元迴歸與一般線性模型預測方程為 =25+1.5z1+0.8x2 在多元迴歸的計算中最困難的部分是計算 x'X的逆矩陣。對於大多數實際的多元迴歸問題來說,手工計算逆矩陣要花數小時,計算機計算要花不到一秒的時間。這就是為什麼多數多元迴歸問題要用計算機軟體來算的原因。 一旦求出X'X的逆矩陣,並算出向量,接下來就要計算殘差標準差。這個艱巨的任務就是要計算 SS(殘差)=2(-3.}’,而這個和可以寫為SS(殘差)= YY-B(X'Y)。 例12.25 用例 12.24中的資料計算 SS(殘差)。 解答 「257 「100] 計算出和 X'Y分別為 1.5|和:24 L0.8」 801 [251 YY=[25 19 33 23]19 L23 = 2,604 由殘差平方和的短陣表示式得 1100 SS(殘差)=2,604- YY= [25 1.5 0.8]24 = 4 80」 用類似的方法可得到 SS(迴歸)和SS(總和)。雖然這些和的公式也可以用純矩陣的符號表示出來,但混合使用矩陣和代數的符號表示起來更簡單: SS(總和)-YY-SNy)2 定義12.5 角;的標準誤差的估計為其中Se是迴歸方程的標準差, j是矩陣
12.10 小結•759• 「voo (XX)!= VI ™k j+1行、 +1列的元素。由於要得到諸B,必須要計算出(x'X)',所以容易得到這個標準誤差的估計。 12.10小結本章強化「把響應y表示成一個或多個自變數的函式的內容,討論了多元回歸模型(所有自變數都是定量的)以及結合了定性變數資訊的模型。這些模型可以表示為如下一般線性模型的形式: 在討論了各種模型以及這些模型中阝的解釋後,我們給出了用於得到最小二乘估計多的正規方程。 用及;和B,的標準差建立了單個引數?的置信區間和統計檢驗。我們還考慮 「一組3的統計檢驗,基於一組x值的E(y)的置信區間以及給定z的值後的預測區間。 所有這些推斷都需要進行一定量的數字計算,除非有計算機軟體可用。有時, 如果讀老染悉矩陣運算,這些計算可以用手工進行(見12.9節)。然而,即使用矩陣的方法,隨著自變數個數的增加,也會無能為力。因此,十分清楚,一般線性模型的推斷應當使用計算機軟體,以利於分析和極小化計算誤差。此時,我們的L作就是瀏覽和解釋這些軟體的輸出結果。 除了少數幾個練習為了提高你對這些計算的理解而包含一些計算外,本章中其餘的練習和下一章中的迴歸問題都大量地利用了窘盤的輸出結果。 關於多元迴歸的概念另外還有一些內容: 1.一階模型(即不包含變換了的項,如一個變數的平方項或乘積項)中的迴歸係數應解釋為偏斜率,即一個自變數增加一個單位,而其餘的自變數保持不變時因變數的變化的預期值。 2. 不僅自變董與因變數之間的相關是重要的,而且自變數之間的相關也是重要的。共線性一—自變數之間的相關性—-意味著當變數被加人迴歸模型或從模型中去除時,迴歸係數將發生變化。 3.迴歸模型的效果不僅可以由 R2 表示出來,也可以由殘差標準差來表示。 用殘差標準差看一下要預測的值大體落在預測值的什麼範圍內常是有益
•760• 第十二章多尤迴歸5一般線性模型的。 4. 一如既往,同歸模型中各種統計檢驗只不過表明,認為所考慮的模式的信息比隨機出現的來得多時,你有多強的依據。這些檢驗並不直接表明一個預測模型有多麼好。特別地,在大樣本的情形下,一個大的總體F統計量的值可能僅僅表明迴歸模型有較弱的預測能力。 5. 多元迴歸中的:檢驗表明,把一個自變數作為預測因子加入到模型中時, 是否附加了特有的預測價值。很可能出現這樣的情況,即幾個自變數中沒有哪個附加了具有統計顯著性的特有的預測價值,但把它們從模型都刪除會引起模型預測能力的嚴重的下降。尤其在有嚴重的共線性時,這種情況更可能發生。 6.方差膨脹因子(VIF)是衡量共線性在估計自變數的係數時的作用的一個有用的指標。VIF 的值越高,共線性對於斜率估計的精確性的影響也越嚴重。 7.多元迴歸中的外推可能是件微妙的事情。一組新的值,其每個分量單獨考慮時,可能沒有僕麼不合理,但某些分量一起考慮時,就可能遠地落在原來的資料範圍之外。 重要公式 1.R--SS(感制魚和S(殘蒸) 其中 SS(總和)=Z(y:) SS(殘差)=】(y-$:)2 SS(總和)=2(y-)= SS(迴歸)+SS(殘差) 3.Ho:B=B2=⋯=限=0的F檢驗 F= SS(迴歸)/ SS(殘差)/[ (+1)] 4. 羽,= Se 和 -(k+1)
12.10 小結•761• s.B,的置信區間為 6.B,的統計檢驗 B:1a/2S,《網≤角F1a/28月, T.S.:t= 7. 預測因子子集的F檢驗 Ho:As+1= B8+2=:=Bk=0 T.S.:F= SS(迴歸, 全35(迴歸,簡略) (一出) SS(迴歸,完全)/Ln-{R+1」 補充練習 12.35(商業) 在一項進口微型轎車需求的研究中,收集了12個大都市區域內的資料,其中的變垃為: 需求(Demand):進口微型轎車的銷售佔總銷售量的百分比。 教育(Educ):成人上學年數的平均數。 收入(Income):人均收入。 人口(Popn):地區人口。 家庭大小(Famsize):完整家庭的平均人數。 Minitab 輸出如下: MTB > Regress 'Demand' 4 "Educ''Income''Popn'Ransize' The regression equation is Demand = - 1.3 + 5.55 Bduc + 0.89 Income + 1.92 Popn - 11.4 Famsize Predictor Constant Educ Income Popn Famsize Coef - 1.32 5.550 0.885 1.925 - 11.389 Stdev 57.98 2.702 1.308 1.371 6.669 t-ratio -0.02 2.05 0.68 1.40 -1.71 P 0.982 0.079 0.520 0.203 0.131 = 2.686 R-sg=96.2* R-sq(adj) = 94.18 Analysis of Variance
•762• 第十二章多元迴歸與一般線性模型 SOURCE Regression Error Total DF 4 7 11 SS 1295.70 50.53 1346.22 MS 323.93 7.22 F 44.89 P 0.000 SOURCE Echc Income Popn Famsize DE 1 1 1 1 SBQ SS 1239.95 32.85 1.86 21.04 Unusual Observations Obs. Educ 99.3 Demand 13.100 Fit 9.760 stdev.Fit 2.149 Kesidual 3.340 st.Resid 2.07R R denotes an obs.with a large st.resid. 2.寫出迴歸方程,並把每個係數的標準誤差寫在該係數的下面,可以加上括號。 b.找出 R”和殘差標準差。 c結果中寫有“Unusual Observations”的部分表明第9個觀測值遠離預測值, 距離為2.07倍標準差。這是否說明第9個觀察值是一個嚴重的離群值? 12.36 總結練習12.35的輸出結果中關下F檢驗和各種t的結論。 12.37 練習12.35中資料的另一種分析是隻用變數 Educ 和 Famsize 來預測需求。結果如下: ATE > Regress Demand' 2 Bduc'Famsize'. The regression eqvation is Denand = - 19.2 + 7.79 Bduc + 9. 46 Famsize Predictor Constant Educ Fansize Coef - 19.17 7.793 -9.464 Stdev 45.87 2.490 5.207 t-ratio - 0.42 3.13 - 1.82 P 0.6$6 0.012 0.103 §= 2.939 R-$G =94.28 Rrsg(adj) =92.9如 Analysis of Variance
12.10 小 P 0.000 結 • 763• SOURCE Regression ErTOr Total oF 2 9 11 SS 1268.48 77.73 1346.22 HS 634.24 B.64 F 73.43 a.找出這個簡略模型的 R?的值。 b.取 a=0.05 檢驗假設“Income 和 Popn 的真實係數為0”。結論是什麼? 12.38(商業)銀行支行辦公室的業務之一是為小企業和個人提供有息借貸。作為考核支行經理業績研究的•部分,…家銀行從一些樣本支行收集了關於當前借貸總量(Loan volume 因變數)、該支行開戶的賬號的儲蓄總額(Deposit volume)以及這些賬號的個數(accounts)、日平均業務數址(Transactions)和該支行僱員的總數(Employees)的資料。相關和散點陣如圖中所示。:從在希嚴盛的與酸權隔播的飛纖的換測自$” b.是否有嚴重的共線性問題? c.是否存在有極端影響的點? 14 10 Loan volume im 15 10Deposit volame 2500 - 1500• 500 1000 600 200 sunber of accg Transactions Employees 11 4 2 4 6810 14 15 500 15002500 200 600 1000 4 6 8 10 12
• 764• 第十二章多元迴歸與一般線性模型 Correlat ions arable Loan nolune (nillions) Depoeit woluwe (nillions) Borber of accokts mransoctions Lagdoyees Lean rolue (aill ions) 1.0000 0.9369 0.9403 0.8765 0.6910 Deposit vol me (millions) 0.9369 1.0000 0.9753 0.9144 0.7377. Number of accoumnts Transeetions Empioyees 0.9403 0.6765 0.6810 0.9755 0.9144 0.7377 1.0000 0.9299 0.7487 0.9299 1.0000 0.8463 0.7487 0.8463 1.0800 12.39 用JMP 對銀行支行的資料建立了一個迴歸模型,一些結果如下。 a.用R?的值計算總體 F 統計量。是否有清楚的證據表明該模型對於預測是有價值的?取&=0.05。 b.哪個因子已經被證實是具有獨有預測價值的?仍取 &=0.05。 c.解釋你對前兩部分的答案中的矛盾。 Response: Loan volune (mil1ions) Sunmary of Fit RSquare RSquare Adj Root Mean Square Error Mean of Response Coservations(or Sur Ngts) 0.894477 0.883369 0.870612 4.383395 43 Earameter Estinates Term Intercept Deposit volume (millions) Nunber of accounts Transactions Enployees Estimate 0.2284381 0.3222099 0.0025812 0.0010058 -0.119898 Std Error 0.6752 0.191048 0.001314 0.001878 0.130721 t Ratio 0.34 1.69 1.96 0.54 -0.92 Prob>[t] 0.7370 0.0999 0.0569 0.5954 0.3648 12.40 另一個多元國歸模型只用了儲蓄總額和賬號的數量作為自變數。結果如下。 a.省卻業務數量和僱員數量兩個變數是否使得 R2有嚴重的下降? b.用R2的值檢驗零假設“業務數量和僱員數量的係數為0”。結論是什麼? Response: Loan volume (mil1ions) Sumnary of Fit RSquare RSquare Adj Root Mean Square Brror Mean of Response Observations(or Sunm Ngt.s) 0.892138 0.886744 0.857923 4.383395 43
12.10 小結 • 765. Earameter Est imates ITerm 'Intercept Deposit volume (millions) Number of.accounts Estimate -0.324612 0.3227636 0.0026日4 Std ErTOr 0.290321 0.187509 0.001166 t Ratio - 1.12 1.72 2.30 Prob>[t] 0.2699 0.0929 0.0266 12.41(工程)一家計算機軟體公司的檔案部經理要預測存檔中等大小的計算機程式所需要的時間。他記錄了 26 個程式的有關資料,變數為:=所需要的天數,21=子程式的個數, 2=每個子程式的平均行數,23=2122,24= 號,25 =r13。這些資料的部分輸出結果如下: Multiple Regression Analysis Table of Estimates Standard EETOF 11.631 0.365944 0.611441 0.0237565 0.007374 0.000351779 t Value -1.45 4.02 1.63 -1.01 -1.40 0.71 P Value 0.1636 0.0007 0.1194 0.3243 0.1774 0.4862 Dependent variable: Y Constant X1 X2 @X1X2 ④×2$4 @X1X25q Estimale - 16.8198 1.47019 0.994778 -0.0240071 - 0.01031 - 0.000249574 R-squared = 91.72 8 Adjusted R-sguared = B9.65 * Standard error of est.imation - 3.39011 Durbin-Natson statistic = 2.12676 Mean absolute error = 2.4127 Soirce. Sum of Squares Mocdel Ezror 2546.03 229.857 Total(corr.) 2775.88 Analysis of Variance D.F. 5 20 25 Mean Square 509.205 11.4929 F-Ratio 44.31 P Value 0.0000
• 766• 第十二章:多元迴歸與-股線性模型 a.寫出多元迴歸模型,並找出殘差標準差。 b.x3有顯著的、獨有的預測價值嗎? 12.42 對於練習12.41 中的資料擬合了模型y=B+Biz1 +E。部分輸出為: Multiple Regression Analysis Dependent variable:Y Table of Estimates Standard t ETTOr Value 3.43375 0.24 0.0792925 12.81 0.0515066 1.08 value 0.8089 o.000 0.2897 Constant X1 x2 Estimate 0.840085 1.01583 0.0558262 R-squared= 90.64* Adjusted R-squared =89.83 8 Standard error of estination = 3.36066 Durbin-Natson statistic= 2.2053 Mean absolute error = 2.57584 Analysis of Variance Source Sum of Squares D.F. Mean Square F-Ratio P Value Model Exror 2516.12 259.763 2 23 1258.06 11.294 111.39 0.0000 Total(corr.) 2775.88 25 a.寫出估計後的完全模型和簡略模型。 b.在水平 a=0.05 上,增加23,24 和zs對R’有顯著的改進嗎?近似求出這個檢驗的p值。 12.43(商業}一家小型方便食品連鎖店做了一項迴歸分析,以解釋16個分店的銷售總額的變異。研究中的變數如下: 銷售額(Sales):分店的日平均銷售額,以幹美元為單位。 面積(Size):分店面積,以幹平方英尺為單位。 停車位(Parking):分店旁邊的自由停車位個數。 收入(Income):分店所在郵政編碼地區戶平均收人的估計。
12.10 小結 • 767• 從一個迴歸的程式(stataQuest)得到的輸出如下: .regress Sale Size Parking Income Source SS df HS Model Residual 27.1296056 7.15923792 3 12 Total 34.2888436 15 9.04320188 0.59660316 --- 2.2859229 Nunber of obs = F(3,12) Prob>F R-square Adj R-square = Root MSE = =l = = 16 15.16 0.0002 0.7912 0.7390 0.7724 - Sales Coef. Std. Err. t P≥IT [95 * Conf. Interval] Size Parking Income cOns 2.547936 0.2202793 0.5893221 0.872716 1.200827 0.1553877 0.1780576 1.945615 2.122 1.418 3.310 0.449 0.055 0.182 0.006 0.662 -0.0684405 -0.1182814 0.2013679 - 3.366415 5.164313 0.5588401 0.9772763 5.111847 •correlate Sales Size Parking Income 〈obs= 16) Sales Size Parking Income Sales Size Parking Income 1.0000 0.7415 0.6568 0.7148 1.0000 0.6565 0.4033 1.0000 0.3241 1.0000 8.寫出迴歸方程,指出各系數的標準誤差。 b.小心解釋每一個係數。 c找出 R?和殘差標準差。 d. 在這項研究中,有嚴重的共線性問題嗎? 12.44 總結練習 12.43中F檢驗和:檢驗的結果。 12.45(農業)一家牲畜飼料新增劑的生產商要研究飼養肉牛使其達到上市重量所需要的天數。他買了18頭年齡、重量基本一致的閹割公牛,並進行飼養。 每頭牛按照一個指定的蛋白質含量、抗生素濃度和飼料新增劑的百分比的組合來飼養。資料如下: 牛: 蛋白質(Protein): 抗生素(Antibio): 1 10 1 2 10 1 3 10 1 4 10 2 5 10 2 6 10 2 7 15 •1 8 15 1 9 15 1
• 768• 第二草多元迴歸與般線性模型新增劑(Supplem): 時間(Time): 3 88 5 82 81 82 5 83 牛: 蛋白質(Protein): 抗生素(Antibio): 新增劑(Supplem): 時間(Time): 10 15 2 3 77 11 15 2 5 76 12 15 2 7 72 13 20 14 20 3 79 5 74 從 Systat 得到的計算機輸出如下: CORREIATIONS (FEARSON) PROTEIN ANTIBIO SUPPL.EM TIME -0.7111 -0.4180 - 0.4693 PROTEIN ANTIBIO 0.0000 0.0000 - 0,0000 CASES INCLUDED 18 MISSING CASES O UNWEIGHHED LEAST SQUARES LINEAR REGIRESSION OE TIME PREDICTOR VARIABLES COEFEICIENT STD ERROR STUDENTST CONSTANT PROTEIN ANTTBIO SUPPLEN 102.708 -0.83333 -4.00000 -1.37500 2.31037 0.09870 0.80589 0.24675 44.46 -B.44 -4.96 -5.57 R-SQUARED ADJUSTED R-SQUARED 0.9007 0.8794 RESID. HEAN SQUARE (HSE) STANDARD DEVIATION SOURCE REGRESSION RESIDUAL DE 3 14 sS 371.083 40.9166 MS 123.694 2.92261. F 42.32 7 75 15 20 75 3 80 16 20 2 3 74 5 80 17 20 2 5 70 P 0.0000 0.0000 0.0002 0.0001 2.92261 1.70956 0.0000 VIE 1.0 1.0 1.0 7 75 18 20 2 69
12.10 小結 • 769• TOTAL 17 412.000 PREDICTED/FITTED VALUES OE TIME LOWER PREDICFED BOUND PREDICTED VALUE UPPER PREDICIED BOUND $E (PREDICIED VALUE) 73.566 77.333 81.100 1.7564 LOWER FITTED BOUND FITTED VALUE UPPER FITTED BOUND SE (FITTED VALUE) 76.469 77.333 78.197 0.4029 UNUSUALNESS(LEVERAGE) PERCENT COVERAGE CORRESPONDING T 0.0556 95.0 2.14 EREDICIOR VALJJES: PROTB.IN = 15.000, ANTIBIO = 1.5000, SUPPLEM = 5,0000 a. 寫出迴歸方程。 b.找出標準差。 c.找出 R2的值。 d.在這些資料中有嚴重的共線性問題嗎? 12.46 參見練習 12.45。 a.預測按15%蛋白質、1.5%抗生素濃度和 5%新增劑飼養的牛的飼養時間。 b.這些自變數的值代表了一個從資料進行的外推嗎? c.給出(a)中預測的平均時間的95%置信區間。 12.47 對於練習12.45中的資料,還用只含有蛋白質含量作為自變數的回歸模型進行了分析,結果如下: UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OE TINE PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'ST P CONSTAIT PROTEIN 89.8333 - 0.83333 3.20219 0.20598 28.05 - 4.05 0.0000 0.0009 R-SQUARED ADJUSTED R-SQUARED 0.5057 0.4748 RESID.MEAN SOUARE (HSE) STANDARD DEVIATTON 12.7291 3.56779
• 770• 第十二章多元迴歸與一般線性模型 SOURCR. DF Ss HS F P REGRESSION RESTDUAL TOTAL 1 16 17 208.333 203.566 412.000 208.333 12.7291 16.37 0.0009 #.寫出迴歸方程。 b.找出R3。 <.在a=0.05的水平上檢驗零假設“ANTIIBIO 和 SUPPI.EM的係數為O”。 12.48(人力資源)•起性別歧視的訴訟宣稱某個小型學院在工資上對女性員工有歧視。-項迴歸研究中考慮瞭如下的變數: Salary:每年的基本工資(以千美元為單位)。 Senior:在學院的資歷(年)。 Sex:男性為1,女性為0。 RankDl:正教授為1,其他為0。 RankD2:副教授為1,其他為0。 RankP3:助理教授為1,其他為0。 Doct:有博士學位者為1,其他為0。 注意,對於講師和助教,以上三個 RankD 變堪的值均為0。用Excel 得到的計算機輸出結果如下。 A B c D F Regression Statistics 1 2 3 4 5 6 7 B 10 Hultiple R R Square Adjusted R Sgjuare Standard Error Observations 0.9716 0.944 0.9294 2.3375 30
12.10 小結•771• 續表 A B c D E F — 11 ANOVA 12 df 13 14 Regression Fesidual 5 15 Total 23 29 SS 2119.347 125.672 2245.019 ME 353.225 5.464 F 64,646 Significance F 0.000 16 17 18 19 20 21 Intercept Senior Sex 22 23 24 RarkD1 RarkdD2 RankD3 25 Doct Coefficienta Standard Error t Stat 18.6784 1.3788 13.5470 0.5420 0.0762 7.1176 1.2074| 0.0649 1.1339 8.7779 1.9380 4.5293 4.4211 1.7797 2.4842 2.7165 1.4239 1.9079 0.9225 1.2569 0.7328 P-value 0.0000 0.0000 0.2685 0.0002 0.0207 0.0690 0.4711 a.寫出迴歸方程。 b. 變數 Sex 的係數的解釋是什麼? c.變數 RankD1的係數的解釋是什麼? 12.49 參見練習12.48。 日.檢驗假設“Sex 的真實係數大於0”,取a =0.05。 b.以上檢驗的結論對於這項性別歧視的訴訟表明『什麼? 12.50 a.找出練習12.48中F統計量的值。 b.這個統計量檢驗什麼樣的零假設? c.在 a=0.01 的水平上拒絕這個零假設嗎?這個檢驗的p值有多大? 12.51 練習12.48中資料的另一個歸模型在自變數表中省卻了 Sex 和 Doct,結果如下: Regression Statistics MultipleR R Square 0.9697 0.9403
•772• 第十二章多元迴歸與⋯般線性模型 Adjusted R Square Standard Error Observations 0.9307 2.3160 30 AHOVA Regression Residual Total df 4 25 29 $S 2110.925 134.093 2245.019 HS 527.731 5.364 E 98.389 significance F 0.0000 Intercept Senior RankD1 RankD2 RankD3 Coefficients 19.7113 0.5572 9.2414 5.1050 3.2243 Standard Error 1.0776 0.0744 1.8214 1.5875 1.3204 t Stat 18.2913 7.4893 5.0738 3.2158 2.4418 Pvalue 0.0000 0.0000 0.0000 0.0036 0.0220 自.找出簡略模型的 R2的俏。 b. 檢驗零假設“Sex 和 Doct 的真實係數為0”,取a=0.01。 12.52 對資訊系統管理員做了一項調查,以預測某個大城市區域內初級程序員和分析員的年薪。管理員寫明瞭他們公司裡付給初級程式設計師和分析員的標準年薪,公司資訊處理部門中的僱員數,公司的毛利潤率(以美分/每美元銷售為單位),以及公司的資訊處理費用佔總管理費用的百分比。資料存放在 Web 站點數據集的名為“EX1252.DAT”的檔案中,第一列為年薪,第二列為僱員數,第三列為利潤率,第四列為資訊處理費用。 2.以年薪作為因變數,其他三個變數作為預測因子建立一個多元迴歸方程。 b. 有無依據表明這三個預測因子至少對於年薪有一定的預測價值?求出話當的檢驗的p值。 c.如果有的話,哪一個自變數作為最後一個進入方程的預測因子有顯著的預測作用?取a=0.05。 12.53 a.求出練習12.52中的迴歸模型的決定係數R”。 b.只用僱員數作為自變數建立迴歸模型,並求出這個迴歸模型的決定係數。 c. 手工檢驗零假設“在已經給定僱員數的前提下,加人利潤率和資訊處理費用這兩個變數並不產生附加的預測價值”,取=0.05。從這個檢驗你能得到竹麼結論?預測作用?取a=0.05。
12.10 小結 • 773• 12.54 求練習12.52中每兩個預測因子的相關係數。資料中有嚴重的共線性問題嗎? 12.55(政府)•-個政府機構除了付給研究專案的直接費用外,還付給研究承包人一些間接的費用。雖然問接費用隨研究合同而有所差異,但都佔總合同經費的一個不小的比例。該機構的一個特別工作組收集「關於間接費用(與直接贊用的比值)、承包人僱員的個數、合同的大小與承包人年收入的百分比,以及個人消費與直接費用的百分比的資料。這四個變數按照上述的順序存放在Web 站點數據集的名為“EX1255.DAT”的檔案中。 a. 求每兩個變數的相關係數,資料中有嚴重的共線性問題嗎! b. 畫出間接費用與其他每一個變數的散點圖,找出可能的強影響點。 c.用所有資料,包括任何潛在的離群值建立一個迴歸方程(間接費用作為因變數)。 d.刪去潛在的離群值,並修改迴歸方程,各個斜率變化了多少? 12.56 考慮練習12.55中刪去了離群值的迴歸模型。 8. 求F統計量。該統計量檢驗什麼零假設?基於F 檢驗我們能得到什麼結論? b.對於每個自變數,求出:統計量的值。基於這些:檢驗,我們能得到什麼結論? 12.57 用練習12.55中刪去了離群值的迴歸模型,預測當承包人有500個僱員,合同是承包人收入的2.5%,個人消費是直接費用的55%時的間接費用。求 95%的預測區間。在這種情形下,間接費用等於直接費用的88.9%是不合理的嗎? 12.58(商業)一家快速增長的計算機商店的老闆想用四個解釋變數即顯示的字幕的條數,顯示的總長度,當前1BM相容機的使用者群體大小,以及當前蘋果兼容機的使用者群體大小來解釋每兩週計算機軟體的銷售量的增長。資料按時間順序存放在Web 站點資料集的名為“EX1258.DAT”的檔案中,第一列為銷售量,第二列為字幕數,第三列為總長度,第四列為IBM 群體大小,第五列為蘋果群體大小。 8.在進行計算以前,考慮當時的經濟狀況,並說明你期望每個偏斜率是什麼符號? B. 用銷售量作為因變數,!他變數作為自變數建立一個多元迴歸方程。每個偏斜率都有你期望的符號嗎? c.構造字幕這個變數的係數的95%的置信區間。計算機輸出結果應當包含該係數的標準誤差。這個信區間包含0嗎? 12.59 8.在練習 12.58的迴歸模型中,在通常的。水平上,零假設“沒有一個變數對
• 774• 第十二章多元迴歸與一般線性模型於預測是有價值的”會被拒絕嗎? b. 根據:檢驗的結果,如果有的話,在給定所有其他預測因子後,哪個預測因子在a=0.05的水平上增加了顯著的預測價值? 12.60 用練習12.58屮的資料求所有兩個變數之間的相關係數。資料中的共線性問題嚴重嗎? 12.61 比較練習12.28中迴歸模型的決定係數 R2與銷售量和字幕條數相關係數的平方。為檢驗零假設“給定字幕條數以後,總長度、IBM群體大小和蘋果群體大小不增加模型的預測價值”,計算相應的F統計量。在a =0.01 的水平上會拒絕這個假設嗎? 12.62 (商業)一商家的市場研究部經理做了一項調查,以研究是哪些因子決定從顧客手中接到的定單的大小。從公司計算機儲存的銷售資料中,經理得到了180個郵政編碼地區的平均定單的大小。一位業餘助手找到了最近普查的信息,得到了每個地區人均收入(Income)、接受正式教育的平均年數(Educn)以及現房的中位價格(HousePr)的資料。(這位助手未能找到其中兩個郵政編碼地區的房價資料,以0記之。這位經理還想知道氣候是否也對定單大小有一定影響,所以也收集了關於冬奉和夏季日均最高溫度(用 Wint Temp 和 Summ Temp 表示)的數據。 這位經理求助於你,要求你幫助分析資料。下面的結果只是一次初步嘗試。 經理想知道是否有證據表明溫度變數不是無足輕重,也想知道還有哪些變數是有用的。還有,把缺失資料以0代替是對還是錯,或者說是否歪曲了擬合的結果?請對這些輸出結果以及你所做的其他分析做出基本的、不太艱澀的解釋。 MTE > name cl "AvgOrder'c2'Income'c3'Educn' & CONT> c4 HouseEr c5 WintTempc6 Summ Temp MYB > correlations of c1-c6 AvgOrder Income Edhcn HousePr Wintremp Income Educn HousePr Rintremp SutmTemp 0.205 0.171 0.269 -0.134 - 0.068 0.913 0.616 -0.098 -0.115 0.561 0.014 0.005 0.066 0.018 0.481 MTB > regress cl on 5 variables in c2-c6 The regression equation is
12.10 小結 • 775• AvgOrder = 36.2 + 0.078 Income - 0.019 Ecucn + 0.0605 HausePr - 0.223 WintTenp + 0.006 Sunm Temp Predictor Constant Income Educn HousePr wintremp SummTeap Coef 36.18 0.0780 -0.0189 0.06049 -0.2231 0.0063 Stdev 12.37 0.4190 0.5180 0.02161 0.1259 0.1646 t-ratio 2.92 0.19 -0.04 2.80 -1.77 0.04 8 - 4.747 R-sg =9.6* Analysis ot Variance R-sg(adj)= 7.0* SOURCE Regression Error Total DF 5 174 179 SS 417.63 3920.31 4337.94 MS 83.53 22.53 E 3.71 SOURCE Income Educn HousePr NintTemp SummTemp DF 1 1 1 1 1 SEQ SS 182.94 7.18 142.63 84.84 0.03 Unusual Observations Dbs. Income 25 17.1 78 11.9 83 13.4 87 14.3 111 11.1 113 10.4 143 16.1 149 13.2 169 13.5 180 13.7 AvgOrder 23.570 24.990 36.750 45.970 21.720 43.500 20.350 44.970 44.650 23.050 Fit 36.555 34.950 29.136 35.918 33.570 33.469 27.915 35.369 34.361 34.929 stdev.Bit 0.632 0.793 2.610 0.453 0.802 0.817 3.000 0.604 0.660 0.469 R denotes an obs. with a large st.resid. X denotes an obs. whose X value gives it large influence. P 0.004 0.853 0.971 0.006 0.078 0.969 P 0.003 Residual -12.985 -9.960 7.614 10.052 - 11.850 10.031 - 7.565 9.601 10.289 •11.879 St.Resid -2.76R -2.13R 1.92X 2.13R -2.53R 2.15R -2.06RX 2.04R 2.19R -2.51R
• 776• 第十二章多元迴歸與一般線性模型 12.63 下面的表給出了一項試驗中12名男性充血性心力衰竭患者的人口統計的資料。 心力衰竭患者的人口統計資料 (NYHA II類或T類) 患者年齡 (歲) 疾病歷史身高 (cm) 01 02 03 04 05 06 07 08 g9 10 1! 12 67 45 59 63 55 6S 62 60 72 44 63 63 Syr 2yr 8yr Iyt Iyr Iyt 2yr Iyr 2yr 3mo Syr lyr 172.0 170.0 172.7 175.3 172.7 178.0 163.0 182.5 168.0 163.0 172.0 163.0 體重 (kg) 57.0 67.0 102.0 74.9 92.0 90.0 67.0 72.0 71.0 68.0 82.0 64.0 心臟指數 (I./min/m2) 1.6 2.4 2.2 1.1 2.3 1.6 1.4 2.2 1.3 2.4 2.1 1.1 基本肺毛細血管楔壓 (mm Hg) 40 25 39 39 34 36 36 "7 37 28 38 36 *:YT 表示年,mo表示月 a.對每一個變數用箱線圖概括這些資料。 b.用散點圖顯示(1)(心臟指數(Cardiac Index,CI),年齡》以及(肺毛細血管楔壓(pulmonary capillary wedge pressure, PCWP),年齡)(2)(CI,疾病歷史(disease duation)),以及(PCWP,疾病歷史)。是否有證據表明年齡和CI 或PCWP是相關的?疾病歷史與CI或 PCWP之間的相關性如何? 12.64 用練習12.63中的資料擬合了幾個多元迴歸模型:31=CI,32= PCWP,x1=年齡, 2=疾病歷史。 8.Y1=B+B21+B222+E b.Y=Ba+Bx1+Bz2+Bar172+e d.Y2-B+Biz1+ B2+ Bszx2ta RESRESSION ANALYSIS, MODEL I Depeadent Variable:Ci
12.10 小結•777• Analysis of Variance Source Model ErTOr C Total DF 2 11 Sum of Squares 1.56955 0.75961 2.32917 Nean Square 0.78478 0.08440 F Value Prob≥F 9.298 0.0065 Root MSE Dep Hean C.V. 0.29052 1.85833 15.63333 R-square Adj R-sq 0.6739 0.6014 Parameter Bstimates Variable INTERCEP AGE DURATION DF 1 1 1 Parameter Estimate 4.475622 -0.046203 0.060395 Standard BrrOr 0.63976685 0.01083529 0.03852829 r for HO: Parameter=0 6.996 -4.264 1.568 REGRESSION ANALYSIS, MODEL II Prob> T 0.0001 0.0021 0.1514 Dependent Variable: CI Analysis of Variance Source Hodel Error C Total DF 3 8 11 Sum of Squares 1.57161 0.75755 2.32917 Root MSE Dep Mean C.V. 0.30772 1.85833 16.55915 Parameter Estimates Mean Square 0.52387 0.09469 R-square AdjR-$g Variable INTERCEP DE 1 Parameter Estimate 4.599307 F Value Prob>E 5.532 0.0237 0.6748 0.5528 Standard Error 1.07814691 "for HO: Parameter=0 4.266 Prob> I! 0.0027
• 778• 第十二章多元迴歸與一般線性模型 AGE DRATTON AGE DUR Variable INTERCEP AGE DURATION AGE.DUR -0.048340 -0.022410 0.001376 0.01848097 0.56287924 0.00932590 Variable Label Intercept 1 1 1 DE 1 1 1 Dependent Var iable: FCME Analysis of Variance Source Hodel Error C Total DF 2 9 11 Root HSE Dep Mean C.V. Paraneter Est imates Variable INTERCEE AGE DURATION DE 1 1 1 - 2.616 -0.040 0.147 Sum of Squares 221.88101 306.36899 52日.25000 Hean Sqyuare 110.94051 34.04100 E Value 3.259 5.83447 33.75000 17.28731 R-square Adj R-sq 0.4200 0.2911 Parameter Estimate 7.298766 0.400475 1.021327 Starsard Error 12.84835977 0.21760372 0.77375900 RRCSRESSION ANAL YSIS, HODEL IV Dependient Variable: PomP Analysis of Variane Prob>E 0.0862 T Eor HO: Parameter=0 0.568 1.840 1.320 0.0309 0.9692 0.8964 AGE TIHES DURATION REGRE.SS ION ANAL.YSIS, MODEL III Prob≥/r| 0.5839 0.0989 0.2194
12.10 小結 • 779• Source Modlel Error C Total DF 3 8 11 Root MSE Dep Mean C.V. Paraneter Estinates Variable INTERCEP AGE DURATION AGE_DUR DF 1 1 1 1 Su of Squares 228.56515 299.58485 528.25000 6.12051 33.75000 18.13484 Hean Square 76.18838 37.46061 F Value 2.034 Prob>E 0.1878 R-square Adj R-sg 0.4327 0.2199 Parameter Estimate 14.344026 0.278775 - 3.695301 0.078352 Variable Label Intercept Standard Error 21.44389171 0.36757883 11.19543293 0.18548824 r for HO: Parameter=0 0.669 0.758 -0.330 0.422 Prob≥/T1 0.5224 0.4700 0.7498 0.5838 Variable INTERCEP AGE DURATION AGE_DUR OF 1 1 1 1 AGE TIMES DURATION 哪一個模型提供了對心臟指數資料的最好的擬合?哪一個模型提供了對肺毛細血管楔壓資料的最好的擬合?這些分析是否證實了你在練習12.63 中的結論? 為什麼? 下面的所有練習參見本章開始所介紹的案例。 12.65 資料的原始分析包括畫出設計因子對錶現變數 avtem 和logv 的圖, 以便看看哪一個設計因子與表現變數有關。更進一步,這些圖還表明表現變數和設計因子之間的關係是線性的還是需要更高階的模型。 2.作各個設計因子對錶現變數的圖,即畫出(IT, avtem),(QW,avtem)和 (VS, avtem)的圖,以及(IT,logv),(QW, logv)和(VS, logv)的圖。 b.考察 avtem 的二張圖,如果它與某個設計因子有關係的話,描述這個關係。 c.考察 logv的三張圖,如果它與某個設計困子有關係的話,描述這個關係。 12.66 考察散點圖以後,我們要考察幾個模型,以確定哪個模型對於 avtem
• 780• 第十二章多迴歸與一般線性模型資料提供了總體上最好的擬合,並且沒有擬合過頭,即沒有什模型中放入太多的項。對 avtem 的資料擬合以下模型。 模型1:avtem= Bo+BIT+BQW+B VS+E 模型2: avtem= Bo+B IT+B2 QW+B VS+& 12+BsQ2+ BoV2+e 模型3: avtem= Bo+B, IT+B QW+B VS+ BA IT *QW + BsIT* VS+ BoQW*VS+E 模型4: avtem= Bo + BI IT+ B QW+ Bs VS+Ba 12+ BsQ2+BV2+ BI IT*QW+ B& IT *VS+ BQW *VS+E a.基丁以!4個模型的R2的值,你會挑選哪一個作為對資料的“最好”的擬合? b.用a=0.05檢驗假設“模型2與模型1沒有顯著差別”。 c. 用~=0.05檢驗假設“模型3與模型1沒有顯著差別”。 d. 用~=0.05檢驗假設“模型4與模型3沒有顯著差別”。 e.用a =0.05檢驗假設“模型4與模型2沒有顯著差別”。 「.透過散點圖和(a)~(e)的結果,你向工程師推薦哪個模型?解釋你挑選該模型的理由。 12.67 考察散點圖以後,我們要考察幾個模型,以確定哪個模型對於Logv 數據提供了總體上最好的擬合,並且沒有擬合過頭,即沒有在模型中放人太多的項。 對 logv 的資料擬合以下模型。 模型1:l0gv= Bo+B1 IT+B2 QW+BVS+E 模想2:logv= Bn+BI IT+B2 QW +Bs VS+ Ba12 +BsQ2+ BV2+E 模型 3: logv= Bo+A IT+B2QW+Bs VS+B4 IT*QW +BSIT*VS+ BoQW*VS+E 模型4:logv= Bo+B1 IT+ B2 QW+Bs VS+Ba I2+ B:Q2+BV2 + B- IT *OW+Bs IT*VS+BQW*VS+a 2.基於以上.4個模型的R’的值,你會挑選哪一個作為對資料的“最好”的擬合? b.用a=0.05 檢驗假設“模型2與模型1沒有顯著差別”。 .用a=0.05 檢驗假設“模型3與模型1沒有顯著差別”。 d. 用a=0.05 檢驗假設“模型4與模型3沒有顯著差別”。 e.用a=0.05檢驗假設“模型4與模型2沒有顯著差別”。 f.透過散點圖和(a)~(e)的結果,你向工程師推薦哪個模型?解釋你挑選該模型的理由。
第十三章 13.1 引言和素例 13.2 變數的挑選(第一步) 13.3 模型形式的確定(第二步) 13.4 模型假設的檢查(第三步) 13.5 小結多元迴歸續論 13.1 引言和案例在第十二章,我們給出了需要應用多元迴歸模型的背景,討論了一般線性模型及其在多元迴歸模型中的應用,介紹了正規方程《組),即用來獲得多元迴歸模型中的各引數日的最小二乘估計的一組方程。接下來,我們給出了各個B;的標準誤差,以及它們在單個引數B,一組B,E(y)和y的未來值的推斷中的應用。我們還考慮「幾條迴歸線斜率的比較和 logistic迴歸這些特殊情況。最後,我們用簡練的矩陣表示給出了這些推斷方法。 本章將討論多元迴歸模型的實際應用。對丁一個給定的問題,如何建立一個合適的多元迴歸模型呢?雖然沒有鐵的規則,但我們可以給出一些提示。 首先,對了每一個問題,你必須給迴歸方程確定一個因變數和幾個候選的自變量。這個挑選自變數的過程將在13.2節中加以介紹。在13.3節中,我們將討論如何挑選多元迴歸方程的形式。建立一個多元迴歸模型的最後一步,是檢查當前的假定是否沒有被違反。檢查模型假定的有效性的方法將在13.4節中給出。 對於一個給定的問題,使用一•次這些步驟你未必能夠得到一個合適的模型。 對於有些問題,你可能要反覆利用這些步驟才能建立起一個模型。例如,我們在已經考慮了候選的白變數(第一步),並挑選了包含其中的一些自變數的模型形式(第二步)以後,可能發現違反了模型中某些假定(第三步)。這可能意味著我們要返回第一步或老第二步,但在此之前,我們希望已經從前面的思考中變得聰明,可以修改所考慮的變以及(或者)挑選出來的模型。最後,形成一個滿足試驗者需要的迴歸模型。由此模型出發,就可以利用第十二章的分析技術對模型引數、E(y)和 v進行推斷「。 案例:建立一個迴歸模型以幫助一家辦公用品公司的銷售部經理評估流動推銷員的表現
•782• 第十三章多元迴歸續論一家辦公用品公司的銷售部管理人員評估流動推銷員的表現時遇到了困難。 這些推銷員四處奔走,運送該公司的產品,創辦展銷活動,努力增加市場份額,介紹新的產品,並發現與該公司產品有關的各種問題。在這種工作中,旅行花費了很多的時間。 資料收集的設計銷售部管理人員相信,推銷員表現優劣的一個重要因子是在路上花費大量時間的深層動機,另外一些變數也有作用。有些銷售區域由於人 1的差異或零售渠道的差異而比別的區域更有潛力。在大的區域內更加困難,因為跑路的時間更長。 一個重要的變數是補助費。一些推銷員拿到工資和一份銷售的佣金,而另外一些人則只拿到一份更大的佣金。雖然有些管理人員認為重要的因子是佣金狀態和銷路的組合,銷售部管理人員懷疑這兩組之間有差異。尤其是,他們懷疑有多條有效銷路並且只拿佣金的推銷員是非常高產的。此外,管理人員還懷疑對於有許多銷路的推銷員,利潤可能被誇大了,他們希望知道每條銷路上的利潤情況。 資料的輕理收集了 51 個椎銷員的資料,資料中包括區號 DIST,該推銷員促成的所有定單的純利潤率 PROFIT(這是感興趣的因變數),區的面積 AREA(以下平方英里為單位),區內人口數 POPN(以百萬為單位)區內銷路的數量 OUTLETS,補助費的示性變數 COMMIS(對於只拿佣金的人取1,拿一部分工資一部分佣金的人取 0)。資料如下: DIST PROEIT 1 1011 2 1318 3 1556 4 1521 5 979 6 1290 7 1595 8 1155 9 1412 10 1194 11 1054 12 1157 13 1001 14 831 15 857 16 188 17 1030 18 1331 AREA 15.96 7. 31 7.81 7.31 19.84 12.37 6.15 14.21 7.45 14.43 6.12 11.71 9.36 19.14 11.75 40.34 7.16 9.37 POPN 3.881 3.141 3.766 4.587 3.648 3.456 3.695 3.609 3.801 3.322 5.124 4.158 3.887 2.230 4.468 0.297 4.224 3.427 OUTLFTS 213 158 203 170 142 159 178 182 101 148 227 139 179 124 205 85 211 145 COMMIS 1 1 1
DIST 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 PROEIT 1001 1052 1610 1486 1576 1665 878 849 775 1012• 1436 798 519 1701 1387 1717 1032 973 AREA 7.62 27.54 15.97 12.97 17.36 6.24 11.20 18.09 13.32 14.97 21.92 34.91 8.46 7.52 14.43 15.37 11.20 7.20 13.49 6.56 9.35 11.12 10.58 17.B2 10.03 10.01 10.70 24.38 6.57 6.64 9.24 11.62 12.85 13.1 引言和案例 •783• FOPN 4. 031 2.370 3.903 3.423 2.390 4.947 4.166 4.063 3.105 4.116 1.510 0.741 5.260 5.744 2.703 3.583 4.459 4.951 3.474 4.637 3.900 3.766 3.876 2.753 4.449 4.680 4.806 2.367 5.563 4.357 A.670 3.993 3.923 OUTLETS 205 166 149 186 141 223 176 187 131 170 144 126 234 210 141 158 167 174 211 172 185 166 189 164 193 157 200 142 199 166 221 180 193 COHHIS 1 1 1 1 0 1 0 1 1 1 1 0 0 1 0 1 1 1 0 1 1 o 資料的分析用這些資料進行多元迴歸分析,看看被管理人員懷疑對 PROFIT 有影響的變數是否真的有影響;尤其是要弄清 COMIMITS 和 OUTL.ETS 是否有組合效應。考是用 PROFIT本身作為因變數好還是用 PROFIT被 OUTLETS除「以後作為因變數好;省略那些對預測沒有多少價值的變數。如果有的話,找出並糾正
• 784• 第十三章多元迴歸續論所有對於模型假定的違背。給這些管理人員寫一份簡短的非技術性的報告,並解釋你的發現。這個資料集合的分析將接照本章中所討論的方法進行。 13.2 變數的挑選(第一步) 在構建•個多元迴歸模型時,最關鍵的決定或許是自變數的挑選。在本章後面的幾節中,我們將考慮許多精化多元迴歸分析的方法,但是,首先我們必須就考慮把哪些自變數包含進去作出決斷,從而決定出去收集哪些自變出的資料。如果我們沒有有用的資料,也就不可能建立有用的預測模型。 雖然原本的最優策略可能是構造一個帶有許多變數的巨大的多元迴歸模型, 但這樣的模型難以解釋,並且收集和分析資料都很花時間。那麼,一個管理人員如何在原始的變數中合理地挑選出包含在迴歸分析中的變數呢? 任資料的原始挑選中,問題領域的知識至關重要。首先找出要研究的因變過。那些透過觀察、預測過這個因變數並解釋其變化的人,通常對於哪些因子(自變數)影響該變數有深入的見解。因此,首先要諮詢對丁要研究的因變數有最多經驗的人。例如,假定問題是要預測在40個地區的每一箇中某種便宜的計算機列印機在下個季度的銷售量。那麼因變數y就是地區銷售量。某些自變望,如在每個地區的廣告預算以及銷路的數量等都是候選的變數。••個出色的地區銷售經理無疑會給山其他的自變數。 挑選自變數時一個重要的考慮是共線性問題,即嚴重相關的自變數。多元回歸中的一個偏斜率估計了改變一個自變數而其他自變數保持不變時的預測效應。 然而,如果某些或全部自變數一起變動,就很難把每個自變數的預測效應分離出來。當自變數高度相關時,一個常見的結果是:總體F 檢驗是很顯著的,但單個的 t檢驗都不顯著。F檢驗結果的顯著性只不過表明了在自變數中存在可以探測出來的預測價值,而不顯著的:值則表明,在給定其他所有變數的條件下,沒有一個變數的附加的預測價值是可以探測到的。其原因在於,高度相關的預測因子相耳作為代表,它們中的任何一個或許是有用的,但加上其他的預測因子不起什麼作用。當在多元迴歸模型中用到了所有嚴重共線性的自變數時,就不可能確定到底是哪一個因子與因變數相關聯。 評估一組自變數中的共線性有若干種方法。最簡單的方法是看(Pearson)相關矩陣,這個矩陣可以由幾乎所有的計算機軟體包算出。其中的相關係數越大,共線性問題也越嚴重。在多數情況下,任何接近或超過0.9的相關係數都表示了復相關問題的嚴重性。 -些計算機軟體包可以作出散點圖陣,即對每一對變做其相應的散點圖而產生的一組散點圖。在這樣的圖陣中,共線性表現為兩個自變數有近似線性的關
13.2 麥量的挑選(第一步)•785• 系。例如,抽取了一群從半有關汽車內容寫作的作家,請他們為一輛新型小汽車就汽車的效能(perform)、舒適程度(comfort)、外觀(appear)和綜合質量打分(overall),分數從(到100。做這項研究的推銷經理想知道哪些變數能最好地預測作家對於汽車的打分。用Minitab給出的散點圖陣如圖13.1所示。在效能、舒適程度和外觀的得分之間有清楚的線性關係,表明了有明顯的共線性。下面的相關矩陣證實了這一事實: MTB>correlations cl - c4 Correlations (pearson) overall perform confort Perform confort apPear 0.698 0.769 0.630 0.801 0.479 79.560.576.751 50.25overa11 83.5• 58.51) 0. 693 perform comfort aPPCaI 59.5 82.5 60.5 79.5 50.25 76.75 58.5 83.5 圖13.1 汽車作家資料的散點圖陣散點圖陣也可用於探察非線性關係或老離群值。圖陣中包含了因變董對各個自變址的散點圖。有時,圖陣中會清楚地顯示出一條曲線或者一個離群值。有時, 另一些自變數的效應可能隱含某個問題。本章後面討論的殘差分析是另一種檢查是杏有違背假定的現象的良好手段。 相關陣和散點圖陣並不總能把共線性問題暴露得一覽無餘。有時,儘管兩個預測因子分別與第三個只有不強的相關,但兩個因子一起卻可以把第三個預測得很好。(直接勞動時間和間接勞動時間一起把總勞動時間預測得相當好,而其中的每一個都只能對總的勞動時間給出不完全的預測。)在各種各樣的計算機軟體中, 已經編人了多種更為複雜的診斷共線性的方法,其中之一是在第十二章中討論的
• 786• 第十三章多元迴歸續論方差膨脹因子(VIF),即1/(1-R3),這裡R’指一個自變數的變差中有多少被其他變數所解釋。這個 VIF 考慮了預測因子中的所有關係,因而比簡單的相關係數更完全。Cook and Weisberg (1982)和 Belsley,Kuh, and Welsch(1980)中定義了幾種診斷共線性的度量。大多數統計學計算機程式的說明書中都指明程式中能計算出來的是這些量中的哪一個,結果表明了什麼。 例13.1 一家連鎖超市推出一項某種品牌的冰淇淋的促銷活動。從收款臺的掃描資料得到了促銷活動的週末一天實際銷售量(Sales)的資料。三個可能的解釋變數分別為:商店規模的大小(以幹平方英尺計算,SgFeet),商店接待的顧客數(以百人計算,NumCusts)和購物量的平均值(AvgSize,也是從掃描資料中得到的)。圖13.2 2000Sales 1500 1000 50020 15 10 5 35 3025 20 151080 70 60 50 • SaFeet NumCusts • AvgSize • 500 1000 2000 5 10 15 20! TT 10 15 20 25 30 35 50 60 70 80 圖 13.2 冰淇淋資料的散點圖陣
13.2 變數的挑選(第步)•787• 為由這些資料畫出的散點圖陣。有共線性的現象嗎?由任何其他的問題嗎? 解答看圖陣右上方的六個散點圖。這些圖表明,在SoFeet 即商店規模的大小和 Nu:mCusts 即顧客數之間有清楚的增長關係,但並不特別強。而這兩個自變量與平均購物量之間相關性不大。因此,有中等程度的共線性問題。該圖陣沒有嚴重的非線性問題的跡象,但有—一個離群值,在 Sales 對 SqFeet 的圖中,一個商店有最大的面積而其銷售量兒乎最小。這個離群值有相當強的槓桿作用,該商店的兩個自變數值都是極端的(大小和顧客數)。該店可能有最著的影響,因為對於這兩個預測因子中的任何一個,與該店相應的點都落在迴歸線下方很遠的地方。進一步的檢查發現,41號商店的冰淇淋展臺在週末失去了吸引力,商店經理不得已從展臺上撤下了冰淇淋。迴歸分析當中把該店略去了。 避免共線性問題的最好的方法之一是在一項迴歸研究開始之前,恰當地選取預測變。要注意選取那些與變數確實相關,但相互之間又沒有相關關係的自變基。如果可能的話,要找出能夠反映因變數的各種分量的自變數。例如,假定我們要預測在40 個銷售區內,與個人計算機配套使用的低價位印表機的銷售量。總的銷售基由幾種型別的買主的購買量構成。我們可以找出幾個重要的買主型別: 大學生,家庭使用者,小型公司和計算機網路工作站。因此,我們可以努力得到大學的新生數量、家庭收入、小公司的成立時間以及新網路安裝的資料,並用這幾個因子作為自變數。其中每個變數對於印表機銷售數量的預測都是有益的,並且在這些自變數中沒有明顯的相關。懂得你要預測的這個變數的人常常能夠識別出該址的分量,並就每個分量給出合理的預測。 例 13.2 一家微機銷售和服務公司關心服務呼叫的數量。公司在每個銷售區域內有兄個服務網點,需要服務的計算機使用者會打電話給距離最近的服務網點。這些網點由在總部受過訓練的技師組成。關鍵的問題:應該為這些技師在總部分派責任, 還是把他們派到服務網點上;每個月必須做一次分派工作的決策。服務網點上所需要的技師數兒乎總是隨需要服務的呼叫次數成比例地增加。與服務經理討論得知,決定服務呼叫次數大小的關鍵變數可能是:在用計算機數量,新安裝的數,最近是否有了型號的變化以及平均溫度(高溫度,或許還有與之相關的高溼度會導致更頻繁的計算機故障,尤其在沒有完善的空調裝置的房間內)。在這些變數中,哪些變數與其他變數是相關的? 解答很難想像溫度會與其他變數相關。在用的計算機數與新安裝的計算機數當有某種程度的相關,這只是因為每一臺新安裝的計算機都是一臺在用的計算
•788• 第十二章多元迴歸續論機。除非該公司剛剛經歷了一次快速增長,我們認為二者之間不會有嚴重的相關 (然而,我們要看資料)。型號的變化與在用數量以及新安裝數量之間的相關不明顯。我們應當收集資料,並作出相關分析。 經理在開始做迴歸研究時,可能會把太多的自變放入到迴歸模型中去。因此,我們需要某些指導性的原則,以幫助從候選的變數中挑選出包含在最後的迴歸模型中的自變數。 在與專冢討論確定了一個自變數的清單後,要從該清單挑選出應該包含在回歸模型中的自變數,有若千方法可供選用。本書中我們將討論幾個這樣的方法,進一步的細節可以參看 Neter, Kutner, Nachtsheim, Wasserman(1996). 第一種挑選方法是用因變數和候選變舅表中的一個或多個自變數進行所有可能的問歸。顯然,除非分析可以使用適當的軟體用計算機來完成,並且有充分好的硬體裝置來高效地執行大量的迴歸模型的計算,否則,不應選用這種方法。 作為…個說明,我們考慮由20個獨立的藥品公司組成的樣本,併為每個公司假想一個月如方銷售量 VOLUME 資料。這些資料,以及總營業面積(FLOORSP)、處方部佔總營業面積的百分比(PRESC-RX)、公司可用的停車位數(PARKING)、公司是否位於一個購物中心內(SHOPCNTR)以及周圍社群的人均收人 (INCOME)的資料記錄於表 13.1。 序號 1 2 3 公司 1 2 3 4 5 7 78 9 10 11 12 13 14 15 16 17 18 19 20 N=20 10 11 12 13 14 15 16 17 18 19 20 MULUME 22 19 24 28 18 21 29 15 12 14 18 19 15 22 13 16 57 17 表13.1 20象藥品公司的資料 FLOOR-SP FRESC-RX 4900 9 5800 10 5000 11 4400 12 3850 13 $300 15 4100 20 4700 22 5600 24 4900 27 3700 28 3800 31 2400 36 1800 37 3100 40 2300 4400 3300 2900 2400 9SZbZ北 PARKING SHOPCNIR 40 1 50 1 55 ] 30 0 42 0 20 INOOME 18 20 17 19 10 910g帥Ug85895Z8s四9SZ
13.2 變數的挑選(第一) 789 在進行表13.1中資料的所有可能的迴歸之前,我們需要考慮用什麼樣的準則從所有可能的迴歸中挑選擬合得最好的方程。從所有可能的迴歸方程中挑選最優迴歸方程的第一個,也許是最簡單的準則,是計算用來估計的 MS(殘差) SS(殘差)/[ 一(&+1)】。由於該量用於大多數關於模型引數和E(y)的推斷(統計檢驗和置信區間),選擇使得s?最小的模型是合理的。第二個準則使用每個模型的決定係數 R2。透過考察有最高 R3值的模型,我們可以看到是否有某個適當的模式對於包含在模型中的變數的個數給出一個建議,並識別出這些變數。 例13.3 考慮表13.1 中的資料。用R2準則在含有1個,2個,3個及4 個自變的回歸方程中決定最優的迴歸方程。 解答這裡給出 SAS 的輸出結果,有最高 R2值的方程見表13.2。 SAS OUTPUT FOR PROC RSQUARE AII POSSIBLE SUBSETS ANALYSIS N= 20 Regression Models for bependent Variable: VOLUME NUMBER IN MODEL R-square 0.4393318 1 0.1479899 1 0.0410534 1 0.0335317 1 0.0048042 一 -- 2 0.6656627 2 0.6470647 20.5474日78 2 0.5314244 2 0.4957679 2 0.2565364 2 0.2348733 2 0.2054310 2 0.0685567 2 0.0421078 C(p)Variables in Hodel 10.1709 PRESC_ RX 23.7702 INCOWE 28.7618 SHOECNTR 29.1129 FLOOR_SP 30.4539 PARKING 1.6062 FL0OR_ SP PRESC_RX 2.4744 PRESC_ RX SHOPCNTR 7.1224 PRESC_ RK TNCOMIE 7.8722 PRESC_ RX PARKING 9.5366 SHOPCNIR INCOME 20.7035 FLOOR_SP SHOECNIR 21.7147 FLOOR_SE INCOME 23.0890 PARKING INCOME 29.4780 FLOOR_ SP PARKING 30.7126 PARKING SHOFCHTR -=-1
• 790• 第十三章多元迴歸續論 0.6907243 3 0.6794331 3 0.6664115 3 0.6625912 3 0.6471156 3 0.6024323 3 0.5001258 3 0.4982807 3 0.2650711 3 0.2556961 4 0.6987395 4 0.6932666 4 0.6805857 4 0.6630066 4 0.5012890 5 0.7000737 2.4364 FLOOR_ SP PRESC_ RX SHOPCNTR 2.9635 FI00R_SE PRESC_ RX FARKING 3.5713 FLOOR_ SP ZRESC_RX INCOHE 3.7496 ERESC_RY PARKING SHOPCNTR 4.4720 PRESC_ EX SHOPCNIR THCOME 6.5577 PRESC_ RXK PARKING IHCOME 11.3332 FLOOR_ SP SHOECNTR INCOME 11.4193 PARKING SHOPCNIR INCOME 22.3051 FLOOR _ SP PARKING SHOPCNTR 22.7427 FLOOR_SF FARKING INCONE 1 4.0623 FLOOR_SE PRESC_ RX PARKING SHOPCNIR 4.3177 FIOOR_SP PRESC_RX SHOPCNTR IHCOME 4. 9097 FLOOR_ SE ERESC_RK PARKING INCOHE 5.7301 PRESC_ RX PARKING SHOPCNTR INCONE 13.2789 FLOOR_ SP PARKING SHOPCNTR INCOME 6.0000 FLOOR_SE PRESC _RX PARKING SHOPCHTR INCOHE 表13.2 R*準則下的最優擬合模型自變數的個數 1 2 3 4 R2 0.439 0.666 0.691 0.699 變數處方部面積百分比總營業面積和處方部面積百分比總營業面積、處方部面積百分比和購物中心除人均收入外的其他變數雖然從一個變到兩個自變域時,R2的值有一個眺躍,但繼續增加變數時改進不大。因此,基於 R2準則的最優擬合模型包含總營業面積和處方部面積百分比。 用R2作為挑選最優迴歸方程的準測的問題之一是,隨著自變數個數的增加, R2是增加的,哪怕新的自變數只有很小的預測能力。另一個當增加新變數時不必增加的挑選最優迴歸的方法如下。 記住我們搜尋的目標是對將來的值»產生最優預測的迴歸方程中所包含的自變數子集。然而,不幸的是,由於並不知道將來的值是什麼,我們將努力尋求最優迴歸方程,使得對於已知的樣本y值有最好的擬合。在強調對於已知的樣本y 值的最優擬合與強調選取對於未來值的最優預測因子之間,一座可能的橋樑是把樣本資料分為兩部分,一部分用於擬合各種各樣的迴歸方程,而另一部分用來校
13.2 變數的挑選(第一步〉•791• 驗預測方程對丁“未來”的值的預測有多好。至於應把多少資料用來擬合,把多少資料用來校驗預測,雖然並無普遍接受的規則,然而,當樣木大小n大於2 +20 時,把資料分為兩半是合理的,這裡,戶為最大的候選模型中的引數個數。最優預測方程的一個可能的準則是,對於用來校驗預測的那部分資料,極小化二(y:一 3:)2. 一旦用這個分離資料的方法挑選出了迴歸模型,就要用全體的樣本資料來得到最後的預測方程。因此,雖然看起來好像我們只用了一部分資料,但其實最後的預測方程是用所有資料得到的。 然而,觀察是要花錢的。要得到足夠的資料以應用分離資料的方法挑選擬合最優的迴歸方程,有時是不現實的。在這種情況下,可以用PRESS 統計量來完成校驗。對於一個»值的樣本和一個聯絡少下一組x的迴歸模型,我們首先去掉第一個觀察值,用其餘的n-1 個觀察值擬合該模型。基於所得到的擬合方程,估計第一個觀察值(記為)並計算出殘差»1一3i。重複該過程 -1次,依次除去第二、三,⋯,第n個觀察值,每次都對除去的觀察值計算殘差,然後得到 PRESS 統計量為 PRESS- 2(3-3:)2 選取使得 PRESS統計量最小的模型作為最優擬合模型。 例 13.4 對於表13.1中的資料,計算 PRESS統計量,以確定最優擬合迴歸方程。 解答這裡給出SAS的輸出結果。基於 PRESS 統計量有最小值的最優擬合模型含有自變數總營業面積和處方部面積百分比。 SAS OUTPUT FOR ALLL POSSIBLE SUESET ANALYSIS PRESS STATISTIC N=20 Regression Models for Dependent Var iable: VOLUME NUHBER IN PRESS STATISTIC VARIABLES IN MODEL, HODEL 1 1 1 1 1 516.391 772.163 869.668 897.636 907.636 -— ERESC_ RX INOOME ELO0R. SP SHOPCHTR PARKTNG -l--
• 792• 第十三章多元迴歸續論 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 1-| 4 4 4 A 347.007 368.757 479.976 485.B20 547.150 762.507 787.578 797.404 916.644 975.912 370.843 371.671 378.166 455.424 482.387 513.246 523.006 602.214 819.792 890.550 405.832 458.014 471.086 513.468 684.190 513.915 FLOOR_SP FRESC_RX PRESC_RX SHOPCNTR PRESC_RX PARKING SHOPCNTR TNCOHE FRESC_RX INCOHE ELOOR_ SP SHOPCNIR PARKING INCCNE FLOOR_SP INCOHE FLOOR_SP PARKING PARKING SHOPCNIR ---— -- 1FLLOOR_SP ERESC_ RX SHOICNIR FTOOR_ SP PRESC_RX PARKING FRESC_RX PARKING SHOPCNIR FRESC_ RX SHOECNTR INCOME FLOOR_SF PRESC_RX INCONE FRESC_ RX PARKING INCOME PARKING SHOPCNTR INCOME FLOOR_ SP SHOPCNTR INCOME FLOOR_SP PARKING SHOPCHIR FLOOR_ SP PARKING INCOME - - FLOOR_ SE PRESC_RX PARKING SHOECNTR FRESC_RX PARKING SHOECNTR TNCOME FLOOR_SE PRESC_ EX SHOPCNTR INCOME FLOOR_ SP PRESC_RX PARKING INCOHE FLOOR_ SE PARKING SHOPCNTR INCOME FLOOR_ SP PRESC RX PARKING SHOECNIR INCOME 到此為止,我們已經討論了從自變數的一個子集中挑選最優擬合迴歸方程的準則。一般來說,如果我們選擇了一個模型,其中丟掉了一個或多個重要的預測因幹,就說這個模型是詮釋不充分的,此時本應當用丟掉的這些自變數解釋的y值的變異性就會附加到估計的誤差方差中。另一方面,如果我們選擇了一個模型,其中包含了--個或多個“額外”的預測因子,就說這個模型是詮釋過頭的,此時可能有復共線性問題,我們以後再處理這一問題。防止詮釋不充分和詮釋過頭的關鍵是基於C,統計量的準則,該準則針對過頭和不充分詮釋的問題平衡了前面的挑選準則的得失,從而達到挑選最優子集迴歸方程的目的。C,統計量[參見 Maliows
13.2 變數的挑選(第一步) 793 (1973)]為 C。= SS(獲券)e-(n-2p) 其中SS(殘差),表示從有p個引數(包括B0)的模型得到的誤差平方和,了?為包含敏多個數的自變數的迴歸方程的均方誤差。在一個模型挑選問題中,對於每一個擬合的迴歸方程計算C,的值。理論的結果表明,對於最優擬合模型應有Cp~p。 例13.5 參見例13.3中的輸出。確定含有1,2,3,4 和5個變數的所有可能的迴歸的 C 值。挑選含有1.2,3,4個自變數的最優擬合方程。基於Gp統計量,哪個迴歸方程給出最優的總體擬合? 解答圾優擬合模型總結在表13.3中。基於C,準則,含有2,3和4個自變址的最優模型區別不是很大。最重要的預測變數應為總營業面積和處方部所佔的百分比,因為它們出現在所有含2,3和4個自變數的最優擬合模型中。注意,這兩個變數也是在例13.3中找出的重要變數。 表13.3C,準則下的是優擬合模型白量的個數 2 P 2 3 變數 3 4 4 s 10.17 1.61 2.47 2.96 4.06 處方部面積百分比總營業面積,處方部面積百分比處方部面積百分比,購物中心心總營業面積,處方部面積百分比,停車位總營業面積,處方部面積百分比,停車位,購物中心最優子集迴歸提供了另外一種從含有個自變數的迴歸方程中尋找最優擬合模型的方法。該方法使用了一個可以避免進行所有可能的迴歸的演算法,相應的計算機程式給出 M(M由使用者給定)個含有1個自變數、M 個含有2個自變量、…,直到含有所有的K個白變數的迴歸方程。某些程式允許使用者給定最優準則(如C,和最大R2),而另一些程式則用固定的準則。例如,Minitab 使用最大 R? 準則對於每個子集的大小來挑選 M個最優子集,對於每個員=1,2,⋯,&算出有最大R2的M 個迴歸方程。下面我們用表13.1 中的資料來說明這個方法。
• 794• 第十三章多元迴歸續論例 13.6 用這裡給出的關於表13.1中資料的 Minitab 輸出,基於最大R2準則,找出了集大小為1到5的M=2個最優子集迴歸方程。從這些“最優”的迴歸方程中,選出總體上有最優 R2值的迴歸方程。 解答輸出如下。對於每個子集的大小,該程式找出兩個最優的子集,並給出每個子集的調整 R2,Cp 和JMS(殘差)=、的值。基於最大 R2,含有所有自變數的子集總是最優的。然而,基子調整 R2 和Cp,我們將得到與最大R’不同的結論。在這個輸出結果中,Minitab沒有給出最小二乘迴歸線。對於挑選出來的最優自變董子集,接下來要執行 Minitab 迴歸程式來得到迴歸方程,注意在 Minitab 的輸出結果中,R2的值是接百分率100R2給出的。 Best Subsets Regression: VOLUINE verSuS FLOOR_ SP, PRESC_ RX, PARKING, SHOPCWT, INCOHE Response is VOLUHE VARIABL.ES INCLUDED Indicated by * F P s LRPH OEAOI OSRP N RCKCC --INO S RNTH R XGRE No. Vars In Model R-Sg R-Sg(adj) CP 切 1 43.9 40.8 10.2 4.8351 x 1 14.8 10.1 23.8 5.9604 X 2 66.6 62.6 1.6 3.8420 XX 2 64.7 60.6 2.5 3.9474 x x 3 69.1 63.3 2.4 3.9089 × X x 367.9 61.9 3.0 3.8778 XXX A 69.9 61.8 4.1 3.8825 K X X X 4 69.3 61.1 4.3 3.9176 XX XX 5 70.0 59.3 6.0 4.0099 XXX ×X 還有許多其他的方法可以用來挑選最優迴歸。雖然我們不打算再花費大量的篇幅來討論這一主題,但要簡單介紹一下向後剔除方法和逐步迴歸方法。
13.2 變數的挑選(第一步) 795• 向後剔除方法從擬合包含所有候選自變數的迴歸模型出發,對於每一個自變量x),我們計算 SSdropi F= MS(殘差〉’ j= 1,2.⋯ 其中 SSdrop;為從含有所有自變數的模型中去掉z;後迴歸平方和的下降量,MS 《殘差)為從完全模型得到的均方誤差。以min F;記最小的F,的值。如果 min F,<F.,其中a為事先選好的品著性水平,那麼就從方程中除去相應於 min F;的自變數。然後,從這個除去了-個自變基的模型出發,重複向後挑選的上述步驟, 再從自變數的候選清單中除去一個自變數。 向後剔除的方法從包含有所有自變數的完全模型出發,每次除去一個自變數, 直到找出一個適當的迴歸模型未為止,此時,有min F,>Fa。所得到的模型就是最優的迴歸方程。另一方面,逐步迴歸是從另一個方向出發,即從模型 y=B0+e, 每次增加--個變數,直到滿足停止條件為止。開始的時候,進入到方程的第一個變量是有迴歸F檢驗的最大F值的那一個。第二階段,把使得含有兩個自變數的回歸方程的F 檢驗統計量有最大值的那兩個自變數放入模型。注意,第一階段選進模型的那個自變數在第二階段中未必能包含進來,即最好的單個自變數未必是最好的兩個自變數之一。由於這一點,有人對逐步迴歸做了簡化(有時稱為向前挑選),其中一旦某個自變數進入到迴歸方程中,此後就不會被拿出來。 例13.7 所得結論作出評述。 用向後剔除的方法對於例13.3中的資料找出包括在迴歸方程中的變數,並對解答把向後剔除的方法應用於表13.1 中的資料,SAS 的輸出結果如下。如前所指出,向後剔除開始於含有所有(5個)候選變數的迴歸方程。這一步在向後剔除的過程中稱為第0步。然後,排除一個又一個自變數,直到 min F;>Fe。注意,在第1步,變數“income”(收入)被除去,在第2步變數“parking”(停車位)被除去,在此例中第3步是最後一步,變數“shopcnt”被除去。輸出結果中給出,其餘的變數構成了基於向後剔除方法的最優擬合迴歸方程。即 48.21-0.004(營業面積)-0.582(處方部百分比) 這恰與我們從別的挑選方法得到的結果相同。
•796• 第十二章多元迴歸續論 REGRESSION ANALYSIS, USING BACKNARD EL.IHTNATTON Backward E1 imination Proxedure for Dependent Variable VOLUNE Step 0 AL1 Var iables Entered R-sguare = 0. 70007369 C(p) = 6.00000000 DE Sum of Squares Mean Square Regression Error Tota] 5 525.44030541 105.08806108 F 6.54 Prob>E 0.0025 14 225.10969459 16.07926390 19 750.55000000 Parameter standard Variable Estimate Error INTERCEP 42.08710826 10.43775070 FIOOR_SP - 0.00241878 0.00183889 PRESC_RX - 0.50046955 0.16429694 PARKING - 0.03690284 0.06546687 SHOPCNTR - 3.09957355 3.24983522 INCOME 0.10666360 0.42742012 Type II Sun of Sqvares 261.42703544 27.81923726 149.19783807 5.10907792 14.62673442 1.00135642 F 16.26 1.73 9.28 0.32 0.91 0.06 Prob>E 0.0012 0.2095 0.0087 0.5819 0.3564 0.6066 Bounds on condition nunber: 7.823107, 117.1991 --- 1Step 1 Variable INCOME Removed R-sguare = 0.69873952 C(p) = 4.06227626 Regression EEFOE Total DE 4 15 19 Parameter Variable Estimate INTERCEP 43.46782063 FLOOR_SP -0.00228513 FRE.SC_RX - 0.52910174 PARKING -0.03952477 SHOPCNTR - 2.71387948 Bounds on condition nunber: 1 -一 Step 2 Sam of Squares Mean Square 524.43894899 131.10973725 F 8.70 Prob>F 0.0008 226.11105101 15.07407007 750.55000000 Standard Type II Error Sut of Squares 8.56960161 387.83321233 0.00170330 27.13112543 0.11386382 325.48983690 0.06256589 6.01580808 2.76799605 14.49041122 F Prob>E 25.73 0.0001 1.80 0.1997 21.59 0.0003 0.40 0.5371 0.96 0.3424 5.071729, 46.98862 - Regression Error Total Variable PARKING Renovedd DF 3 16 19 R- square = 0.69072432 C(p) =2.43641080 Sum of Sqares Mean Square 518.42314091 172.80771364 一-一 F Prob>F 11.91 0.0002 232.12685909 14.50792869 750.55000000 Parameter Standard Type II
13.2 變數的挑選(第一步) 797 Variable Estimate Error Sum of Squares INTERCEE 42.82702645 6.34803435 381.83242065 FLOOR_SE -0.00247284 0.00164539 32.76871130 PRESC_RX -0.52941361 0.11170410 325.87978038 SHOPCNTR - 3.03834296 2.66836223 18.81002755 F Frob≥E 26.32 0.0001 2.26 0.1523 22.46 0.0002 1.30 0.2716 Bounds on condition number: 4.917388, 30.31995 1------------II 11-| --1-il----l Step 3 Variable SHOPCNTR Renoved R-square = 0.56566267 C(p) = 1.60624219 DF Sun of Squares Mean Square F Regression EITOT Total 2 499.61311336 249.80655668 16.92 Prob>五 0.0001 17 250.93688664 14.76099333 19 750.55000000 rarameter Standard Type II Variable Estimate EETOT Sun of Squares INPERCEP 48.29085530 6.89043477 725.02357305 BLOOR_ SE - 0.00384228 0.00113262 169.87259933 PRESC_RX - 0.58189034 0.10263739 474.44587802 E 49.12 11.51 32.14 Prob>F 0.0001 0.0035 0.0001 Bounds on condition nunber: 2.290122, 9.160487 1 | I--— A11 var iables left in the model are significant at the 0.1000 Level. Sunmary of Backward El im inat ion Procedure for Dependent Var iable VOL.UME Variable Number Partial Model step 1 2 3 Renoved In R'2 R'*2 INCONE 4 0.0013 0.6987 PARKING 3 0.0090 0.6907 SHOPCNTR 2 0.0251 0.6657 c(p) 4. 0623 2.4364 1.6062 F Prob>E 0.0623 0.8066 0.3991 0.5371 1.2965 0.2716 例 13.8 敘述把逐步迴歸應用於表13.1 中的資料所得到的結果。 解答下面是表13.1中資料的SAS輸出結果。逐步迴歸開始於模型 =B0 +e,每次增加一個變數。對於這些資料,在逐步迴歸的第1步中,變數“處方部百分比”加到迴歸方程中,在第2步中,變數“營業面積”進入迴歸方程,第3步變數 “購物中心”新增到迴歸方程。沒有其他變數能夠滿足 =0.5時進入迴歸方程的條件。如果挑選變數的準則更嚴格,此時對於每個新的自變數需要更小的夕值 (比如0.15或更小),那麼,在逐步迴歸的第3步中,變數“購物中心”(少值為 0.2716)則不能進入迴歸方程,從而得到的結果與用其他方法得到的相同。
• 798• 第十二章多元迴歸續論 REGRESSION ANALYSIS, USING FOENARD EL.IMINATION Forward Selection Procedure for Dependent Var iable VOL.JAI Step 1 Variable PRESC_RX Entered R-square = 0.43933184 C(p) = 10.17094219 DE Sum of Squares Mean Square Regression Error Total 1 329.74051403 329.74051403 F 14.10 PrOb>E 0.0014. 18 420.60948597 23.37830478 19 750.55000000 Parameter Standard Variable Estimate BrTOr INTERCEP 25.98133346 2.58814791 ERRSC.RX - 0.32055657 0. 08535423 Bounds on condition nuber: 1, Tye II sun of Sqvares 2355.90463660 329.74051403 1 F 100.77 14.10 Prob≥F 0.0001 0.0014 step 2 Variable FL0OR_s Enlered B-square = 0. 66566267 C(p) = 1.60624219 DF Sum of Squares Hean Square Regression ErTOT Total 2 499.61311336 249.80655668 F 16.92 Frob≥E 0.0001 17 250.93688664 14.76099333 19 750.55000000 Parameter Standard Type II Variable Estimate ErrOr Sun of Squares INTERCEP 48.29085530 6.89043477 725.02357305 FLOOR_ SP - 0.00364228 0.00113262 169.87259933 ERESC_RX -0.58189034 0.10263739 474.44587802 珂 49.12 11.51 32.14 Prob>E 0.0001 0.0035 0.0001 Bounds on condition number: 2.290122, 9.160487 -- Step 3 Variable SHOPCNTR Bntered B-sguare = 0. 69072432 DF Sun of Savares Nean Square Regression Error Tatal 3 518.42314091 172.80771364 C(p)= 2.43641000 F Prob>F 11.91 0.0002 16 232.12685909 14.50792869 750.55000000 Parameter Variable Estimate INTERCEP 42.82702645 ELOOR_SP -0.00247284 PRESC_RX - 0. 52941361 SHOPCNIR - 3.03834296 Bounds on condition mumber: Standard ErTOr 8.34803435 0.00164539 0.11170410 2.66836223 4.917388, Type II Sum of Squares 381.83242065 32.76871130 325.87978038 18.81002755 30.31995 25.32 2.26 22.66 1.30 Prob≥E 0.0001 0.1523 0.0002 0.2716
13.2 變數的挑選(第一步)•799• ~~-- I——— -——— ---- NO other variable met the 0. 5000 significance Level for entry into the nodel. Sunnary of Forward Selection Procedure for Dependent Variable VOLUHE Variable Number Partial Nodel Step ] 2 3 Entered In R'"2 R**2 PRESC_RX 1 0.4393 0.4393 FTOOR_SP 2 0.2263 0.6657 SHOPCNTR 3 0.0251 0.6907 C(p) 10.1709 1.6062 2.4364 F 14.1046 11.5082 1.2965 Prob≥F 0.0014 0.0035 0.2716 在典型的同歸問題中,你透過與專家討論或者用任何一種可能的挑選方法來確定進入迴歸方程的變數。例如,我們可以計算所有可能的迴歸,或應用最優子集迴歸方法,或使用逐步迴歸(向後剔除)方法。還有很多其他的方法。有時,不同的準則得到的最優(或近似最優)模型一致,有時則不同。哪個方法最好呢?我們應該相信和使用哪一個呢? 對於這些問題的最重要的回答是,當可以使用計算機並有合用的軟體時,這些挑選方法中的任何一個都可能是有效的;沒有一個方法被公認是比其他方法更好的。因此,不要試圖用多個或所有挑選方法,你應當從一種方法(或許就是由於你手邊的計算機中的某個軟體中有這樣一個方法)開始,透過反覆不斷的使用,逐漸積累關」這個方法的知識。這樣,你就可以用這個方法武裝起來,能夠解決幾乎所有你遇到的迴歸問題了。 練習應用 13.1(教育)(班級作業)你學院或學校的招生辦主任想建立一個迴歸方程, 以基十一個學生的高中的學習成績來預測一年以後他或她的年級點平均(GPA)。 與你的同學討論這個專案,並請教其他專家,列出包含在迴歸模型中的候選自變試。是應該建立一個迴歸模型了事,還是應該考慮得更多些?虛擬變數有用嗎? 13.2(班級作業)見練習13.1。從招生辦獲得資料,並應用某個挑選方法識別可能的迴歸模型。 13.3(社會)一位調查人員在一個州立大學訪問了45名學生,問他們下列行動中的每一個是否為犯罪行為:惡性襲擊,持械搶劫,縱火,無神論,盜車,入室盜竊,非暴力反抗,共產寶義,吸毒成癮,貪汙,強好,賭博,同性戀,詐騙,納粹主義,賄賂,價格壟斷,賣淫,褻兒童,性別歧視,入店行竊,罷工,露天採礦,叛國,故意破壞。對子每一個學生,調查人員記錄下該生認為是犯罪的行為的數量Crime,以及該生個人的其他資訊(接受大學教育的年數 college,年齡 age,父母的收入 income, •
•800• 第十三章多元四歸續論和性別 sex)。資料如下。參考給出的輸出結果,識別潛在的共線性問題。用最優子集迴歸程府的輸出結果確定哪些變數應該包含在迴歸模型中。你能就在訪同中應該收集的其他變數給出建議嗎? J.TSTTNG OF DATA OES 1 2 4 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 25 27 26 29 30 3] 32 CRIME 23 25 22 16 19 19 18 16 12 13 16 13 13 14 14 13 16 16 14 20 25 19 23 25 22 25 17 14 12 10 8 7 AGE 16 18 18 18 19 19 20 19 COLLEGE 2 2 2 2 INCOWIE 63 72 75 61 55 70 SEX 1 1 1 55 60 21 24 25 59 52 55 30 26 28
OBS 33 34 35 35 37 38 39 40 41 42 43 44 45 25卡 24+ 23+* 22+ 20 19+ 14 10士 9+ 8+ 6t 5T 44 CRIME 5 10 4 11 10 5 15 * * AGE 25 24 23 23 22 22 22 21 21 20 19 21 21 Plot of CRIME VerSUB AGE * * 13.2 變數的挑選(第一歩)•801• COLLEGE 4 3 3 3 3 3 2 2 2 3 INCOHE 25 33 26 2日 38 24 26 29 35 33 27 24 53 SEX 0 1 1 0 0 0 1 * * * * * * * * * •* * * * * * + 十-十--+ -十- 十- - -- - -1- --- 22:23 24 25 $26 27 28 29 30 31 32 33 34 35 36 37 38 AGE
•802• 第十三章多元迴歸續論 HNIdD PLot Of CRIME VEISUS GENDER 25+* 24+ 23+* 2221+ 20+* 19+ 1817+ 16+* 15+ 14T* 13+、 12一 * 11 -- 10 + * 十 7 6 + 5 * * * * * * * * * * ----{-- OE CRIME GENDER versus YEARS OF COLLEGE:EDUCATION 25+* 24 23 22 21 20 十1 19 * HIHD * * * * * * * * * 6 寸 -——-———--------- 3 YEARS OF COLLEGE SDUCATION
13.2 變數的挑選(第一步) • 803. Plot of CRIME VerSuS INCOME OF PARENTS CRIME 25+ 24+ 2322+ 211 20+ 19+ 18+ 17+ 164 ** * * * * 青奇青大 * * * Backward El inination Procedure for Dependent Variable CRINE Step O A11 Variables Bntered R-square = 0.827日3940 C(p) = 5.00000000 DF Sum of Squares Hean Square Regression Error Totai 4 1301.62108953 325.40527238 F 48.09 40 270.69002158 6.76725054 44 1572.31111111 Parameter Standard Type II Variable IXTERCEP AGE COLI RGE INCOHE $EX Estipate ErrOr Sum of Squares - 10.82338752 2.39210442 138.54102767 0.43238152 0.20236447 30.69427247 -0.02399594 1.22148794 0.00261162 0.29025487 0.03142812 577.57817022 2.45416550 0.87466592 53.27648156 F 20.47 4.57 0.00 85.35 7.87 Bounds on condition number: 7.476669, 68.21544 Step 1 Yariable COLt.iGn Removed R-square = 0.82783774 C(p) = 3.00039592 Prob>E 0.0001 Prob≥E 0.0001 0.0388 0.9844 0.0001 0.0077
•804• 第十三章多元迴歸續論 Regression ErrOr Total Variable INTERCEP AGE INGCWE SEX DF 3 41 44 Parameter Estimate - 10.日2193315 0.42872187 0.29058236 2.45108843 Bounds on condition number: sum of Squares 1301.61847791 270. 69263320 Nean Square 433.87282597 6.60225935 1572.31111111 Standard Type JI Error Sum of Squares 2.36163189 138.63658941 0.07806990 199.10244384 0.02630415 805. 71727230 0.84997169 54.90370062 1.202437, 10.21103 I-----I-I I Al1 variables lett in the model are significant at the 0.1000 level. Sumnary of Backward El imination Procedure for Dependent Variable CRIE Variable Niumber Partial Hodel step 1 Removed In 82 R''2 COLL,EGE 3 0.0000 0.8278 c(p) 3.0004 F 65.72 Porb≥F 0.0001 F 21.00 30.16 122.04 8.32 Prob>F 0.0001 0.0001 0.0001 0.0062 F 0.0004 Prob≥F 0.9844 13.4 參見練習13.3。從一個逐步國歸程式得到如下的輸出。把這些結果與練習13.3中的結果相比較。 REGRFSSION ANALYSIS, FORWARD SEL.ECTION Forward Selection Procedure for Dependent Variable CRIHE Step 1 Variable INCONE Entered R-sguare = 0.66453936 C(p) = 36.94132731 DF Sum of Squares Hean Sqguare Regression Error Total 1 1044.86262180 1044.86262180 F 85.18 43 527.44948931 12.26624394 44 1572.31111111 Parameter Standard Variable Estimate EzEOr INTERCEP -0.19647505 1.66099569 INOOHE 0.30177022 0.03269660 Bounds on condition munber: 上, Type II Sum of Sqguares 0.17164917 1044.86262180 1 F 0.01 85.18 ----------- Step 2 Variable AGE Entered B-square = 0. 79291863 --- C(P)= 9.11353325 Prob>F 0.0001 Prob>F 0.9064 0.0001
13.2 變數的挑選(第歩) 805• DE Regression ErrOr Total 2 42 44 Parameter Variable Estimate INTERCEP - 11.33832496 AGE 0.43163600 INCOHE 0.32018698 Bounds on condition number: -- Step 3 Variable SEX Entered DF Regression ErTOr Total 3 41 44 Parameter Variable INTERCEP AGE INCONE SEX Estimate - 10.82193315 0.42872187 0.29058236 2.45108843 Bounds on condition nuber: Sun of Squares 1246.71477730 325.59633381 Mean Square 623.35738865 7.75229366 F 80.41 1572. 31111111 standard Type II Error Sum of Squares 2.55169607 153.06296650 0.08458942 201.85215549 0.02624270 1154.03879316 19.74 26.04 148.86 1.01928, 4.077119 --—- R-square = 0.82783774 C(p) = 3.00038592 Sum of Squares Nean Square 1301.61847791 433.87282597 F 65.72 270.69263320 6.60225935 1572.31111111 Standard Type II Error Sum of Squares 2. 36163169 138.63658941 0.07806990 199.10244384 0. 02630415 805.71727230 0.84997169 54.90370062 1.202437, 10.21103 Prob>E 0.0001 Prob≥E 0.0001 0.0001 0.0001 . Prob>F 0.0001 - F Prob>F 21.00 0.0001 30.16 0.0001 122.04 0.0001 8.32 0.0062 No other variable met the 0.5000 significance levei for entry into the model. Summary of Forward Selection Procedure for Dependent Variable CRINE Variable Number Partial Model Step 1 2 3 Entered In R”'2 R '2 INCOME 1 0.6645 0.6645 AGE 2 0.1284 0.7929 $EX 3 0.0349 0. 8278 c(p) 36.9413 9.1135 3.0004 F 85.1820 26.0377 8.3159 Prob>F 0.0001 0.0001 0.0062 13.5(農業) •個公司對食物新增劑(蛋白質和抗生素)對於性畜達到上市的重量所花的餵養時間的影響感興趣。試討論為「得到一個預測達到上市重量所花時間的多元畫歸方程,需要考慮哪些變數?
• 806 • 第十三章多元迴歸續論 13.3 模型形式的確定(第二步) 在前一節中,我們介紹了幾種為給定的迴歸問題選擇候選自變的方法。通過向所研究問題的專家請教,我們可以得到一個起始點,並使用某一種挑選方法來得到一個可能的多元迴歸模型。本節主要介紹如何精選第一步中得到的資訊,以得到一個有用的多元迴歸模型。 雖然在多元迴歸中已經有「包含k個候選自變數的子集和因變數少,我們還是不清楚因變數和自變數之間的真正關係。設在假定的迴歸模型中,對z1 2,”,不k比真正的模型有更低的階。那麼,只要在每個自變數的因子水平組合上有多於一個的觀測值,我們就可以用第十一章討論過的方程下=MSLact/MS(殘差) 來檢驗擬合的多項式模型的不充分性。 另一種檢驗所假定的(擬合)模型的方法是看殘差(y $:)對;的散點圖。 例如,設第一步選出變數z1,2.和z3為響應值y的一個合理的迴歸方程的自變量子集,但不知道是一個什麼樣的多項式函式,我們首先使用多元線性迴歸模型 =Bo+Biz1+Bx2+ Bsxs+a 來得到最小二乘方程 =B+B1x1+B282+B.73,從殘差(3-$)對每個x的殘差圖可以看出哪…個變數取更高的次數可能比較合適。我們先指出對一個自變數的迴歸問題如何使用這一方法,再推廣到多元迴歸的情況。 例 13.9 在放射免疫測定中,一種作了放射性標記的激素被加入到--個裝有專門對這一激素的抗體的試管裡。這兩種物質會化合成一種抗原-抗體的複合體。為了測量激素同抗體的反應程度,我們測量被抗體制約的激素的量與遊離狀態激素的量的比值。一般,實驗者在試管中放入不同劑量的激素z(下面結果用DCSE 表示), 並對每個試管中受限與遊離的放射性標記的比例 y(BOUND/FREE COUNT)進行測定。通常情況下, 與x是接近線性的。表13.4 為放射免疫測定實驗中,11 支試管的資料。 受限/遊離 9.900 10.465 10.312 13.633 20.784 36.164 表13.4 放射免疫測定實驗資料劑量(濃度)、 受限/遊離 0.00 62.045 0.25 0.50 78.327 0.75 90.307 1.00 97.348 1.25 102.686 劑量(濃度) 1.50 1.75 2.00 2.25 2.50
13.3 模型形式的確定(第二步)•807• 2.做樣本的散點圖並擬合線性迴歸模型 Y=B+BISI+E b.畫出殘差對標記和對鄉的圖。線性模型是否充分地擬合了資料? c.提出一個更好的模型。 解答計算機的輸出如: Data Display KOW BOUND/FREE 1 2 u COUNT DOSE DOSE_2 9.900 0.00 0.0000 10.465 0.25 0.0625 10.312 0.50 0.2500 13.633 0.75 0.5625 5 20.784 1.00 1.0000 6 36.164 7 1.25 1.5625 62.045 1.50 2.2500 78.327 1.75 3.0625 9 90.307 2.00 4.0000 10 97.348 2.25 5.0625 11 102.686 2.50 6.2500 Regression Analysis: BOUND/FRER COUNT verSuS DOSE The regxession equation is BOUND/FREE COUNT = -7.19 + 44. 4 DOSE Pred ictor Coer SE Coef P Constant -7.189 6.226 ~ 1.15 0.278 DOSE 44.440 4.210 3= 11.04 10.56 0.000 R-Sq=92.5* R- Sq(adj) =91.78 Analysis of Variance Source DF Ss MS Regression 1 E 13577 13577 111.44 Residual Brror 9 1097 122 Total 10 14674 Plot of BOUND/FREE COUNT VerSUs DOSE 100P 0.000 •• BOUND/FRBE COUNT • 50- • • • 0 • 0.0 • • 0.5 1. i.5 DOSB 2.
• 808• 第小一章多元迴歸續論 20 10 0 -10- • • -200.0 • Residuala veraus posE (resPonse ig EOUND/FR) • • • • • • 1'5 DOSE 2.0 25 2 • 10- • •.. -1 • -2- -20 -10 o Residual t0 20 a,b 線性擬合方程為 =-7.189 + 44.440z y(比值)對工(含量百分比)的圖清楚地表明線性迴歸模型的不足,殘差圖也證實了這種不足。線性迴歸在含量百分比刻度的上、下兩端低估了比率,而在含量百分比的部高估了比率。 c.一個可能的改進模型為二次模型 =Bo+ B1x+B2z2 +E 在本章的後面會對這一例子作進一步討論。 除了兩個自變數的情況外,散點圖對查出自變數間的互動作用不是很有效,因為對大多數實際問題,有太多的變數,以至於很難表示出變數間的關係,並把它們對響應值y的聯合作用二維散點圖表示出來。也許最合理的建議是使用前⋯•節介紹的最優子集迴歸方法和用候選自變數進行一些“嘗試-改正”的擬合過程,再加上
13.3 模型形式的確定(第二步)•809• 一些常識米決定在多元迴歸模型中使用哪些交叉項。 虛擬變數(定性自變)的出現在對多項式模型的擬合的判斷中不起主要作用。需要記住的重要的事是當迴歸模型中既有定量變數,又有虛擬變數時,對每一組虛擬變數的取值,我們都對定量變數得到一個迴歸模型。所以,查詢擬合不足的畫圖法必須分別對每一組虛擬變過的取值做。透過仔細分析這些圖,我們也能分辨出不同虛擬變數給多項式模型帶來的可能的不同。 例13.10 一個公司的分析員希望建立一個迴歸模型來預測某一地區某一品牌汽車普通型和豪華型的銷售情況。理論討論和公以前在這一地區銷售情況的調查表明, 汽車貸款利率(interest rate)和每加侖汽油的價格(price/gallon gasoline)是關鍵的預測變數。如下是冷油動力的普通型(standard car)和豪華型汽車(luxury car)在前18個月中每月的銷售量(sales)(以1,000為單位)。擬合•個線性迴歸模型,並用殘差圖來決定(如果有的話)哪-變數要有更高幕次的項。對普通型和豪華型的結論-樣嗎?為多元迴歸方程提出可能要增加的項。 解答迴歸模型為 Po+ Bix1+ Bt2 + Bsrs+a 其中每片銷量(以1,000為單位) x1=每加侖油價 2 利率普通型 X3= 10.囊華型(下面資料表申用 TYPCAR 表示) 從輸出中知,迴歸方程為 56.074- 16.144z1-2.332x2 +14.422:3 把z3=0和1代入方程,我們得到普通型和豪華型的迴歸方程分別為; 0(豪華型) 56.074 - 16.144z1- 2.332z2 =1(普通型〉 =56.074- 16.144x1-2.332x2 + 14.422 =70.496 - 16.144z1- 2.332z2 在兩個模型y對z1和x2的圖中可以看出,銷基與每加侖療油價格和利率間存在非線性關係,但對普通型模型的偏差更大,這從兩個模型的殘差圖中可以看出。:810, 第+三章多元迴歸續論 MULTIPLE REGRESSION ANAL.YSIS DATA LISTTNG MOWTHLY SALES MONIH 1 1 2 2 3 3 4 4 (1000) 22.1 7.2 15.4 5.4 11.7 7.6 10.3 2.5 11.4 2.4 6 7.5 1.7 13.0 4.3 12.8 3.7 9 14.6 3.9 10 10 11 11 12 12 13 13 14 14 15 15 16 16 17 17 18 18 18.9 7.0 19.3 6.8 30.1 10.1 28.2 9.4 25.6 7.9 37.5 14.1 36.1 14.5 39.8 14.9 44.3 15.6 Dependent Variable: SAT.ES PRICE/ GALLON GASOLINE 1.89 1.89 1.94 1.94 1.95 1.95 1.82 1.82 1.85 1.85 1.78 1.78 1.76 1.76 1.76 1.76 1.75 1. 75 1.74 1.74 1.70 1.70 1.70 1.70 1.68 1.68 1.60 1.60 1.61 1.61 1.64 1.64 1.67 1.67 1.68 1.68 INTEREST RATE(&) 6.1 6.1 6.2 6.2 6.3 6.1 8.2 8.2 B 8 10.3 10.3 10.5 10.5 7. 7. 6. 6. 5 8.a. 43 7 7 4 9 9 2 5. 2 4. 4. 9 4. 3 3 7 3. 7 3. 5 3 6 3. 3. 1 1. 8 1. 8 2. 3 2.3 TYPECAR 1 0 1 0 1 0
Analysis of Variance Source Hodel Error C Total DF 3 32 35 Root HSE Dep Mean C.u. Parameter Estimates Variable INIERCEP GASPRICE INTEREST TYEECAR DE 1 1 1 1 SALRS 1 50f 404 30t 20+ 104 Sum of Savares 3716.34235 722.05765 443840000 4.75019 14.93333 31.80931 Parameter 五stimate 50.620740 -16.436642 - 2.328968 14.448100 13.3 模型形式的確定(第二步)•811• Mean Square 1238.78078 22.56430 F Value 54.900 R-square Adj R-sg 0.8373 0.8221 Standard Error 15.18488648 9,25565678 0.36053082 1.58340161 T Eor 1i0: Parameter =0 3.334 - 1.774 - 5.460 9.125 Prob>F 0.0001 Prob>|型 0.0022 0.0856 0.0001 0.0001 1 1 [ 0。oo 0 1 0 0 0 1 1 ] 一 -'-一 sc。 0 0 0 ] (0 0 12 TNTEREST RATE (N
•812