AI 新聞與投資
統計學方法與資料分析引論

第七章的案例分析描述了診斷大腸桿菌(E.cli)的一種新的細菌方法,即

19 / 34

Petrifilm HEC 試驗。研究人員想要評估 HEC 試驗的結果和另一個複雜的在實驗室中進行的試驗方法 HGMF(hydrophobic grid membrane filtration)的結果的一致性。HEC 試驗的接種比傳統的方法更容易、更簡潔,施行也更安全。但是在使用 HEC 試驗之前,必須比較在同一肉體樣本上所獲得的 HEC 試驗的讀數和 HIGMF 方法的讀數,以確定兩種方法是否產生同樣的結果。如果二者的讀數不同但能夠獲得一個接近 HEC讀數和 HGMF 讀數之間關係的方程,那麼研究人員可以對 HEC 試驗的讀數進行校準來預測用HGMF方法所能獲得的讀數。如果 HEC 試驗的結果和 HGMF 方法的結果沒有關係,那麼 HEC 試驗不能用來診斷大腸桿菌。 資料收集的設計第七章描述了這個試驗的第一個階段。試驗的第二階段是將兩種方法應用於人工汙染的牛肉。來自於三頭經檢測是大腸桿菌陰性的 Holstein 母牛的牛肉塊已經準備就緒。取出其中18塊牛肉並用大腸桿菌汙染。分別用HEC 和 HGMF 方法檢測這18個樣本中的每一塊,將這兩種方法產生的大腸杆菌濃度進行必要的轉換計量(logioCFU/ml)。這個案例的資料是18對樣本點,具體如下。

11.1 引言和案例 • $91 RUN 1 2 9 10 11 12 13 14 15 16 17 18 HEC 0.50 0.06 0.20 0.61 0.20 0.56 -0.82 0.67 1.02 1.20 0.93 2.27 2.02 2.32 2.14 2.09 2.30 -0.10 HGMF 0.42 0 1.07 資料的整理下一步,研究人員按照前面2.5節描述的步驟為以後的統計分析整理資料。他們仔細檢查試驗過程以確定每一對作為樣本的肉都是基本一樣的,這樣使得 HEC讀數和 HGMF 讀數的任何差異都來自於兩種方法的不同。在這樣的檢查中,有關試驗過程的問題都會被發現,有問題的觀測值都會剔除出去。 資料的分析研究人員感興趣的是確定這兩種方法所產生的大腸桿菌濃度的測量值是否有很強的相關性。下面是試驗資料的散點圖。(見下頁) 散點圖中的45°直線示了兩個方法的讀數的近似的一致性。如果散點落在直線上,則這兩個方法所確定的達成桿菌濃度是完全一致的。其中17個點都靠近這條直線但有一些偏差,因此研究人員要決定一致性的程度,並獲得一個表示兩個方法所得讀數之間關係的方程。如果利用迴歸方程可以表示兩個方法所得讀數的準確的相關性,那麼已知 HEC讀數後,研究人員可以預測HGMF方法的讀數。這使得他們可以比較用 HEC方法和在實驗室中用 HGMF方法所測得的大腸桿菌濃度。我們將在11.6 節對這些資料做詳細的分析。

• 592• 第十⋯彰線性迴歸和相關 HEC-方法 2.0一 1.5+ 1.0+ 0.5+ 00+ -06t -1.0+ -十人. 11.2 0 1 HGMF-方法 2 注意:2個觀測點被隱藏起來估計模型中的引數 3 迴歸模型 Y=B+Bx+E 的截距A。和斜率B,都是總體的引數,我們必須從樣本資料中估計它們的值。誤差的方差。是另一個必須估計的總體引數。迴歸分析的第一個同題就是獲得斜率、截臣和方差的估計值。這一節我們討論如何獲得這些估計值。 11.1節的公路重新鋪設例子是一個很合適的說明。假設以下資料是近幾年的相似專案中所獲得。注意我們有關聯單元:特定的成本和英里數的聯絡是因為它們來自同一個專案。 費用3:(幹美元): 6.0 14.0 10.0 14.0 26.0 里程:(英里): 1.0 3.0 4.0 5.0 7.0 第一-步是繪製資料的散點圖以檢查z和y的關係。記住圖中每個點代表一個觀測資料的座標(x,),如圖11.8所示。散點圖顯示x和y之同存在不完全但大體上呈漸增的關係。似乎有可能存在一個直線關係,但這麼有限的資料無法看止能做什麼變換。

11.2 估計模型中的引數•593• 26 21 麟161 II 6 華 1 + + + 3 s 7 英里數圖11.8 成本對英里數的散點圖迴歸分析就是找出最佳的直線預測。“最佳”的最常用的標準是根據平方預測誤差。我們可以透過最小化總的平方預測誤差來求出預測直線的方程一也就是, 求出截距B,和斜率3。基於這個目的的方法稱為最小二乘法,因為它是透過最小化下面的量來選擇 B,和斜率B,的: 圖11.9中標出了預測誤差,即為與預測直線之間的垂直偏差。這些偏差就是垂直距離,這是因為我們預測的是y,誤差就應該取»方向的。對於這些資料,最小二乘線就是=2.0+3.0z;由此方程產生的一個偏差用較小的大括號標出。 Y成本 25201 15101 5 — =14 —x英里數 3 倒11.9 最小二乘線和均值的俯差

• 594• 第十一章線性迴歸和相關為了比較,也標出了均值=14.0;與均值的偏差用較大的大括號標出。最小二乘法中截距和斜率的計算量有些大,因此這些計算通常都是透過計算機的。 定義11.3 迴歸模型的截距和斜率的最小二乘估計由下式給出: 商= Sxx 其屮即,Sx是x的偏羞乘以的偏差的和,Szn是的偏差平方和。 關於公路重新鋪設的資料, =5和 2x= 1.0+⋯+7.0=20.0 因此 20.0 = 5 “=4.0,何樣, Z8:=70.03=20.0 -= 14.0 進一步, = (1.0-4.0)2+⋯+(7.0-4.0)2 = 20.0 和 =(1.0-4.0)(6.0-14.0)+⋯+(7.0-4.0)(26.0-14.0) = 60.0 因此 • B.=90.0-3.0和B=14.0-(3.0(4.0)-2.0 從包=3,我們可以得出重新鋪設的公路每增加一英里,估計成本平均增長3000 美。 例 11.2 為了檢查藥店處方銷售額與處方配料中從供應商直接採購的比例之間的關系,特收集10家藥店的樣本資料,具體的資料如下:

藥店 1 2 3 4 5 6 7 8 9 10 • 銷售額(千美元),y 25 55 50 75 110 138 90 60 10 100 11.2 估計模型中的引數•595• 直接採購的配料的百分比, 10 18 25 40 50 63 42 30 5 55 a.求出迴歸直線 =B+B 的最小二乘估計。 .一家藥店的處方藥配料中從供應商直接採購的比例為15%,預測其處方藥銷售額。 c.繪製資料(z,y)的散點圖和預測方程 =B+B」的影象。 d.解釋這個問題中的引數B1。 解筶 a.這個方程實際上可以用任何統計計算軟體計算;下面是由 Minitab 計算的結果: MTE > Regress'Sales' on 1 variable Directly The regression equation is Sales = 4.70+ 1.97 Directiy Predictor Constant Directly Coef 4.699 1.9705 Stdev 5.952 0.1545 t-ratio 0.79 12.75 P 0.453 0.000 為了知道計算機是如何進行計算的,你可以從下表得出最小二乘估計:

• 596• 第十一章線性迴歸和相關總和平均償 25 55 50 75 110 138 90 60 10 100 713 71.3 10 18 25 40 50 63 42 30 5 55 338 3.8 -46.3 -16.3 -21.3 3.7 38.7 66.7 18.7 -11.3 -61.3 28.7 0 ×-X -22.8 - 15.8 -8.8 6.2 16.2 29.2 8.2 -3.8 -28.8 21.2 1,101.94 257.54 187.44 22.94 - 626.94 1,947.64 153.34 42.94 1,765.44 608.44 6,714.60 (一)2 566.44 249.64 77.44 38.44 262.44 852.64. 67.24 14.44 829.44 449.44 3,407.60 Sa= Z(x: - 2)2 = 3,407.6 和 S= 2(z:-£0$)= 6,714.6 代入B。和B,的計算公式, 隊-3-的然o-1970478 近似為1.97 B= =71.3-1.9704778(33.8) = 4.6978519 近似為 4.70 b.當 =15%,預測的銷售額為 =4.70+1.97(15)=34.25(也就是34,250 美元)。 150 100 替銷 500 1 圖 11.10 10 20 30 'T 40 50 直接樣本資料和最小二乘預測方程 60

11.2 估計模型中的引數•597• c.圖11.10給出了資料(x,y)和預測方程。 d.從p:=1.97,我們可以得出這樣的結論,如果一家藥店醫藥配料中從供應商直接採購的比例增加1%,則預測平均銷售額會增加1,970美元。 例 11.3 利用下面 Statistix 的輸出結果,確定公路重新鋪設資料的最小二乘估計: PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P CONSTANT 2.00000 3.82970 HILES 3.00000 0.85634 0.52 3.50 0.6376 0.0394 R-SOUARED 0.8036 RESID. MEAN SQUARE (HSE) 14.6666 ADJUSTED R-SQUARED 0.7381 STANDARD DEVIATION 3.82970 SOURCE DF SS• MS rg P REGRESSION RESIDTIAL TOTAL 1 3 4 180.000 44.0000 224.000 180.000 12.27 14.6566 0.0394 解答 COEFFICIENT 列顯示截距 B。=2. 00000, z=英里的係數B= 3,0000。 回婦模型的斜率的估計很大程度會受到高槓杆點的潛在影響。這類點的自變量值都很大或很小,即z方向上的離群償。它們在斜率的估計中佔有很大的權重。一個正好對應的y也是離群值的高槓杆作用點稱為高影響點。這樣的點將改變斜率和拉彎直線。 如果刪除一個資料點將導致迴歸線發生實質性的改變,那麼這個點就具有高影響力。要具有高影響力,一個點首先必須是高槓杆點,另外還必須落在其他點的模式之外。考惠圖 11.11中的兩個散點圖。圖(a)中,左上角的點遠離其餘點;它的z值極小而具有高槓杆作用。如果我們畫出透過其他點的直線,那麼這條直線將在下方遠離這個點,因而這個點在y方向上也是離群值。因此這個點也具有高影響力,包括這個點將大大改變直線的斜率。相對的,圖(b)中, 離群值所對應的 x 值非常接近均值,因而是低槓桿作用點。包括這個點將把直線向上拉,增大截距的值,但不會增加或減少斜率的值,因此這個點不具有高影響力。:

•. • 598• 第十一童線性迴歸和相關 y 35 30 25 20 15。 .. •*: .…不包括離群點包括離群點 3 6 9 12 (a) y。 35 30 25 20 15 包括離群點 •X 3 6 9 12 (b) 圖 11.11 (a) 高影響點;(b)低影響點一個高槓杆點只是表示迴歸方程會有潛在的扭曲。包括這個點是否會“扭曲” 迴歸方程是依賴於它的影響力(這個點是否落在靠近透過其他點的直線的地方)。 必須同時具有高槓杆作用和y離群值的點才具有高影響力。 數學上,一個點的槓桿作用可以從斜率計算中的Szy項看出。計算這項值的眾多方法中的一個是利用下面的公式我們可以把這個方程看作»值的加權和。當值遠離均值且具有高槓杆作用時, 權重是大的正數或小的負數;而當×值非常接近均值且有低槓桿作用時,權重基本為零。 絕大多數進行迴歸分析的計算機程式都會計算幾種槓桿作用或影響力的診斷度量中的某種度量。這裡我們並不對所有的這些診斷度量進行總結。我們只注意那些大測量i對應高槓杆作用點或高影響點的度量。高槓杆作用(×值離群)和高

11.2 估計模型中的引數•599• 影響(z值離群和»值離群)之間的差別也不是完全一致的。檢查程式說明以確定所使用的定義。 斜率B,的標準差可由任何的統計軟體計算,一般在輸出結果中係數列的右邊一列顯示。和任何標準差一樣,它表明了估計真正的總體或過程引數的準確性。 B,估計值的質量受到兩個量的影響:誤差方差。和自變數的變差Szx: 9.= VSrr 對於給定的z,的變異性0。越大,q,越大。很顯然,如果迴歸線周有大的變異,那麼估計這條直線就困難了。同時,x的變差(用S.測量)越小,o,越大。 迴歸方程中的斜率是z的每改變一個單位所帶米的的估計的變化;假如資料中的z改變很少時,也就是Sz很小,準確估計y的變化率就困難了。如果某種品牌的食用蘇打的價格幾年來沒有什麼變化,那麼估計當價格改變所帶來虛求量的改變明顯是困難的。 + Szt 估計的截距B。的標準差受到n的影響,自然也受到樣本均值的平方?和 Sx 比的影響。斜率就是當=0時的預測值;例如,如果所有的z:都是大的正數,從實際資料中預測z=0時y的值就是一個超級的外推。這樣的外推會誇大小的誤差,導致大的B的標準差。理想的估計B。的情況是=0。 目前為止,我們只考慮了截距和斜率的估計。我們還必須估計真的誤差方差子。我們可以把這個量看作是“圍繞迴歸線的方差”或均方預測誤差。哈的估計是根據殘差v:一3:,也就是樣本的預測誤差得到的。根據樣本資料估計的 d就是殘差平方和除以*—2(自由度)。估計的方差在計算機輸出結果中一般顯示為 MS (Error)或 MS(Residual)。回想MS表示“均方”,是一個平方和除以適當的自由度: S=! - SS(殘差) 1 -2 2 在例11.3的計算機輸出結果中,SS(Residual)(即SS(殘差))是44.0。 正如樣本方差(第三章)定義中除以n-1而不是n,圍繞迴歸線的估計方差中是除以x一2。由n減少為n一2是因為要估計圍繞迴歸線的變異,必須首先估計兩個引數 B。和B1以獲得估計的迴歸線,因此用來估計c的有效的樣本容量為 2。在我們的定義中,當n=2時s是沒有定義的。除以8-2的另一個理由是使s 是的一個無偏估計。例11.3的計算機輸出結果中, 2=S-2=3 是RESIDUAL(殘差)的DF(自由度),=14.6666 是RESIDUAL,的MS。

•600• 第十—章線性迴歸和相關樣本方差的平方根S。稱為圍繞迴歸線的樣本標準差,估計的標準誤差或殘差標準差。因為s:估計的是y:的標準差oe,o。估計了給定自變數×時y的總體的標準差。例11.3的 Statistix 輸出結果中,se顯示為 STANDARD DEVIATION,近似為3.830。 和其他任何標準差一樣,殘差標準差也可以用經驗法則解釋。約95%的預測誤差在誤差均值計程車2標準差之內:最小二乘迴歸模型中誤差均值總為0。因此, 殘差標準差3.830意味著約95%的預測誤差小於 2(3.830)=7.660。 估計B、B.和s。是迴歸分析的基礎。它們決定迴歸線和伴隨給定x時y的誤差的可能程度。下一步將是利用這些樣本估計量去對真的引數進行統計推斷。 例 11.4 某快餐連鎖店的人力資源主任研究職員的缺勤率。一旦職員打電話稱生病或乾脆不來上班,餐廳經理就不得不趕緊尋找替代者或只能讓工作短缺人手。人力資源主任已經收集「這家連鎖店下屬10家餐廳的資料,包括每週每100名職員中缺勤的次數(y)和職員在餐廳工作的平均月數(z)。主任認為工作時間越長的職員越可靠,缺勤越少。 根據下面的資料和 Minitab 的輸出結果, a.繪製散點圖,並確定直線模型是否是合理的。 b.求出模型y=B+Bz+:中引數B0和B,的最小二乘估計。 c當x=19.5時,預測每週每100 名職員中缺勤的次數y。 d.求出國繞迴歸線的樣本標準差S。 e.解釋p」的值。 y:31.5 33.1 27.4 24.5 27.0 27.8 23.3 24.7 16.9 18.1 x:18.1 20.0 20.8 21.5 22.0 22.4 22.9 24.0 25.4 27.3 MIE > Regress 'Y on 1 predictorx. The regression equation is Y=64.7-1.75 x Predictor Constant x Coef 64.672 -1.7487 Stdev 6.762 0.2995 t- ratio 9.56 -5.84 P 0.000 0.000 $=2.388 8-$9=81.0* R-sq(adj) = 78.6% Analysis of Variance

11.2 估計模型中的引數•601 • SOURCE. Regression Error Total DE 1 8 9 SS 194.45 45.61 240.06 MS 194.45 5.70 E 34.10 P 0.000 解箸 8.圖11.12顯示了由 Statistix 軟體繪製的散點圖,資料似乎都落在一條向下直線的周圍,因此沒有理由使用更復雜的模型。 34 28: • + + 22. 161 18 20 22 24 26 28 x 圖11.12 缺勤次數(y)關於工作的平均時間(z)的散點圖 b.計算機輸出結果顯示了兩次精度不同的係數。截距(結果中標有 Constant) 是6.4672,斜率(x的係數)是-1.7487。注意負的斜率對應者向下的直線。 c當x=19.5時, 的預測值為 5 = 64.672 - 1.7487(19.S)= 30.57 d.圍繞迴歸線的樣本標準差(標準殘差)是s=2.388。因此約95%的預測誤差小於 2(2.388)=4.766。 e.從B=-1.7487~1.75,我們可以得出這樣的結論,如果一家餐廳職員的平均工作時間增加1個月,則預測每週每100名職員中缺勤的平均次數會減少1.75次。 練習基本技能 11.1 繪製下列資料的散點圖和透過這些點的直線。

• 602• 第十--章線性迴歸和相關 5 10 12 15 18 24 Y 10 19 21 28 34 40 11.2 利用方程 =1.8 2.0 日. 預測z=3時的y. b.在橫座標軸刻度為0到5、縱座標軸刻度為0到12 的座標中繪製這個方程的圖形。 11.3 利用以下資料求出最小二乘預測方程。 x 1 2 3 4 2 4 6 9 11.4 利用以下資料,回答(a)和(b)。 1 3 5 7 9 1 4 8 9 12 8.求出最小二乘預測方程。 b.利用最小二乘預測方程預測 =6時的y。 11.5 利用練習11.1的資料,求出最小二乘預測方程,並與徒手繪製的透過這些點的迴歸線進行比較。 11.6 由SAS軟體根據資料所作的最小二乘預測方程的計算結果如下: SAS CODE: option 1s= 70 ps = 55 nocenter nodates title “EXERCISE 11.6; data 1inreg: input xY; CARDS; 10 18 25 40 50 63 42 30 5 25 55 50 75 110 138 90 60 10

11.2 估計模型中的引數•603• 55 100 RUN; EROC PLOT; PIOT Y* X='*; PROC REG:HODEL Y = X; OUTPUT OUT = NEN P = PRED R= RESID; L.ADBL, PRED - 'PREDICTRD VALLIE’ RESID - ‘RESIDUALS’; EROC PRINT; VAR Y X PRED RESID; RUN; OUTPUT FOR EXERCISE 11.6 Plot of Y *r. Symbol ueed ia '*. 135 130 125 120 115 110 105 200 95 食 * * 35 25 + 10 -+- 30 40 60 沾 Dependent Variable:Y Analysis of Variance Source Hodei EITOr C Total DF 1 8 9 Root HSE Dep Mean C.u. Sun of Squares Hean Square 13230.96994 651.13006 13882.10000 9.02171 71.30000 12-65317 R-sGvare adj R-$G 13230.96994 B1.39126 F Vaiue 162.560 Prob>E 0.0001 0.9531 0.9472

•604• 第十一章線性迴歸和相關 Parameter Estimates Variable DF Paraneter Estimate T Eor HO: Paraneter=0 Prob≥| INTERCEP OBS Y 1 25 2 55 3 50 4 75 5 110 6 138 7 90 8 60 9 10 10 100 Standard Error 1 1 4.697852 1.970478 5.95202071 0.15454842 0.789 12.750 0.4527 0.0001 X 10 18 25 40 50 63 42 30 5 55 PREDICTRD VALUES 24.403 40.166 53.960 83.517 103.222 128.838 87.458 63.812 14.550 113.074 RESIDUALS 0.5974 14.8335 - 3.9598 -8.5170 6.7783 9.1620 2.5421 -3.8122 -4.5502 -13.0741 a.從計算機輸出結果中確定最小二乘預測方程,並在資料散點圖中畫出迴歸線。 .這個預測方程能夠很好地代表這些資料嗎? c.預測 z=35時的 y。 應用 11.7(農業)某食品加工企業進行一項試驗以檢驗不同濃度的果膠對罐裝甜薯片的硬度的影響,試驗中採用三種濃度(按重量)的果膠:0%、1.5%和3%。 首先準備好六罐型號為303×406,糖度(按重量)為25%的甜薯片,對於每種濃度的果膠,加入糖汁後放進隨機選擇的兩罐甜薯片中,然後封好六罐甜薯片並在 25C的環境中放置30天。30天后開啟這六罐甜薯片並檢查其中甜薯片的硬度。 具體的資料如下: 果餃的濃度硬度 0%,0% 50.5,46.8 1.5%,1.5% 62.3,67.7 3%,3% 80.1,79.2

11.2 估討模型中的引數 •60S• a.2 代表罐頭中果膠的濃度, 代表25C的環境中放置30天后甜薯片的硬度指標,繪製樣本資料的散點圖。 b.求出模型y=B0+Bz+e 中引數的最小二乘估計。 11.8 參照練11.7,預測果膠濃度為1%的罐裝甜薯片在25C的環境中放置30天后,罐中甜薯片的硬度。 11.9(環境)某項試驗考察冰凍7天后魚的質量,10條大小基本一致的相同種類的生魚準備用於冰凍。其中兩條是捕獲後立即冰凍,兩條是捕獲3小時後冰凍,其餘六條魚中每兩條分別於捕獲6、9或12 小時後冰凍。y代表冰凍7天后魚的質量(以10分計),z代表從捕獲到冰凍之間的時間。具體樣本資料如下: Y 8.5 8.4 7.9 8.1 7.8 7.6 7.3 7.0 6.8 6.7 0 0 3 3 6 6 9 9 12 12 2.繪製祥本資料的散點圖。 b.利用最小二乘方法求出模型 y=B+Bz+e中引數的估計。 c•解釋這個問題中承的值。 11.10 參照練習11.9,預測捕獲10 小時後冰凍7天的魚的質量得分。你能預測捕獲18小時後冰凍的魚的質量得分嗎? 11. 11 某個迴歸分析研究產生以下資料和 Statistix 散點圖。 1 1 1 3 3 3 x=log10 ': 0.000 0.000 0.000 0.477 0.477 0.477 ¥: 13.5 15.4 16.1 18.3 19.9 20.9 工: 5 5 5 7 7 7 '=login ':0.699 0.699 0.699 0.845 0.845 0.845 V: 20.8 23.1 22.1 22.8 24.9 24.5 Scatterpiot of Y vsx Scalterplot of Y vs LOGX 25 25 2121- + Y Y 17 13 1 3 X § 7 17 134 0.0 'Lo0x 0.6 0.9 •

• 606• 第十一章線性迴歸和相關 2.在關於的散點圖中,近似的斜率為 =7時的預測值與×=1時的預測值之差除以之差——6。 b.在y關於z'的散點圖中,近似求出預測線的斜率。 c.哪個散點圖更顯示出線性關係? Analyais of Variance SOURCE Regression Error Total DF 1 10 11 ss 130.54 18.11 148.65 HS 130.54 1.81 F 72.07 0.000 HTE > Regress'y 1'logx'. The regression equat ion is Y-14.9+ 10.5 1ogx Predictor Constant logx Coef 14.8755 10.522 stdev 0.6106 1.021 t-ratio 24.36 10.30 P 0.000 0.000 3= 1. 131 R-$9=91.4號 R- sqfadj) =90.5 * Analysis of Variance SOURCE Regresaion Error Total DF 1 10 11 SS 135.85 12.80 148.65 HS 135.85 1.28 F 106.17 P 0.000 11.12 根據練習11.11 的資料和以下 Minitab 輸出結果: MTE > Regress 'y' 1'x. • The regression equation is Y=14.3+ 1.48x

11.2 估計模型中的引數 • 607• Eredictor Constant x Coef 14.2917 1.4750 Stdev 0.7962 0.1737 t-ratio 17.95 8.49 P 0.000 0.000 a= 1.346 R-$9=87.88 R- sq(adj) = 86.6* 日. 確立最小二乘方程 =陽+B4。 b.求出殘差標準差。 11.13 參照練習11.11 的資料的輸出結果。 a.求出最小二乘方程鄉=陽+序10gz。 .殘差標準差是多少? 11.14 比較前兩個練馬的殘差標準差,哪個更小?結果是否與你根據練習 11.11的散點圖所做出的模型選擇一致? 11.15(商業)一家郵購零售商花不少功夫在“揀”訂單——選擇訂單上的物品並組合運出:一個小型的研究選擇了100個訂單的樣本,由一個有經驗的工人完威整個過程,記錄下完成每個訂單的時間。由JMF 做出的散點圖和祥條擬合如下所示,應該使用哪類變換? Tine needec by nunber of itens 25 20 needed: 5 . 10 5 0 T 0 10 20 30 40 50 Number of items Lritin 上 — soothing spl ine Fit, Lembsba = 10000 11.16 對練習11.15中“揀”訂單時間資料進行平方根變換。資料變換府的散點圖和迴歸分析結果如下。 a.資料變換後的散點圖更顯示出線性性嗎? b.根據變換後的資料,求出預測方程。

• 608• 第十一章線性迴歸和相關 zime needed by sart {numbe: of icens) 25 20 15 10 5 • •: 0- - sgrt (number of irems) Sunmary of Fit RSquare RSquare Adj Root Mean Sqvare Brror Hean of Response Observations (or Sum Ngts) 0.624567 0. 620736 2.923232 12.29 100 Analysis of Variance Source Model Error CTotal 1 98 99 Su of Squares 1393.1522 837.4378 2230.5900 Nean Sqvare 1393.15 8.55 F Ratio 163.0317 Prob>F 0.0000 Parameter Estinates Term Intercept sart (Nunber of items) Estinate 3.097969 2.7633138 Std Brror 0.776999 0.216418 t. Ratio 3.99 12.77 Prob≥It| 0.0001 0.0000 11.17 在練習11.16的JMP 輸出結果中,殘差標準差稱為“Root Mean Squarc Error",找出並解釋這個數。 11.18 在前面的練習中,為什麼變換後資料的標準殘差能夠與原始資料的標準殘差相比? 11.19 作為商業銀行分行研究的一部分,收集到位於樣本郵政地區的獨立公司的數量(x 和商業銀行分行的數量()。各城市的商業中心除外。

11.2 估計模型中的引數•609• 92 y: 3 116 124 210 216 267 306 378 415 502 615 703 5 5 7 9 9 2 3 4 6 7 以下是資料分析的輸出結果(StataQuest): . regress Branches Business Source SS Hodel Residual -- Total 53.7996874 3.11697922 df 1 10 56.9166667 11 MS -一 -- 53.7996874 0.311697922 ------ 5.17424242 Number of obs u F(1,10) = Prob>F = R-sguare = Adj Rsquare = Root HSE = 12 172.60 0.0000 0.9452 0.9398 0.5583 Branches Coef. Std. Brr. t [95 * Conf.Interval] Business C0nS 0.0111049 1.766846 0.0008453 0.3211751 13.138 5.501 0,000 0.000 0.0092216 1.051223 0.0129883 2.482469 a•繪製資料的散點圖,說y是x的線性函式合理嗎? b.求出迴歸方程(y作為因變) c•解釋這個問題中B」的值。 d.求出樣本殘差標準差 se。 11.20 練習11.19的散點圖中是否顯示出當z增加時y的變異性增加? (這樣會違背同方差的假定) 11.21 某個音箱裝置架子製造商生產時需要鑽孔,方便釘金屬螺釘。如果鑽頭壞了就必須更換,這時不但會產生換鑽頭的費用,還會耽誤生產。工程師不斷改變鑽速並測量鑽頭的使用壽命v(即鑽的空數,以幹計),選用五種鑽速z,每種鑽速用了四個鑽頭,具體資料如下: X: 60 60 60 60 Y: 4.6 3.8 4.9 4.5 80 4.7 80 5.8 80 5.5 80 5.4 100 5.0 100 4.5 100 100 y: 3.2 4.8 120 4.1 120 120 120 140 4.5 4.0 3.8 3.6 140 3.0 140 140 3.5 3.4 a.繪製這些資料的散點圖,散點圖顯示存在一定的關係嗎?這個關係是線性的嗎? b.是否存在離群值?如果有,是否是高影啊? 11.22 練習11.21 的資料經過Excel 的迴歸分析,得到以下輸出結果:

•610• 第十一章線性迴歸和相關 A SUHMHARY OUTPUT Regression Statistics Multiple R R Square Adjusted R Square Standard Error Observations B 0.6254 0.3911 6.3573 0.6324 20 C D E F 1 2 3 4 5 6 7 8 9 10 11 AHOVA:12 13.Regression 14 Residual 15;Total 16 17 18:19 Intercept 20 Speed df sS 1 19 19 4.624 7.19日 11. 822 HS A,624 0.400 F 11.563 Significance F 0D.0032 Coefficient Standard Error t Stat P-value 6.03 0.5195 11.606 |8.617E-10 -0.017 0.005 -3.400 3.18日區-03 a.確定最小二乘迴歸線的截臣和斜率。 b.斜率的符號表明鑽速和鑽頭的使用壽命之同是什麼關係? c確定殘差標準差,解釋這個數。 11.23 參照練習11.21。 a.利用練習 11.22 獲得的迴歸線計算當 =60、80、100、120、140 時的預測值。 b.哪些:值所對應的y的實際值大多數都大於預測值?哪些值所對應的y 的實際值大多數都小於預測值?這樣的模式是否表明存線上性關係? 11.24(商業) 某個地產經紀人研究z=購房者的家庭年收入(以幹美元計)

11.2 估計模型中的引數•611 和房屋的價格(以幹美元計)之間的關係。這個地產經紀人從自己的基本銷售地區的一季的購房抵押申請中收集了由24筆購房資料組成的樣本。以下是具體的資料和 Stata 輸出結果。 25.0 28.5 y: 84.9 94.0 29.2 96.5 30.0 93.5 31.0 102.9 31.5 31.9 32.0 99.5 101.0 105.0 33.0 99.9 x: ”: 33.5 110.0 34.0 100.0 35.9 116.0 36.0 110.0 39.0 125.0 39.0 119.9 40.5 40.9 130.6 120.8 42.5 129.9 Y: 44.0 135.5 45.0 50.0 54.6 65.0 70.0 140.0 150.7170.0 110.0 185.0 .regress Price Income Source SS df HS Model Residual 9432.58336 4590.6746 1 22 一 — 9432.50336 208.667027 Total 14023.25日 23 609.706869 Nomber of obs F(1,22) Prob>F R-square Adj R-square Root HSR = 24 45.20 0.0000 0.6726 0.657日 14.445 Price Coef. Std.Brr. t P! [95 & Cont. Interval] Income cOnS 1.80264 47.15048 0.26日1147 10.93417 6.723 4.312 0.000 0.000 1.246604 24.4744 2.358676 69.82657 •dzop in 23 (1 observation deleted) regress Price Income Source SS df HS Mode1 Residual 13407.5437 549.902031 1 21 13407.5437 26.185811 Total 13957.4457 22 634.429351 Munber of oba = F(1,21) Prob>E F-square Adj R-square = Root HSE 23 512.02 0.0000 0.9606 0.9587 5.1172 Erice Coef. Std.Erz. t P>ltl [95% Conf. Interval] Income cons 2.461967 24.35755 0. 108803 4,286011 22.628 5.683 0.000 0.000 2.235699 15.4443 2.689236 33.27079

•612• 第十一章線性迴歸和相關 a.下面是利用 Minitab 繪製的散點圖和LOWESS 平滑線,二者的關係基本上是線性的嗎? b.是否存在高槓杆點?如果存在,哪些似乎有高影響? 200 ee I50 Pr 100 - • 20 30 T 40 50 Income 70 11.25 根據練習 11.24, a.求出最小二乘國歸方程。 b.解釋斜率係數,截距有什麼意義。 c。求出標準殘差。 11.26 練習 11.24的輸出結果還包含剔除點 =65.0、=110.0後的迴歸線。斜率有實質上的變化嗎?為什麼? 11.3 迴歸引數的推斷簡單迴歸模型中的斜率、截距和標準殘差都是根據有限的資料估計的。與其他所有的統計量一樣,這幾個都受到隨機誤差的影響。本節我們將考慮如何處理由隨機誤差引起的影響。以前有關均值和比率假設檢驗和置信區間的概念同樣可以用於這些迴歸概括數字。 1分佈可以用來構造顯著性檢驗和斜率與截距真值的置信區間。一個自然的等假設是斜率真值 8L為0。如果這個H。為真,那麼×的變化不會對y的變化產牛預測作用,也就是說z沒有任何預測y的價值。從前一節知,樣本斜率及,的期望是 8,標準差為 1 0= 0:JSzx 實際中,。是未知的,必須用標準殘差s。來估計。絕大多數迴歸分析的計算機輸出結果中,估計的標準誤差是在係數項的旁邊。1統計量給出了•個這個零假設的檢驗:

11.3 迴歸引數的推斷 • 613• B1-BL 【= B標準誤差的估計= S:V1/Szx 這個統計量最常見的應用小結如下。 B,的統計檢驗的小結假設: 1.Ho:B0, H>0 2.Ho:B1≥0,Ha:8≤0 3.Ho:B1=0,Ha:8$0 T.S.(檢驗統計量): =一 -0 一 Se Vi/Sa R.R.(拒絕域):自由度為df=1-2,第一類錯誤為a 1.如果 >。則拒絕H。。 2.如果 <。則拒絕Hoo 3.如果F|≥6a/2則拒絕 Hoo 檢查假定並得出結論。 所有的迴歸分析輸出結果都給出了:值。 絕大多數計算機輸出結果中,這個檢驗都是在標準誤差項之後,標識為工 TEST 或T STATISTIC。計算機輸出結果經常也給出p值,這樣可以不用查:分布表。 例 11.5 利用例 11.3的計算機輸出結果(這裡重新列出),確定:統計量的值以檢驗公路重新鋪設例子的Ho:B. =0。給出這個檢驗的顯著性水平。 PREDICTOR VARIABLES CONSTAHT HILES COEFEICLENATT 2.00000 3.00000 STD ERROR 3.62970 0.85634 STUDENT'S T 0.52 3.50 P 0.6376 0.0394 R-SQUARED AITUSTED R-SQUNRED 0.8036 0.7381 FESID. HEAI SQURAE (HSE) STANDARD DEVIAYION 14.6666 3.82970 SOURCE SS HS P REGRESSION RESIDUAL TOTAL. 1 3 4 180.000 44.0000 224.000 180.000 14.6666 12.27 0.0394

•614• 第十一章線性迴歸和相關解答從輸出結果中,很清楚看到檢驗統計量在標識為 STUDENT’ST那一列,為:=3.50。而雙側檢驗的對立假設H。:B 0的p值,標識為P,是0.0394。 因為這個值比較小,所以我們拒絕公路重新鋪設的英里數對預測專案的成本沒有影響的假設。 例 11.6 以下資料是食品行業的15家公司的高階主管的平均年齡和前一年公司股票的每股收益的年增長率。利用 Systat的輸出結果檢驗關於公司高階主管的平均年齡對公司股票的收益變化沒有預測價值的假設。應使用單側檢驗還是雙側檢驗? 平均年齡 z:38.2 40.0 42.5 43.4 44.6 44.9 45.0 45.4 年增長率 Y: 8.9 13.0 4.7 -2.4 12.5 18.4 6.6 13.5 x: 46.0 47.3 47.3 48.0 49.1 50.5 51.6 Y: 8.5 15.3 18.9 6.0 10.4 15.9 17.1 DEE VAR: CHGEPS N:15 HUL.TIPL.I R: 0. 383 SQUARED HULTIPTE R: 0.147 STANDARD ERROR OE ESTIMATE: 5.634 VARLABLE CONSTAHT HEANAGE CO區FFICIENT -16.991 0.617 STD ERROR 18.866 0.413 STD COR* 0.000 0.383 T 0.901 1.496 P(2 TAIL) 0.384 0:158 ANALYSIS OE VARTANCE SOURCE REGRESSION RESIDUAL SUN-OF-SOUARES 71.055 412.602 DF 1 13 HEAN-SOUARE 71.055 31.739 F-RATIO 2.239 P 0.15日解答模型y=B+B +e中,零假設為Ho:B=0。美國商界的普遍看法是年輕的經理更積極進取和努力工作,年長的經理更富有經驗而引導更好的決策。 因此,選擇雙側檢驗更好,其對立假設為H。:B 0。1統計量在輸出結果中標識為T的那一列,t=1.496, 值為0.158。因此沒有足夠的證據表明公司高階主管的平均年齡和公司股票的收益變化之同存在關係。 附帶說明,注意B。的解釋在這個例子中比較有趣,它代表一家高階主管平均年齡為0的公司的股票收益變化。 也可以計算斜率真值的置信區間,這是一個非常好的表示斜率估計中的不準確程度的方法。置信區間就是簡單地將估計值加上或減去:分佈表的值乘上標準

11.3 迴歸引數的推斷•615• 誤差。 斜率B」的置信區間陽-tap2Sae 1 Sxr MPI≤B, + Sa/28 NSox 值1a/2自由度為n一2,也就是誤差的自由度。 例 11.7 利用例11.3的計算機輸出結果,計算斜率B的95%置信區間。 解答計算機輸出結果中,B:=3.000,B」的估計的標準誤差近似為0.856。 由於n是5,則誤差的自由度是5-2=3。查表知 e12 10.05/2 = 10.028 =3.182。 那麼B真值的相應的置信區間是 3.00 3.182(0.856) 或 0.276 到5.724 公路重新鋪設每增加一英里,預測增加的成本可能是276 美元與5,724 美元之間的任何值。這個區間的長度過大主要是由於樣本規模過小。 F檢驗是另一個可以使用的檢驗,也可以用於檢驗零假設“沒有預測價值”。 這個檢驗涉及的等假設是所有的預測變董對y都沒有預測價值,在簡單線性迴歸分析中給出和零假設為Ho:B」=0的雙側:檢驗相同的結果,因為所有的預測變量都沒有預測價值就是斜率(惟一的)為0。F檢驗小結如下。 Ho P=0的F檢驗 Ho:B=0 Ha:B 0 T.S.(檢驗統討量):F=。 SS(迴歸)/1. R.R.(拒絕域):分子自由度 d =1,分母白由度 dl=n-2, 如果 F>F。則拒絕H0。 檢查假定並得出結論。 SS(迴歸)是的預測值與的均之間差異的平方和,SS(迴歸)=2(: 3)。SS(殘差)是》的實際值與y的預測值之間差異的平方和,SS(殘差) - N(-3:)。 幾乎所有的計算機軟體都計算F統計量。公路重新鋪設例子中,計算機輸出結果顯示 F=12.27, 值是0.0394,因此再次拒絕沒有預測價值的假設。簡單線性迴歸分析問題中,F=:總是正確的:這個例子中,12.27 就近似為(3.50)2。F 檢驗和:檢驗在簡單線性迴歸分析是一致的,但在多元迴歸分析中有不同的目的。

•616• 第十一章線性迴歸和相關例 11.8 證明 =F。 這裡重新列出了例11.4的計算機輸出結果,利用 F檢驗零假設 Ho:B=0。 • The regression eqvation is Y=64.7-1.75x Predictor Constant Coef 64.672 - 1.7487 Stdev 6.762 0.2995 t-ratio 9.56 -5.84 P 0.000 0.000 8=2.368 R-$9 =81.0* 8-sa(adj)=78.68 Analysis of Variance SOURCE Regression Error Total DE 1 8 9 sS 194.45 45.61 240.06 Ms 194.45 5.70 『34.10 P 0.000 解笹,計算機結果顯示 F統計量為34.10, 值是0.000(表明實際的p值小於0.0005)。注意:統計量-5.84,則 =(-5.84)’=34.11,近似等於F。 讀者應該能夠得出截距Bo的相似的假設檢驗和置信區間,利用B。的估討的標準誤差 9=SeVn 實際上,人們對這個引數的興趣不如對斜率的興趣。特別地,經常沒有理由去假設截距真值為零(或任何特定的值)。計算機軟體幾乎總是檢驗斜率是零的零假設, 但並不操心截距項的檢驗。 練習 11.27 參照練習11.15的資料。 a.計算B」的95%置信區間。 b.練習11.15 中H:B.=0的解釋是什麼? c.這個問題中對立假設 H。是什麼? a.資料在a=0.05 水平下支援H。嗎?說明你的假定。 11.28 求出前一個練習中零假設為Ho:B. =0的檢驗的p值。 11.29(農業)假設一位研究人員要研究使用不同濃度(0%、1.5%和3%,按

11.3 迴歸引數的推斷 • 617• 重量)的果膠和放置在2SC的環境中的罐裝甜薯片的硬度之間的關係。六罐甜薯片的樣本資料如下。 y(硬度) 50.5 46.8 62.3 67.7 80.1 79.2 z(濃度) 1.5 1.5 3.0 3.0 2.求出模型 =Bo+Bz+e 中引數的最小二乘估計。 .求出的估計。 c.求出及,的標準誤差。 11.30 參照練習 11.29。設計一個零假設為果膠的濃度和放置在25C的環境中30天后罐裝甜薯片的硬度之間沒有線性關係的統計檢驗。算出這個檢驗的值並得出結論。 11.31(生物)某種疾病傳播的範圍在很大程度上受空氣中懸浮的感染有機體的生存能力的影響。由於所研究的這種疾病的感染性質,這些有機體的生存能力必須在密閉的房間裡研究。一個方法是將準備好的包含感染有機體的溶液以霧狀噴酒在房間裡。任何特定時間後生物復原(biological recovery)都是用懸浮在氣霧中有機體的總數中還存活的比例來衡量的。附表資料是從13個不同的氣霧中計算的生物復原比例,每個噴霧的復原比例是在不同的時間計算得到的。 氣霧 1 2 3 4 s 6 7 8 9 10 11 12 13 時間,工(分鐘) 5 10 15 20 25 30 35 40 45 55 60 生物復原(%) 70.6 52.0 33.4 22.0 18.3 15.1 13.0 10.0 9.1 8.3 7.9 7.7 7.7

• 618• 第十一章線性迴歸和相關 a.繪製資料的散點圖。 b.由於資料圖顯示有些彎曲,試試對生物復原取對數,使資料線性化。 11.32 參照練習11.31。 a.擬合線性迴歸模型 y=B0+Bz+e,其中y是log(生物復原)。 b.計算a。的估計。 c.確定 B,和B的標準誤差。 11.33 參照練習11.31,進行一個零假設為Ho:B.=0的檢驗,取a=0.05。 11.34 參照練習11.31。求出 Bo的95%置信區間,B0為時間為零時的log (生物復原比例)的均值。解釋你的結果。(注:當 =0時E(y)=B0) 11.35 (農業)某個研究人員進行一項試驗,這個試驗是檢驗用新增氨基酸賴氨酸的飼料餵養的雞的體重的增加與所攝取的賴氨酸的量之間的關係。由於賴復酸的比例是已知的,又可以控制雞的進食,因此雞所攝取的賴氨酸是可以確定的。這個研究中隨機選取12只兩週大的雞為樣本,每隻分別在不同的雞籠飼養且可進食新增指定量的賴復酸的飼料。下面給出的試驗期間雞的體重的增加和所攝取賴氨酸的樣本資料。(資料中,»代表以克計的雞增加的體重,代表以克計的所攝取的賴氨酸) a.參照計算機輸出結果,線性模型合適嗎? b.根據計算機輸出結果,求出估計的線性迴歸模型 =B+Bz。 22+ 21 青 * 20+ 19 18+ * * * * 17 16+ * * 4-—----+- 0.075 0.100 0.125 0.150 0.175 0.200 0.225 0.250 攝取的敕氦酸雞 1 2 3 4 5 6 雞 14.7 17.8 19.6 18.4 20.5 21.1 0.09 0.14 0.18 0.15 0.16 0.23 8 9 Dependent Vaziable:Y Analysis of Variance OTTEUT FOR EXRRCISE 11.35 WEIGHPT GAIN Source DF Sum of Squares Hean Square Model ErTOr C Total 1 10 11 28.35785 10.69215 39.05000 28.35785 1.06921 Root HSE Dep Mean C.V. 1.03403 18.45000 5.60449 F-square Adj R-ag 0.7262 0.6988 Parameter Estimates Variable DE Parameter Estimate Standard Erzor INIERCEP x I 1 12.508525 35.827989 1.19169259 6.95693918 Variable DE Variable Label INTERCEP x 1 1 Intercept LYSINE INGESTED 11.3 迴歸引數的推斷•619• y 17.2 18.7 20.2 16.0 17.8 19.4 x 0.11 0.19 0.23 0.13 0.17 0.21 F Value 26.522 Prob≥F 0.0004 T Eor HO: Parameter=0 10.497 5.150 Prob≥F 0.0001 0.0004

• 620• 第十一章線性迴歸和相關 OBS Y x 1 2 3 4 5 6 7 8 9 10 11 12 14.7 17.8 19.6 18.4 20.5 21.1 17.2 16.7 20.2 16.0 17.8 19.4 0.09 0.14 0.18 0.15 0.16 0.23 0.11 0.19 0.23 0.13 0.17 0.21 FREDICYED VALJES 15.7330 17.5244 18.9576 17.8827 18.2410 20.7490 16.4496 19.3158 20. 7490 17.1662 18.5993 20.0324 RESIDUALS -1.03304 0.27556 0.64244 0.51728 2.25900 0.35104 0.75040 - 0.61584 - 0.54896 - 1.16616 -0.79928 -0.63240 11.36 參照練習11.35的輸出結果。 a.估計c。 b.確定p」的標準誤差。 c.進行一個統計檢驗,檢驗在這種飼料配方和研究時間下,雞所增加的體重和所攝取的賴氨酸之間存在一個直接的(正的)線性關係。 11.37 參照練習11.35。 8.這個例子中,8的物理上的解釋有意義嗎?(提示:賴氨酸是混合在飼料中) B.考慮另一個關於雞所增加的體重和所攝取的賴復酸之間關係的模型 Y=Bi×+E 區別這個模型和模型y=B+Bz+Bo 11.38 a.參照練習 11.37(b),從下面的計算機輸出結果中確定模型y=BLz+e中的 B,其中擬合?(提示:在樣本觀測圖中檢查這兩個預測方程) OUTUT FOR EXERCISE 11.38 NOIE: NO Intercept in nodel.R-square is redefined.

11.3 迴歸引數的推斷•621• Dependent Variable:Y KEIGHT GAIN Analysis of Variance Source DF Sum of Squares Mean Square F Value Model EITOT U Tatal 1 • 11 12 3995.38497 126.49503 4123.88000 3995.38497 342.031 11.68137 Root. HSE Dep Hean c.v. 3.41780 18.45000 16.52467 R-aqaare 0.9688 Adj R-sq 0.9660 Parameter Estimates Variable DF Parameter Estimate Standard T for HO: Erroz Parameter =0 x 1 106.523715 5.75988490 18.494 Variable OES Y DF 1 x Variable Label LYSINE INGESTED PREDICTED VALUES RESIDOALS 1 2 3 4 5 6 7 B 9 10 11 12 14.7 17.8 19.6 18.4 20.5 21.1 17.2 1日.7 20.2 16.0 17.8 19.4 0.09 0.14 0.18 0.15 0.16 0.23 0.11 0.19 0.23 0.13 0.17 0.21 9.5871 14.9133 19.1743 15.9706 17.0438 24.5005 11.7176 20.2395 24.5005 13.日481 18.1090 22.3700 5.11287 2.88668 0.42573 2.42144 3.45621 - 3.40045 5.48239 -1.53951 -4.30045 2. 15192 - 0.30903 -2.96998 Prob>E 0.0001 Prob>irl 0.0001

•622• 第十一章線性迴歸和相關 11.39(商業) 某個印製汽車減震器標籤的工廠研究標籤的總的直接成本和印製的批次之間的關係。資料是用計算機軟體 Execustat 分析的,相關的輸出結果如下所示: simple Regression Analysis Linear model:TotalCost= 99.777 + 5.19179 * Runsize Table of Estinates Standard t Intercept Slope Estinate 99,777 5.19179 Error Value 2.9273 35.29 0.0586455 88.53 P Value 0.0000 0.0000 R-sguared = 99.64 號 Correlation coeff. = 0.998 Standard error of estimation = 12.2065 DurbinWat.son statietic - 2.67999 Analysis of Variance Source Hodel ErTOr Total.(corr.) Sum of Squares 1.16775e + 006 4171.98 1.17192e + 006 D.F. Hean Square 1 1.16775e+ 006 28 148.999 29 F-Ratio 7837.26 P Value 0.0000 批次總成本批次總成本批次總成本 a.繪製資料的散點圖。利用線性迴歸模型是否有困難?你是否能看出有哪些地方違背了模型假設?原始資料如下: 2.6 5.0 10.0 2.0 0.8 4.0 2.5 230 341 629 187 159 327 206 3.0 0.4 0.5 5.0 20.0 5.0 2.0 247 135 125 366 1146 339 208 0.6 124 1.0 150 0.8 155 1.5 179 1.0 2.0 147 209 0.5 1.0 128 ISS 1.0 143 0.6 2.0 1.5 3.0 6.5 2.2 1.0 131 219 171 258 415 226 159 b.求出輸出結果中顯示的估計的迴歸方程。確定標準殘差。 c.算斜率真值的95%置信區間。這個問題的截距和斜率的意義是什麼? 11.40 參照練習11.39 的計算機輸出結果。 2.確定等假設為Ho:BL=0的檢驗的t統計量的值。

11.4 利用迴歸預測新的y值•623• b.確定這個檢驗的p值,這個p值是單側還是雙側的? 11.41 參照練習11.39的計算機輸出結果。 a.確定F統計量的值和相應的值。 b.這個F檢驗的值和練習11.40的:檢驗的p值一致嗎?為什麼這個關系應該保持? 11.4 利用迴歸預測新的y值到目前為止做的所有迴歸分析中,我們已經對觀測的資料之間的關係做了總結和推斷,因此已經對過去發生的做了預測。而回歸分析最重要的應用之一就是對未來進行預測。在公路重新鋪設的例子中,縣公路管理部門主任需要預測一個用於招標新的合同的成本。在已知銷售價格預測銷售數量的迴歸分析中,某經理需要預測新價格下的需求。本節將討論如何進行迴歸分析預測和怎樣確定正的或負的誤差因子。 根據×的一個給定值所預測的y值有兩種可能的解釋。假如公路管理部門主任將 =6英里代入迴歸方程 =2.0+3.0z,得到 =20,這個預測值可以解釋為以下兩者之一。 “所有6英里長的公路重新鋪設的平均成本 E(y)是20,000美元。” 或 “某個6英里長的公路重新鋪設的成本»是20,000 美元。” 兩種情況的最佳預測都是20,但是正負誤差是不同的。預測平均值E(y)比預測個別y值容易,因此預測平均值的正負誤差小。我們首先討論預測平均值的正負誤差範圍,需知這是解決特定值問題的中間步驟。 平均值預測問題中,預測變數×的值假定是已知的。過去的×值記為 …、 都是無偏的,3n+1是E(3+1)的一個無偏預測。可以證明了。+的標準誤差為上+(30t Sk 這裡Se是x;的原始的n個值的偏差平方和;大多數計算機輸出結果都是用下面的公式計算的: 自由度為n-2(誤差自由度)的:分佈表是需要的。通常用來構造置信區間的方法一就是“估計士 (標準誤差)”,也可以用來獲得E(3n+1)的置信區間。一些好

•624• 第十一章線性迴歸和相關的統計計算軟體可以在給定新的z值而沒有確定相應的y值時計算這個置信區間。 E(yn+1)的置信區間的計算公式 Ya+l-ta/2Se +L8atl-) Sar ≤E(yHi)≤Snl + le/zss Sx 其中1。表示在自由度為 2的:分佈中。的右側的面積為a的點。 在公路重新鋪設的例子中,下面的計算機輸出結果顯示當z=6時E($+1) 的估計值是20,相應的E(yn+)的置信區是(12.29,27.71)。 Resurfacing Data PREDICTOR VARIABLES CONSTAHT HIT.ES COEFFICIENT 2.00000 3.00000 STTD ERROR 3.92970 0. 05634 STUDENT'ST 0.52 3.50 P 0.6376 0.0394 R-SQUARED ADTUSTED R-SQUARED 0.8036 0.7381 RESID.MEAN SQUARE(HSE) STANDARD DEVIATION 14.6666 3.日2970 SOURCE DE Ss HS F P REGRESSION RESIDUAL TOTAL 1 3 4 180.000 44.0000 224.000 180.000 14.6656 12.27 0.0394 PREDICTED/FITTED VALJES OF COST LOWER PREDICTED BOUND PRRDICTED VALUE UPPER PRRDICTED BOUND $E (PREDICIED VALJJE) 5. 5791 20,000 34.420 4.5313 LOWER FITTED BOUND FITTRD VALAE UPPER FITTED BOUND SE (FITTED VALLIE) 12.291 20.000 27.70日 2.4221 PREDICTOR VALUES:HILES = 6.0000 可以看到的,E(3n+1)的置信區間中估計的加減項依賴於樣本規模,和圍繞迴歸線的標準偏差。它也依賴子 +1到 (以前的:的均值)的平方距離與S.T

11.4 利用迴歸預測新的鄉值•625• 的比值。zn+1離示越遠,項 (n+1) St 越大。當xn+j遠離其他的z值時,這項的值就大,此時預測值就是程度很強的外推。迴歸線的小的估計誤差會被這種外推放大,(+1) /S起可以稱為外推懲罰,這是因為它隨著外推的程度而增加。 外推——在自變數值遠離資料時的預測,常常是吸引人而又危險的。使用它需要一個假定條件,那就是變數之同在遠離資料的情況下繼續保持線性關係。一般來說,你沒有資料去檢驗這個假定條件。例如,某個公司可能發現一個季度所僱職員的人數(1200和1400之間)與這個率度的利潤存在一個負的關係,職員越少, 利潤越大。但如果從這個事實中就得出將職員減少到600人會大大增加利潤,會產生驚人的風險。(你認為我們能有負數個職員嗎?)職員數量的下降遲早會對公司的業務造成負面的影響,因此公司的利潤會下降。外推懲罰往往是低估了風險, 這是因為它是建立線上性關係這個假定條件上的,而這個假定在大的外推時是不可靠的。 置信和預測區同很大程度上也受同方差假定的影響。一些迴歸分析情況中, 當預測值增加時圍繞迴歸線的變異就增大,因而違背這個假定,此時,置信和預測區間在變異相對小時就會太寬,而變異相對大時就太窄。一個散點圖如果顯示出 “扇形”就表明是異方差,這時豎信和預測區同就不準確了。 例11.9 從例11.4 的資料和下面的Minitab 輸出結果中,求出工n+1為22.4時 E(yr+1)的95%的置信區間。比較這個區間的寬度和xn+1為30.4時的置信區間的寬度。 MTE>regress y' on 1 variable x'; SUBC > predict at 22.4; SUBC> predict at 30.4. The regression equation is Y=64.7-1.75x Eredictor Constant x Coef 64.672 -1.7487 Stdev 6.762 0.2995 t-ratio 9.56 - 5.84 P 0.000 0.000 $=2.388 B-S9 =81.0* R-sq (adj) = 78.6

•626• 第十⋯章線性迴歸和相關 Analysis of Variance SOURCE Begression Error rotal DF 1 8 9 SS 194.45 45.61 240.06 HS 194.45 5.70 F 34.10 P 0.000 Fit 25.500 11.510 Stdev.Fit 0.755 2.500 95%C.I. (23.758,27.242) (5.742.17.278) 95% P.I. (19.723,31.277) (3.535.19.485)xX X denotes a row with X values away Erom the center XX denotes a row with very extrene X values 解答對於xn+1-22.4,標識為“Fit”的兩個數中的第一個就顯示了預測的值為25.5,置信區同為(23.758,27.242)。對於 +1=30.4,預測的值為11.51, 置信區間為(5.742,17.278)。第二區間的寬度大約是11.5,遠遠大於第一個區間的長度3.5。這是因為xx+1=30.4遠離x的資料的範圍,外推懲罰使得區間較寬。 通常關心的預測回題是預測 yn+1的個體值而不是E(yn+1)。大多數的計算機軟體屮,預測個體值的區間稱為預測區間。預測y同樣是利用最佳的估計 Sn+,只是預測的誤差項比預測E(yn+L)的誤差項大。事實上,可以證明利用 3n+預測yn 1的公式如下。 yr+1的預測區間 Yril- ta/25 Yntl≤Ya+l + ta/2se 其中10/2表示在自由度為 -2的!分佈中1a 2的側的面積為a/2的點。 在公路重新鋪設的例子中, =6時的Y*1的相應的95%預測區是(5.S8, 34.42)(參看前面的計算機輸出結果)。E(yn+1)和yn+』的95%預測區間分別畫在圖 11.13.裡面的曲線是E(yn+1)的,外面是y11的。 預測 E(3n+1)的區同和Y 1的區間的惟一不同之處在於標準誤差公式中的那項“+1”。有這一項表明個體值的預測準確性比平均值的預測差,外推懲罰也是適用的,同樣也是低估了風險。如果*大而外推項小,則項“+1”在平方根裡佔主要地位,此時置信區間近似為Jx+1-1a/2S,≤yr 1≤Sn 1+ ta/2Seo因此,當1大時,大約68%的殘差(預測誤差)在士1s。內,大約95%是在士25內。考慮忽略平

11.4 利用迴歸預測新的y價•627• 方根裡的其他項的原則沒有多少意義。計算機輸出結果中常會計算出這些項,包含它們沒有什麼危害。 26 2116116 ⋯⋯ 牛 1 2 3 4 5 英里數 6 7 成本=2.0000+3,0000*英里數95% 置信和預測區間圖11.13 95%界限的預測值與觀澳值例 11.10 利用例11.9 的計算機輸出結果(這裡重新列出),分別求出 w+1=22.4時和 +1=30.4時的yr+1的95%的置信區間,並與用土25。估計的區間的寬度進行比較。 解答在例11.9中,當 n+1=22.4 時3n+1=25.5,顯示的預測區間為 19.72≤yn+1≤31.28 而由士2S。確定的區間為 25.5 - (2)(2.388)≤yn+1≤25.5+(2)(2.388)或20.72≤y+1≤30.28 後一個區間窄一點,主要是因為查自由度為8的:分佈表得出的:值稍微大於2。 當工n+1=30.4時 ye+1=11.51,95%預測區間為 3.54≤y+1≤19.48 而由士25。確定的區間為 11.5-(2)(2.388)≤y+≤11.5+(2)(2.388)或6.72≤yn+1≤16.28 後一個區間窄很多,不僅是因為:分佈表得出的:值大於2,而且大的外推懲罰沒有反映出來。計算機輸出結果給這個預測標上“xx”,表明所用的』值遠離資料。

• 628• 第十一章線性迴歸和相關 HTB>regress y on 1 variable'x'; SURC>predict at 22.4; SURC>predict at 30.4. The regression equation is y= 64.7-1.75x Predictor Constant × Coef 64.672 -1.7487 Stder 6.762 0.2995 t-ratio 9.56 - 5.84 P 0.000 0.000 8=2.366 R-89=81.0米 R-sg(adj) =78.6* Analysis of Variance SOURCE Regression DF 1 Error Total 9 SS 194.45 45.61 240.06 MS 194.45 5.70 F 34.10 P 0.000 Fit 25.500 11.510 Stdev.Fit 0.755 2.500 95& C.I. (23.758,27.242) (5.742,17.278) 95&P.I. (19.723, 31.277) (3.535,19.485)XX x denotes a row with X values away from the center Xx denotes a row with vary extreme X values 練習基本技能 11.42 參照練習 11.31,對於最小二乘方程 =角+店利用95%的置信區間估計30分鐘時的1og(生物復原比例)的均值。 11.43 利用練習 11.42 的資料,構造30分鐘時的log(生物復原比例)的 95%的預測區間,並與練習11.42E(y)的置信區間比較。 應用 11.44(工程)某個化學家想要確定一特定的混合物暴露在空氣中,其重量的減少y與暴露時間之間的函式關係。下表給出了n =12 的樣本的重量減少和

11.4 利用迴歸預測新的y值• 629• 暴露時間的資料。 置量減少和暴露時間的資料重量減少(磅) 4.3 5.5 6.8 8.0 4.0 5.2 6.6 7.5 2.0 4.0 5.7 6.5 暴露時間(小時) 4 6 7 4 5 6 7 4 5 6 7 n.求出模型y=Bo+B1z+ 的最小二乘預測方程。 b.檢驗Ho:B≤0,給出 Ho:B>0的p值並得出結論。 11.45 參照練習 11.44,以下給出了 SAS的計算輸出結果。 a.確定4≤z≤7時,E(y)的95%的置信區間。 b.確定4≤ ≤7時, 的95%的預測區間。 c.區分(a)中置信區同和(b)中預測區間的意義。 Dependent Varieble:Y MEIGTT Loss Analysis of Var iance Source Hodel Error C Total DF 1 10 11 Sum of Squares 26.00417 6.46500 32.46917 Mean Square 26.00417 0.64650 F Value 40.223 Prob>E 0.0001

6 6 7 •630• 第十一章線性迴歸和相關 Root MSE Dep Hean c.v. 0.80405 R-square S.50833 AdjR-sg 14.59701 0.8009 0.7810 Parameter Estimates Variable DE Parameter Estimate standard ErrOr r for HO: Parameter=0 IWTERCEP x 1 1 - 1.733333 1.316667 1.16518239 0.20760539 -1.488 6.342 Predict Std Brr Lower95* Upper95 * Lover95& Value Predict Mean Mean Predict 4.3 5.5 6.8 8.0 4.0 5.2 6.6 7.5 2.0 4.0 5.7 6.5 3.5333 4 8500 6.1667 7.4833 3.5333 4. 8500 6.1667 7.4833 3.5333 4. 8500 6.1667 7.4833 0.388 0.254 0.254 0.388 0.388 0.254 0.254 0.3$8 0.388 0.254 0.254 0.388 2.6679 4.2835 5.6001 6.6179 2.6679 4. 2835 5.6001 6.6179 2.6679 4.2835 5.6001 6.6179 4. 3987 5.4165 6.7332 8. 3487 4.3987 5.4165 6.7332 8. 3487 4. 3987 5.4165 6.7332 8.3487 1.5437 2.9710 4.2877 5.4937 1.5437 2.9710 4. 2877 5.4937 1.5437 2.9710 4.2877 5.4937 Sum of Residuals Sum of Squared Res iduals Predicted Resid SS (Press) 0 6.4650 10.0309 11.46 以下是練習 11.39的計算機輸出結果的另一部分。 Row Runsize 2 Predicted TotalCost 203.613 Table of Predicted Values 95.00米 Prediction Lower 178.169 Lfaits Upper 229.057 Prob>|Tl 0.1677 0.0001 Upper95* Predict 5.5229 6.7290 8.0456 9.4729 5.5229 6.7290 日.0456 9.4729 5.5229 6.7290 8.0456 9.4729 Residual 0.7667 0.6500 0.6333 0. 5167 0.4567 0.3500 0.4333 0.0167 - 1.5333 -0.8500 -0.4667 - 0.9833 95.00 % Confidence Lcwer 198.902 Limits Upper 208.323

11.4 利用迴歸預測新的»值•631 • a.預測所有印刷批次為2,000(即 Runsize=2.0)的減震器標籤合同的平均總直接成本。 b.確定這個均值的95%的置信區間。 11.47 練習11.39中的預測是嚴重的椎斷嗎? 11.48 參照練習 11.46。 日.預測印刷批次為2,000的減震器標籤合同的總直接成本,並求出95%的預測區間。 b.如果這個合同的實際直接成本為250美元,很奇怪嗎? Time Lo responsc by back1og, 600 • • • 1c 20021000 0 B3ck?.0g | 3 T Leittins N-Jinear Fit Linear Fit Summary of Fit RSquare RSquareAdj Root Mean Square Brror Hean of Response Observations (or Sum Hgts) 0.241325 0.22868 107.3671 113.871 62.j Analysis of Var iance Source DE Sum of Squares Hodel 1 220008.88 Error 60 691662.09 Hean Square 220009 11528 C Total 61 911670.97 Parameter Estimates Term Estimate Std Error Intercept 23.817935 24.71524 Back1og 48.131793 11.01751 t Ratio 0.96 4.37 練習 11.49中等待時間資料的分析 4 F Ratio 19.0852 Prob>F 0. 0001 Prob>It! 0.3391 0.0001

•632• 第十一章線性迴歸和相關 11.49 某個供熱承包商為出現供熱問題而打電話的家庭提供維修人員。這個承包商希望能有辦法估計到維修人員開始T作時為止顧客會等待多長時間。有關等待時間的分鐘數和前面積壓的電話數的資料已經收集到。以下是由JMP 得到的資料的散點圖和迴歸分析。 a.當前面積壓電話為6時,計算此時電話的響應時間的預測值和近似的95% 預測區間,忽略外推懲罰。 b.如果已經計算了外推懲罰,這個懲罰會非常小嗎? 11.50 在前一個練習中,計算的預測區間是過窄還是過寬? 11.51 下面是練習 11.11 的部分輸出結果。 MTB >Regress 'y' 1'x; SUBC> Predict 1.301. the regtession equat ion is Y=14.3+1.48x Predictor Constant x Coef 14.2917 1.4750 stdev 0.7962 0.1737 t-ratio 17.95 8.49 P 0.000 0.000 8= 1.346 R-8g=87.84 R-sg(adj) =96.64 Fit 43.792 Stdev.Fit 2.807 95%C.I. (37.536,50.047) 95*P.I. (36.854,50.729)X * denotes a row with X values away from the center Xx denotes a row with very extreme X values MTB>Regress y' 1'1ogx'; SUEC>Predict 20. The regression equation i5 Y= 14.9+10.5 1ogx Predictor Constant logx Coef 14.8755 10.522 Stdev 0.6106 1.021 t-ratio 24.36 10.30 P 0.000 0.000

11.5 線性迴歸中擬合不足的考察•633• 3=1.131 R-$9=91.48 F-sq(adj) =90.5 % Fit 28.565 Stdev.Fit 0.8756 95&C.I. 958 P.I. (26.614,30.516) (25.378,31.752)Xx X denotes a row with X values avay from the center XXK denotes a row with very extrene K values a.如果採用了,為x的線性函式的模型,當z=20時預測的>是多少? b.如果採用了為 '=logi0z的線性函式的模型,當z=20時預測的夕是多少? 11.52 c.兩個預測中哪個更合理(或更少不合理性)? 給出前一個練習中你所選擇的預測的95%預測區間。 11.5 線性迴歸中擬合不足的考察在前面的迴歸分析討論中,我們僅僅從直觀的角度考慮線性迴歸模型y=80 +B1x +e 對資料是不是擬合得好。以前我們只是從資料的散點圖檢查是否有線性關係,並檢驗斜率是否不為0;但沒有方法檢驗是否有高階模型更適合表示y與 x之間的關係。本節將討論線性迴歸模型有效性的檢驗。 圖(或表)總是檢驗擬合程度的一個好的開端。首先可以利用y關於×的散點圖,其次殘差y:一y:關於預測的值:的散點圖可以顯示出以下的問題: 1.離群或錯誤的觀測值。檢查殘差圖,可以很自然看出有非同尋常的大殘養 (指純對值)的資料點。 2. 模型銀定的違背。在y=Bo+B +e中,我們已經假定y與自變數之間存線上性關係,誤差彼此獨立,服從相同方差的正態分佈。 如果模型和資料沒有這些明顯的問題,其殘差圖看起來就像圖11.14的散點圖。從這個散點圖可以注意到沒有特別大的殘差(因此沒有明顯的離群值),也沒有跡象表明線性模型是不合適的。但一個高階模型更合適時,所觀察到的散點圖殘差 0 • • • • • • • • -3, 圖 11.14 模型形式合適的殘差散點圖

•634• 第十一章線性迴歸和相關就像圖 11.15所示。 殘差 0 • • • • • 圖 11.15 需要高階模型的殘差散點圖同方差假定的檢查可以透過y關於的散點圖或殘差»:一3:關於z:的散點圖。例如,圖11.16所示的殘差圖表明誤差方差對於所有的是齊性(相同) 的:圖11.17的殘差圖表明誤差方差隨x的增加而增大。 殘差 .• • • • • • • • • • 一年圖11.16 齊性誤差方差的殘差圖殘差 3-$ • • ① • • 圖 11.17 誤差方差隨x的增加而增大時的殘差圖

11.5 線性迴歸中擬合不足的考察•635• 誤差項的獨立性和正態性問題將在以後的第十三章討論。下面透過一個例子來說明到目前為止所學的關於殘差的一些問題。 例11.11 某生產新型隔熱玻璃例格的公司要檢查其產品的效能,試驗設定了三種室外溫度,每種溫度下隨機安排了三種不同的玻璃窗格,檢查熱量損失的多少。每個試驗中,窗戶的溫度控制在 60,相對溼度 50%。 室外溫度(TF) 20 40 60 熱量損失 86,80,77 78,84,75 33,38,43 2.繪製資料的散點圖。 b.擬合線性迴歸模型 Bo+B1 +E,並檢驗Ho:B1=0(確定檢驗的p值)。 c•計算這九個觀測值的:和y一,並繪製3一》:關於的散點圖。 d.同方差的假定合理嗎? 解答這裡給出的計算機輸出結果可以說明這個例子的四個問題。 Plot of YtX. Symbol used is ‘*'. 90+ * * * * Heat 1oss 70+ 60 50 40 —艹 30+ 20 --+ 40 Tewperature * * * 60

• 636• 第十一章線性迴歸和根關 Dependent Variable:Y Analysis of Variance HEAT LOSS Source DE Hodel Error c rotal 1 7 8 Root SE Dep Hean c.v. Parameter Est imates Sum of Sqares 2773.50000 894.50000 3668,00000 11.30423 66,00000 17.12763 Hean Square 2773.50000 127.79571 F Value 21.704 Prob>F 0.0023 R-square Adj R-sg 0.7561 0.7213 Variable DF INTERCEP X 1 1 OBS 1 2 3 4 5 6 7 8 20 20 20 40 40 40 60 60 60 Parameter Estinate Standard T Eor HO: ErrOr Parameter =0 Prob>|r| 109.000000 -1.075000 9.96939762 0.23074672 10.933 - 4.659 0.0001 0.0023 Y 86 80 77 76 84 75 33 38 43 PRED 87.5 87.5 87.5 66.0 66.0 66.0 44.5 44.5 44.5 RESID -1.5 -7.5 - 10.5 12.0 18.0 9.0 -11.5i -6.5 -1.5 a.鄉關於z的散點圖無疑顯示出一種向下的線性趨勢,也有跡象表明可能存在曲線關係。 b.線性迴歸模型似乎對資料擬合得較好,檢驗Ho:B=0的p值為0.0023,

11.5 線性迴歸中擬合不足的考察•637• Plot of RESID*PRED. Symbol used is '*' * * * Residualg 太 * * 44.5 66.0 Predicted valze 說明二者關係是顯著的。但這是最佳的模型嗎? c.殘差v 3:關於預測的:的散點圖與圖11.15相似,說明模型中還需要另外的項。 d. 因為在 =20(最前的三個)、 =40(中間的三個)和=60(最後的三個) 處的殘差很容易確定,因此不需要另外的殘差關於的散點圖來檢驗同方差的假定。原始的資料散點圖和殘差圖清楚地表明沒有這個問題。 如何檢驗例11.11中線性模型明顯對資料擬合不足?當自變數的每個水平都有多個觀測值時,我們可以就模型對資料的擬合不足進行檢驗,具體方法是將 SS(殘差)分成兩部分:一個是純試驗誤差平方和,另一個是擬合不足平方和。令 y表示自變數的第;個水平的第;次觀測的y值,如果自變數的第;個水平一共有 n;次觀測,那麼提供了對純試驗誤差的一個度量,這個平方和自由度為n:一1。 同樣對於每個其他的z 的水平,可以計算基於試驗誤差的平方和。合併平方和稱為純試驗誤差平方和,其自由度為二:(n:-1)。用SSLack代表 SSE 的剩餘部分,

• 638• 第十一章線性迴歸和相關則有 SS(殘差)=SSPaxp + SSraok 如果SS(殘差)線上性迴歸模型中自由度是一2,那麼SSLack的自由度為df= -2 2:(ni 1)。 在模型是正確的零很設下,我們能夠獲得模型誤差的方差品的獨立的估計, 具體是將 SSPoxp和SSiack分別除以各自的自由度,這些都稱為均方,分別用MSPoap 和 MSLack表示。 擬合不足的檢驗小結如下。 線性迴歸中擬合不足的檢驗 Ho:線性迴歸模型是適當的。 Ha:線性迴歸模型是不適當的 T.S.(檢驗統計蟄):F= MS)ask MSPexp 其中 SSPExp MSow-D:(n,1)= 2:(ni-1) MSLack = SS(殘差) SSPeap -2-二:(ni-1) R.R.(拒絕域):分子自由度 dy =n-2-Z:(n:-1),分母自由度 dfz= 2:(n; -1),如果F>F。則拒絕Ho。 結論:如果F檢驗是顯著的,就表明線性迴歸方程是不充分的。如果結果是不豆著的,則沒有足夠的證據表明線性迴歸模型是不適當的。 例 11.12 參照例 11.11,對線性迴歸模型進行擬合檢驗。 解答下表是×不同的水平對於純試驗誤差平方和的貢獻。 對於純試驗誤差平方秤的水平 n-1 20 40 60 總和 81 79 38 42 42 50 134 2 2 2 6

11.5 線性迴歸中擬合不足的考察 •639• 總結這些結果,有例11.11 的輸山結果顯示SS(殘差)=894.5;因此有 SSLack SS(殘差)-SSPoxp=894.5-134=760.5 試驗誤差平方和的自由度為2,(n:-1)=6;而 =9,因此SSLack的自由度為1-2 -已:(ni -1)=1。所以有 MScp - 2280 - 09 -22.33 杜 MSactk - SSfiatk=760.5 擬合檢驗的F統計量為 -3925-34.06 MSP,XD 這裡 df =1,df =6,a =0.05,如果 F≥5.99,就拒絕 Hoo 因為計算的F值大於5.99,因此拒絕 Ho,結論是線性迴歸模型擬合不足。例 11.11 的散點圖證實了非線性。 小結:在x的一個或多個水平有不止一個,值時,有可能對線性迴歸模型的擬合不足進行檢驗。這個檢驗應該在任何利用擬合的線性迴歸線所做的推斷之前進行。如果擬合不足的檢驗是昆著的,那麼的一些高階多項式可能更適合。數據的散點圖和線性迴歸線的殘差圖應該可以幫助選擇合適的模型。關於選擇合適模型的資訊將在多元迴歸分析時討論(第十二、十二章)。 如果擬合不足的檢驗是不顯著的,就可以進行基於擬合的線性迴歸線的推斷。 練習應用 11.53(工程)某洗衣機用洗滌劑製造廠,想在新產品投放市場前對產品進行檢驗,其中一個關注的領域是洗衣機中洗滌泡沫的高度與洗滌劑投放量之間的函式關係。試驗是將一個標準的洗衣機注滿水,再隨機放人一定量的洗滌劑,進行檢查。具體的資料如下。

• 640• 第十一章線性迴歸和相關高度,y 28.1,27.6 32.3.33.2 34.8,35.0 38.2,39.4 43.5,46.8 投放量,工 6 7 8 9 10 a.繪製資料的散點圖。 b. 擬合線性迴歸模型。 <•利用殘差圖檢驗可能的擬合不足。 11.54 參照練習11.53。 a.對線性迴歸模型進行擬合檢驗。 b.如果這個模型是合適的,求出y的95%預測區間。 11.6 逆迴歸問題(校準) 在試驗環境中,我們常常想要估計相對於某因變數的測量值的自變數的值。 這類問題將用因變數y與自變數z之間昆線性關係的情況來說明。 考慮某個化學過程流動率的測量儀器的校準問題。令表示實際的流動率, 表示在測量儀器上的讀數。在校準試驗中,流動率控制在:個水平2:,記錄相應的儀器讀數3。假定模型為以下形式其中e:是獨立同分布的正態隨機變數,均值為零,方差為。。那麼,利用這n個資料點(x13:),我們可以得到最小二乘估計B。和B1。以後某一時間試驗員會從特定的儀器讀數y估計流動率。 x的最常用的估計是用y代替最小二乘方程一B+Bz中的立,並求解這個方程: 這裡介紹兩種不同的逆預測問題。第一種問題是預測的某個觀測值所對應的z 值;第二種問題是預測y的m>1觀測值(獨立的迴歸資料)的均值所對應的又值。 以下是第一種逆預測問題的求解過程。

11.6 逆迴歸問題(校準)•641• 情形1:根據觀測的y值預測x值 2的預測價:六一號的100(1-¢)%預測限: 1 1-221(7 d 其中解Sx 而 o 2是基於自由度df= 20 注意由於 t二 5./ /Sax 是假設 Ho:B=0的檢驗統計量, =ta z/t,我們需要l:|>1a12;也就是說B!必須 -c2)越大,這樣預測區間的寬度就越窄。同樣要注意當接近試驗區域的中心主時,我們就能得到。的好的預測。如果與之間關係的線性性校弱,那麼在試驗區域的邊界點的預測就會產生非常寬的界限。 例 11.13 某工程師想要校推用於液體肥皂生產線上的流量檢測儀器。試驗中,採用了 10種不同的流動率,記錄下相應的儀器讀數,具體資料如下所示。利用這些資料, 確定僅器讀數為4.0時的實際流動率的95%預測區間。 解答從資料中,可以得到 Szy=74.35,Sxa=82.5,Sy=67.0654。因此p, =74.35/82.5=0.9012, B =5.45-(0.9012)(5.5)=0.4934,且SS(殘差)=Sw Bi Sz=67.065 (0.9012)(74.35)=0.0608.0的估計基於自由度 -2=8。 - S(殘差) 0.0608=0.0076 N-2 Se= 0.0872

•642. 第士-章線性可歸和相關 .…:l 校準問題的資料 ⋯⋯--…: 流勁率,{ ] 2 3 4 5 6 8 9 10 儀器讀數,? 1.4 2.3 3.1 4.2 3.1 5.8 6.8 7.6 8.7 9.5 對了 =0.05,查表 df 8, =0.025的值是2.306。 22- = (2.306)2(0.00762 所Sxx (0.9012)2(82.5) = 0.0006 且1 =0.9994、利用 =3.8910,當 =4.0時, 的上下預測限分別是 11= 5.5+ 1 0.9994L 1.6090+ 2.306 (-1.6090) 0.9012 v i0(0.9994)+ 82.5 = 5.5+ 0.9994;[-1.6090+ 0.2373]= 4.1274 7.=5.5+ 0.9994--1.6090 + 0.2373]= 3.65267 撈此,的95%預測限分別是3.65和4.13。圖11.18是示了這些界限。 E - 8 6 0.4934+0.9012x 4 2 2 圖 11.18 x 的顧測區間 3 你 3.65 4.13 當~=4.0吋,的預測區問一X

•11.6 逆迴歸何題(校勝) •643 下面接著小結第二種逆預測問題的求解過程。 情形 2:根據觀測的y的m 個值預測×值預測相應於 m8個獨立的y值的均值的100P%的x值的預測值: = Pym-Bu B1 •:: 71:1+ 1其屮!9/2 R= (SP 近)(1-¢3)+ (-)23 阝1 S=s Jm科s分別是個獨文的y值的均值和標準差。 全此我們已經介紹了分析本章開始時的案例中的資料所需要的方法。 大腸桿菌濃度案例的資料分析研究人員感興趣的是評價在確定牛肉樣本中大腸桿菌(E.coli)濃度的HEC 和 HGMF 兩種方法的一致程度。如果這兩組讀數存任很強的關係,那麼研究人員就可以得到逆迴歸方程,這樣可以從 HEC. 讀數中預測 HGMF讀數。首先我們求出HEC為因變數,HGMF 為自變數的迴歸關係, 這是因為在確定大腸桿菌濃度的方法中HGMF 具有公認的可靠性。 下面給出分析 17 對大腸桿菌濃度資料的讓算機輸出結果以及殘差圖。 Dependent Variable:FFC HEC-METHOD Analysis of Variance Source DF Sum of Squares …… Hean Sguare …...... ⋯…: F Value Prob>E Model ErTOI C Tota] 1:15 16 14.22159 0.48283 14.70442 14.22159 0. 03219 441.815 d!0001 Root M$E Dep Hean C.U. 0.17941 1.07471 16.69413 R-square 0.9672 Adj R-sg •0.9650;i:

• 644• 第十一章線性迴歸和相關 Variable DE Parameter Estimate Standard Error T for HO: Parameter = 0 INTERCEP HGMHF 1 1 -0.023039 0.915685 0.06797755 0.04356377 - 0.339 21.019 Residuals Plot of Residuals versus HCHF-method 0.4 ¥ A 0.2 A A 0.1 A 0.6+ ----A A A A -0.1 + ^ B -0.2 -0.3 -0.4 + Prcb>I 0.7394 0.0001 A A +- -1 0 1 HGHF methcd R 是0.9672, 表明 HEC:濃度與HGMF濃度之間存在很強的線性關係。殘差圖的檢查沒有表明模型需要高階項和異方差的出現。HEC濃度關於 HGMF 濃度的嚴小二乘方程為 HEC =-0.023 + 0.9157 *HGMI 因此,我們可以透過檢驗下面的假設來評價確定大腸桿菌濃度的這兩種方法是否存在真正的關係: Fo:Bo=0,8=1 H:B天0或及天1 如果 H。被接受,那麼就強烈地表明關係HEC=0+1*HGMF 是有效的,也就是說 HEC 和 HGMF 產生相同的大腸桿菌濃度的讀數。從輸出結果,檢驗 Ho:Bo=0的值為0.7394,iiHo:81=1 的檢驗可以利用檢驗統計量:

11.6 逆迴歸同題(校準)•645• t=B1-1 0.915685-1 SE(p) 0.04356377 =1- 1.935 這個檢驗統計量的p值是Pr(Its1≥1.935)=0.0721。為了獲得總體顯著性水平為a=0.05,我們取假設Ho:B0=0和 Ho:B1=1的顯著性水平分別 a= 0.025:也就是說只要兩個假設檢驗的戶值有一個小於0.025,我們就拒絕這兩個假設。由於兩個值是0.7394和0.0721,我們不能拒絕這兩個零假設,因此得出的結論是這些資料不支援關於HEC 和HGMF 產生明顯不同的大腸桿菌濃度的讀數的假設。 由十隻有17對HEC 和 HGMF的讀數,我們將建立校準曲線以確定用 HEC 濃度讀數預測HGMF 濃度讀數的準確程度。利用校準方程,有 HGMF= (HEC + 0.023)/0.9157 95%預測區間為 HGMFL = 1.1988 + 1.0104 *(HGMF - 1.1988 -d) HGMFu = 1.1988+ 1.0104* (HGMF -1.1988+ d) 這裡 d = 0.4175 1.0479 + (HGMF - 1.1988)2/16.9612. HEC 的觀w值與相應的 HGMF 預測值的圖, 以及95%預測限預測的 HGMF 32- 0 -1 -2, -i-ds oo os 5 20 HEC 的觀測值

•646 第十一章線性迴歸利相關下步繪製HG;MF 和HGMF心關寸 HEC 在-1 到2之間的散點圖,從圖中可以看出用所觀測的 HEC讀數預測 HGMF讀數的範圍。 對大多數的 HEC,95%預測區間的寬度比一個單位稍微小一點。因此 HEC 關」大腸桿菌濃度的測定值在-1到2之間就可以匯出相應的HGMF 測定值的 95%預測區間,但這個預測的準確程度是不能接受的。減少預測區間的寬度的個方法是在研究中獲得更多的觀測值,超過現在的17個,這個方法只要在新的研究中 HEC 讀數和 HGMF 讀數之間保持相同度的關係就是可行的。 練習應用 11.55(農業)某個林業員會在木材銷售前估計某特定地點的木材量(以立方英尺計)。現在由於他的業務擴大,需要培訓一個人來幫助預測樹術的立方英尺數。林業員決定校準他的助手的預測值,十是隨機選擇-一些很快就要砍伐的樹木, 作為樣木,對小每一棵樹,助乎估計了一個立方英尺數y,等這棵樹砍伐後就可以得到實際的立方英尺數z。從這些資料中,林業員得到了以下模型的校準曲線 -PA+Bx+s 在將來,林業員可以利用校準曲線修正他助手對木材量的估計。樣本資料總結如下: 樹估計倘實際值 ] 12 2 3 4 14 8 12 13 14 9 15 5 17 19 6 i6 20 14 16:8 14 15 9 15 17 0i 17 18 用最小二乘法擬合出校準曲線。資料表明斜率是顯著火於0嗎?其中a=0.05. 11.56 參照練習11.55。 a.當助手估計某樹有13立方英尺時,預測這棵樹的實際體積。 b.確定(a)中樹的實際體積的95%預測區間。 11.57(醫學)某研究人員在某種利尿劑藥品的餅究中,收集了24個病人的資料以檢查劑量(藥量,DCSF)與總尿量(CUMVCL)之間的關係。資料顯示在下面計算機輸出結果中。資料的最初擬合顯示劑址 DOSE 和 CUMVOI.之間的非線性關係,研究人員決定分別作劑歧的對數變換和 CUMVO1./100的平方根的反止弦變換,在計算機輸出結果中分別表示為1.OG(DOS)和 TRANS.CUMVOL。 2.水出線性迴歸方程,確定自變數和因變數。 b.利用輸出結果預測當y分別為“10、14、19cm’時的劑量。每種情況相應的 99%預測限是多少?

OBS 1 2 3 4 5 6 7 10 11. 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 DOSE 6.00 6.00 6.00 6.00 6.00 6.00 9.00 9.00 9.00 99.00 9.00 9.00 13.50 13.50 13.50 13.50 13.50 13.50 20.25 20.25 20.25 20.25 20.25 20.25 10.00 14.00 19.00 Dependent Vdr iablo: y Analysis of Vdriance Source Nodel ErrOr C Tota1 DF 1 22 23 Sum of Squares 0.06922 0.04650 0.11572 11.6 逆迴歸問題(校準)•647、 OCTEUT FOR EXERCISE 11.57 I.OG (DOSE) CUHVOL 1.79176 7.1 1.79176 11.5 1.79176 8.4 1.79176 8.0 1.79176 2.4 1.79176 12.0 2.19722 13.2 2.19722 14.7 2.19722 12.7 2.19722 15.5 2.19722 18.4 2.19722 14.4. 2.60269 12.1 2.60269 15.8 2. 60269 13.8 2.60269 20.4 2.60269 22.7 2.60269 17.0 3.00815 19.8 3.00815 15.6 3.00815 25.3 3.00815 13.5 3.00815 24.8 3.00815 20.9 2.30259 2.63906 2.94444 Prob>F 0.06922 0.00211 32.750 0.0001 . OUTEUT FOR EXERCISE 11.57 TRANSFORHBD CUMVOL Nean. Square F Value TRANS.CUDVOL 0.26972 0.34598 0.29405 0.28676 0.31161 0.35374 0.37183 0.39348 0.36438 0.40465 0.44333 0.38923 0.35528 0.40878 0.38061 0.46863 0.49661 0.42499 0.46114 0.40603 0.52705 0.37624 0.52129 0.47481 •'

•648• 第十•彰線性迴歸和相關 Root HSE Dep Mean C.V. Parameter Estinates 0.04597 0.39709 11.57773 R-square Adj R-sg 0.5982 0.5799 Variable INTERCEP x OBS 1 2 3 4 5 6 7 8 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 X 1.79176 1,79176 1.79176 1.79176 1.79176 1.79176 2.19722 2.19722 2.19722 2.19722 2.19722 2.19722 2.60269 2.60269 2.60269 2.60269 2.60269 2.60269 3.00815 3.00815 3.00815 3.00815 3.00815 3.00815 2.30259 2.63906 2.94444 DF 1 Parameter Estimate 0.112770 0.118470 standard EIrOE 0.05056109 0.02070143 Y 0.26972 0.34598 0.29405 0.28676 0.31161 0.35374 0.37183 0.39348 0.36438 0.40465 0.44333 0.38923 0.35528 0.40878 0.38061 0.46863 0.49661 0.42499 0.46114 0.40603 0.52706 0.37624 0.52129 0.47481 • PRED 0.32504 0.32504 0.32504 0.32504 0. 32504 0.32504 0.37307 0.37307 0.37307 0.37307 0.37307 0.37307 0.42111 0.42111 0.42111 0.42111 0.42111 0.42111 0.46914 0.46914 0.46914 0.46914 0.46914 0.46914 0.38556 0.42542 0.46160 I.95PRRD 0.22429 0.22429 0.22429 0.22429 0.22429 0.22429 0.27537 0.27537 0.27537 0.27537 0.27537 0.27537 0.32341 0.32341 0.32341 0.32341 0.32341 0.32341 0.36839 0.36839 0.36839 0.36839 0.36839 0.36839 0.28816 0.32757 0.36152 Sum of Residuals Sum of Squared Residuals Predicted Resid $S (Press) o 0.0465 0.0560 T Eor HO: Parameter=0 2.230 5.723 U95PRED 0.42579 0.42579 0.42579 0.42579 0.42579 0.42579 0.47077 0.47077 0.47077 0.47077 0.47077 0.47077 0.51881 0.51881 0.51881 0.51881 0.51681 0.516B1 0.56990 0.56990 0.56990 0.56990 0.56990 0.56990 0.48296 0.52327 0.56168 Prob>!Tl 0.0362 0.0001 L95MEAN 0.29247 0.29247 0.29247 0.29247 0.29247 0.29247 0.35175 0.35175 0.35175 0.35175 0.35175 0.35175 0.39979 0.39979 0.39979 0.39979 0.39979 0.39979 0.43658 0.43658 0.43658 0.43658 0.43658 0.43658 0.36565 0.40341 0.43118 U95HEAN 0.35761 0.35761 0.35761 0.35761 0.35761 0.35761 0.39439 0.39439 0.39439 0.39439 0.39439 0.39439 0.44243 0.44243 0.44243 0.44243 0.44243 0.44243 0.50171 0.50171 0.50171 0. 50171 0.50171 ‘0.50171 0.40546 0.44742 0.49201

11.7 相關•649• 11.58 參照練習11.57。如果研究人員希望預測效果相當於四個病人服用某種知名利尿劑的效果的50%(或75%)的這種利尿劑的劑量,預測z並給出每種情形的合適的預測限。 11.7相關一口求出了叫歸線 =B。+多z,我們就需要衡量對實際值預測的好壞。一個方法是看在這個問題的背景下殘差標準差的大小,約95%的預測誤差落在士25。 內。例如,假如我們要預測某個化學過程的產出,其產山範圍是0.50到0.94。如果•個迴歸模型的殘差標準差為0.01,那麼可以預見大多數預測誤差在士0.02 內—這是比較準確的。但是,如果殘差標準差為 0.08,那麼大多數預測誤差士0.16內,而產出的極差只有0.94-0.50=0.44,因此預測結果不能令人滿意。 這個方法需要我們對研究的背景有很好的瞭解,而更一般的方法是基於相關性的概念。 假定我們比較兩種預測方法的平方預測誤差,一種是迴歸模型,另一種是忽略模型而總是用y的平均值來預測。前幾節的公路重新鋪設例子中,如果給出了公路的英里效z,就可以利用預測方程 =2.0+3.0.預測專案的成本。實際值與預測值之間的差異,也就是殘差,測址了預測誤差。這些誤差彙總成殘差平方和, SS(殘差)-2(y:—3),對於這些資料來說是44。如果沒有給出公路的英里效的最小平方誤差預測就是均值y=14,這時頒測誤差平方和是2(3:-3:)2 =SS(總和)=224。那麼誤差減少的比例是 SS(總和)一3S(殘差)_224-44 SS(總和) = 0.804 也就是說,利用迴歸模型可以減少預測誤差平方和的80.4%,這就說明公路重新鋪設的英里數與專案的成本之同有很強的關係。 上述誤差減少的比例是與x和y之間的相關係數緊密相聯的。相關係數是積之間的線性關係的一個度量。和y的相關性越強, 對y的預測就越好。 已知n 對觀測值(z1•v:),由以下公式可計算樣本相關係數 Szy VSrSgy J5.3% 這裡S.,和S.、的定義如前,且 SS(總和) 這個例子中 Tyr= 60 V(20) (224) ==0.896

•650• 第十-食線性迴歸和相關一股地,如果當增加時y也增加,那麼相關係數,w是正的;如果當×增加時y 減小,那麼相關係數rw是負的;如果x的變化和》的變化之同投有關係,或存在卡線性關係使得(當:增加時),的增加和y的減少相互抵消,那麼「x=0。 圖11.19顯示了值的叫種情形。圖11.19(d)中,»和x之間存任很強的關系,但r=0,這是近似線性關係的止負部分對稱、相互抵消的結果。當r=0時,只表示:和之間沒有“線性“關係,但高階的(非線性)關係可能存在。這種情況說明瞭在散點圖中兩出資料的重要性。後面的第十一章中,我們將介紹一些對》和 *之間的非線性關係進行建模的方法。:: (a)7≥0 (b)r<0 •、 (C)r≥? (d)r~0 圖11.19, 的解釋例11.14 考慮以下資料::25 41 47 59 54:10 20 20 30:30 2. 一者的柑關係數是正還是負? b.計算相關係數。:• 56 30 49 40 43 40 30 50

.7相關 •651• 解筶 a.注意×在10與50之間增加時, 是先增加,然後減低,因此二者的相關係數應該小。又由於v的值沒有減少到開始的地方,因此者的相關係數應該是正的。 b.經過簡單的計算,樣本均值是 =30.0000, =44.8889。 S.c =(10- 30.0000)’+⋯+ (50-30.0000)3 = 1,200 Sw= (25 - 44.8889)+ …+ (30-44.8889)= 1,062.8889 S = (10-:30.0000)(25-44.8889)⋯ +(50- 30.0000)(30-44.8889) = 140 140 Twe一 = 0.1240 (1,200) (1,062.8889) •折的相關係數確實是小的i數。 析關件和迴歸預測能力是緊密相聯的。前面所定義的迴歸的誤差減少的比例稱為決定係數。簡單地說決定係數就是相關係數的半方, SS(總和) 也就是誤差減少的比例。公路重新鋪設例子中, 心=0.896, =0.804。 相關係數為零表明方程沒行預測價值:也就是說預測y時己知x或未知×的效果都一樣。相關係數為1或-1 表明預測能力最好——100%的誤差減少都歸十工的知識。相關係數接慣例應該用它的平方———判定係數來解釋,那麼,相關係數為0.3就是說只有9%的預測誤差減少。許多書和大多數計算機程式都用方 SS(總和)=SS(殘差)+$$(迴歸) 其中因這個方程可以表示為SS(殘)=(1-P)SS(總和),因此可以推出 SS(回歸) = SS(總和),這就再次說明了,的迴歸解釋了y的總半方誤差的比例為冷。 例 11.15 求出例11:14的資料的SS(總和):55(同歸)和 SS(殘差)。 解答 SS(總和)=Sw,而在例11.14 中計算得Sww=1062.8889。並且可得

• 652• 第十一章線性迴歸和相關此有SS(向歸)=(0.154)(1062.8889)=16.3685。因為SS(殘差)=SS(總和)- SS(迴歸),所以SS(殘差)=1062.8889-16.3685=1046.5294。 注意SS(迴歸)機,都非常小,這就說明z不是y的好預測變址。不過事實 1利y之間的關係是很強的非線性,又的一-個線性方程不能很好地預測y,但一個非線性的方程可能會更好。 Corclation:-0.99 Cornlation =-0.95 Comelaticm = -0.9 Corelation = -0.8 2 Cartelalion= -0.6 -3 -10123 Cemeletion= 0.4 -] TTT -20121 Correlation =-山.2 Correlalign = 0 Corteialiun =0.2 -10123 Correlation = 0.4 Corclation = 0.6 CoTclation =0.8 • -3 12』 Comeiation = 0.9 Corelation = 0.95 -] -」1 -23 Corrlation =-0.94 TIT z -3 圖 11.20 二元正態總體的容量為1000的樣本

11.7相關•653 「s為什麼值時表明y和之間有“很強”的關係?圖11.20顯示了15個散點圖,分別是用從 15個二元正態總體中隨機選擇的1000組(工i3:)畫出的,在這15 個二元正態總體中兩個變數的相關係數界於-0.99和0.99之間。從散點圖中可以看到除非|rwrl大子0.6,否則只有很小的趨勢。 樣本相關係數rw是總體相關係數px的估計和顯著性檢驗的基礎。統計推斷總是基於一些假定的。迴歸分析的假定條件—即z和y之間存線上性關係,圍繞迴歸線是同方差的——也是相關係數檢驗的假定條件。迴歸分析中,又是當作已知的常數;而在相關係數檢驗中,工是當作隨機選擇的(迴歸推斷中是考慮在給定x為樣本值的條件下的推斷)。如果x不是當作隨機抽取的,那麼相關係數估計就可能是有偏的。某些書裡,還假定x是來自丁正態總體的。我們這裡所做的統計推斷並不依賴於總體正態的假定。 Py的估計中最基本的推斷問題是可能的偏差。當x的值是預先確定時,就如迴歸分析裡一樣,這個問題就會出現。×的選擇會系統地增加或減少樣本相關係數。一般情況下,寬區域的×值傾向於增加相關係數的大小,而窄區域的z值是減少相關係數的大小,這種影響顯示在圖11.21中。如果考慮散點圖中所有的點, 則×和y之間存在明顯的強的關係。但是如果只考慮兩條垂直虛線之間的z值, 去掉外面的部分,那麼樣本相關係數(和決定係數)就小很多。相關係數會受z的選擇的系統影響;儘管:值的區域的部分改變可能使殘差標準差隨機地有所改變,但殘差標準差不會有系統地改變。因此,當你需要確定線性迴歸線預測y的準確程度時,考慮殘差標準差S。和斜率的大小是一個好的方法。 70 60 ¥ 50 - 4030 35 45 65 75 圖11.21 限制x值的區域對樣本相關係數的影響例 11.16 以下資料是某個公司的12個資料錄入員的工作能力y和才能測試得分工: •”

• 654• 第+•章線性迴歸和相關 v:41 1:24 39 30 47 33 51 43 40 35 36 36 57 37 46 37 50 38 如果貝考慮最後六個資料,二者的相關係數是大一些還是小一些? Sinple Regression Analysis J.inear nodel:y=20.5394+ 0.775176 *x Intercept Slape Estimate 20.5394 0.775176 Table of Bstimates Standard t Error Value 10.7251 1.92 0.289991 2.67 Value • 0.0845 0.0234 R-squared = 41.68 % Correlation coeff. = 0.646 Standard error of estimation = 5.99236 File subset has been turned on, based on x> = 37. Simple Regression Analysis Linedr wcde1:Y = 44.7439 + 0.231707 *× Table of Estimates Standard t BF50F Value 24.8071 1.80 0.606577 0.38 59 61 40 43 52 49 Intercept Slope Fstimate 44.7439 0.231707 Value 0.1456 0.7219 R-sguared= 3. 52 * Correlation coeff. =0.188 Standard error of estination= 6.34357 解答對於所有的12個觀測值,輸出結果顯示樣本相關係數為0.646,殘差標準差的標識為"standard error of estination",顯示是5.992。關了六個最大:的得分,是x值大於37的「集,相關係數為0.188,殘差標準差內6.344。從所有的 12 個觀測值到六個具有最人的,值的觀測值,相關係數有很大的減少,但殘差標準養幾沒有多少變化。

11.7相關 • 655 就像對B:作統計檢驗,我們也可以對p作統計檢驗。 Px統計檢驗小結假設 I.HoiPu≤O, Ha pue>0 2.Hoc≥0 He:px<0 3.Ho psr=0.Haipy 0 T.S.(檢驗統計量):1=廣業 Jn-2 V1-P R.R.(拒絕域):自由度 df 為n-2.第一類錯誤為a 1.t2tao 2.1<-180 3.ltl21a/20 檢查假定並得出結論。 例11.5中(從公路重新鋪設的英里數預測專案的成本)檢驗了斜率真值為零的假設,結果:統計量是3.50。對於這些資料,可以計算 w =0.896421, = 0.803571。因此,根關係數的:統計量是 0.896,③ V1-0.803571 = 3.50 由,和最小二乘方程=B+Bz 的斜率及,的公式得出下列關係: B1= Sxx Sm Sxz VSzrSy 因此,無論用什麼形式,斜率和相關係數的:檢驗給出一致的結果,對於z值的任何選擇:檢驗都是有效的。前面提到的偏差不會影響相關係數的符號。 例 11.17 對例11.16(所有觀測值)的資料進行零假設為零相關係數和零斜率的:檢驗。利用一個合適的單側備擇假設。 解答首先,合適的H。應該是Pxr>0(和B≥0)。如果才能測試得分對工作能力得分有正的相關係數該多好呀!例11.16中, =12,Fg =0.646,且 t=0.646×12-2 /1- (0.646)2=2.08 由於這個值在df=10,a =0.025的1值(2.2282.764)和 dlf=10,a=0.01的:值

• 656• 第十一章線性迴歸和相關 (2.764)之間, 值就在:0.010和0.025之同,因此,拒絕Ho。 檢驗斜率B1的:統計基在例11.16 的輸出結果中顯示為2.67,這等於(近似)相關係數的:統計量2.68。 相關係數檢驗提供了統計上顯著和統計上重要之間差別的簡清的說明。假設某個心理學家設計了生產線上工人技術的一個測試,並檢測了40,000名工人的大樣本。如果測試分數和實際的生產能力間的樣本相關係數為0.02,那麼 •= 0.02435.908-4.0 /1- (0.02)2 我們問以在任何合理的水平。下拒絕零假設,所以二者相關是“統計上顯著的”。 但是,這個測試得分只解釋「生產能力的平方誤差的(0.02)2=0.0004,所以幾乎不值得作為預測變數。記住,統計檢驗中拒絕零假設,其結論是如果零假設是真的這個樣本似乎可能就不出現。檢驗本身並不能表明結果的實際顯著性。明顯地, 對可規模為40,000的樣本,僅僅是僥倖的抽取,一個很小的樣本相關係數如 0.02 也不可能發生的。在這個例子中測試分數與生產能力分數間沒有實際意義的關系。 練習 11.59 下面重新列出了練習 11.19 的輸出結果。由R-square(r3)值計算相關係數1x,這個相關係數的符號應該是正還是負? . regress Branches Business Source SS df MS Residual 53.7996874:3.11697922 1 10 -- 53.7596874 0.311697922 Total 56.9166667 11 5.17424242 Number of obs = E(1,10) Prob>F = 1l R-square Adj R-sguare Root MSE = = 12 172.60 0.0000 0.9452 0.9396 0.5583 Branches Coef. Std. Err. P≥1t [95 * Cont. Interval] Business -cons 0.0111049 1:766846 0.0008453 0.3211751 13.138 5.501 0.000 0.000 0.0092216 1.051223 0.0129883 2.482469 11.60 a.關於練習11.59的資料,檢驗z和»之間沒有真正的相關關係的假設,利用單側H。和a=0.01。

11.7 相關•657• b.比較這個檢驗的結果和輸出結果中斜率的t檢驗的結果。 11.61 參照練習 11.39的計算機輸出結果(重新列出如下)。 Sinple Regression Analysis Linear nodel:TotalCost = 99.777+5.19179+ Runsize Table of Estimates Estimate Standard Error t Value? Value Slope 5.19179 0.0586455 88.53 0.0000 R-sguared = 99.64 & Correlation coeff. = 0.998 Standard error of estination = 12.2065 Analysis of Variance Source Sum of Sqares D.E. Mean Square F-Ratio P Value Model Error 1.16775e+006 4171.98 1 1.16775e+006 28 148.999 7837.26 0.0000 Total(corr.) 1.17192e+ 006 29 A.求出,效,這個非常大的值是如何在輸出結果的 Sum of Sguares 中反映出的? b.估計的及,是正的,樣本相關係數的符號必然是什麼? c•假如練習11.39 中研究限制在 RUNSIZE 的值小於1.8.你預計7w的將變大還是變小? 11.62(商業)假設在10個試驗城市進行了某個新產品的廣告宣傳活動。 廣告強度是以每晚電視的黃金時間該廣告的播放次數計,它在各個城市是不同的,廣告宣傳後調查獲得產品認知比例y: ×:4.0 4.5 5.0 5.5 6.0 3:10.1 10.3 10.4 21.7 36.7 6.5 51.5 7.0 67.0 7.5 8.0 8.5 68.5 68.2 69.3 WTB>Correlation Intensty "Aware'.

•658• 第十一章線性迴歸和相關 Correlation of Intensty and Aware = 0.956 a.解釋相關係數T*。 b.繪製散點圖,你認為二者關係是線性的嗎?這個關係大體上是增加的嗎? 11.63(教育)某商學院對最近畢業的 MBA 的一項調查得到了工作第一年年薪和以前工作的年數的資料。以下是利用 Systat 軟體得到的結果: CASE 1 2 3 4 6 9 10 11 12 13 14 15 16 17 1日 19 20 21 22 23 24 25 26 EXPER 8.000 5.000 5.000 11.000 4.000 3.000 3.000 3.000 0.000 13.000 14,000 10.000 2.000 2.000 5.000 13.000 1.000 5.000 1.000 5.000 5.000 7.000 4.000 3.000 3.000 7.000 SALARY 53.900 52.500 49.000 65.100 51.600 52.700 44.500 40.100 41.100 66.900 37.900 53.500 38.300 37.200 51.300 64.700 45.300 47.000 43.800 47.400 40.200 52.600 40.700 47.300 43.700 61.800 EXPER SALARY 51.700 56.200 48.900 51.900 36.100 53.500 50.400 38.700 60.100 38.900 48.400 50.600 41.800 44.400 46.600 43.900 45.000 37.900 44.600 46.900 47.600 43.200 41.600. 39.200 41.700 a.瀏覽這些資料,你能感覺有關係嗎?特別地,是否顯示出工作年數越少起薪越少? b.你是否注意到某些資料似乎不是這種模式? 11.64 利用 Systat 的“影響點圖(influence plot)”繪製了練習11.63 中資料

11.7相關•659• 的點圖。這是一個散點圖,其中每個點都確定了去掉此點相關係數改變的多少。 越大的點表示去掉後相關係數改變的越多。下面是這個散點圖,圖中顯示出逐漸增大的模式嗎?有沒有明顯不屬於這種模式的點? 70 T T 口 60 • 50 .• • . 40 Fearson R =0.70 9口 8口 70 60 50 4o 30 2。 30 -10 0 上 10 EXPER INFLUENCE × 100 20 11.65 從練習 11.64 中 Systat 計算出一個迴歸方程,其中年薪作為因變數。 部分輸出結果顯示如下: SOURCE REGRESSION RESIDUAL, SUM-OE-SOUARES 1395.959 1429.868 ANALYSIS OF VARIANCE DE 生 49 MEAN-SOUIARE 1395.959 29.181 F-RATIO 47.838 P 0.000 8.寫出預測方程,解釋係數,在問題的背景下常數項(截距)的意義是什麼? b.確定殘差標準差,這個數意味什麼? c.這個明顯的關係在統計上可檢查出來(顯著)嗎? d.年薪的變差有多少可以由工作年數的變差解釋? 11.66 練習11.63中第11人供職於家族企業,低薪水但有企業的股票固報。從資料中去掉這個點(在影響點圖中是高影響點)再用 Systat 重新分析,部分輸出結果如下: DEP WAR: SALARY N: 5O HULTIPLR R: 0. 84Z SQUARED HULTIPLE R: 0. 709 ADTUSTED SOUARRD NULTTPLR R:. 703 STANDARD ERROR OF ESTIHATE: 4.071 VARIABLE COEFFICIEHT STD ERROR STTD COEF 『CONSTAHT 39.188 0.972 0.000 40.353 EXPER 1.863 0.172 0.842 10.812 P(2 TAIL) 0.G00 0.000

• 660• 第十一章線性迴歸和相關 a.去掉散點圖中這個高影響點後科率應該增大還是減小?是這樣的嗎? b.去掉這個點後殘差標準差應該朝哪個方向改變(增大還是減小)?是這樣的嗎?這個改變有多大? c.去掉這個點後相關係數應該怎樣變化?這個改變有多大? 11.8小結本章介紹了迴歸分析,主要是利用一個自變數預測一個因變數的簡單迴歸分析。最基本的問題涉及變數之同關係的狀態(線性型或曲線型),圍繞預測值的變異性的大小,在預測範圍內變異性是否是同樣的,白變數項測因變基有多大效果, 以及在多大程度上容許抽樣誤差。以下是本章的重要概念: 1.應該繪製出資料的散點圖。確定變數之間的關係是近似線性還是明顯曲線時,如同1.OWESS或樣條曲線的平滑法是有用的。曲線型關係常常可以通過對自變數、或因變數、或老同時作變換轉換為近似線性的。 2. 估計線性迴歸模型的係數是用最小二乘法,即最小化殘差(實際值減去預測值)平方和。由於涉及到平方誤差,因此這種方法對離群值是敏感的。 3. x 方向的極端觀測值在擬合直線時具有高槓杆作用。如果一個高槓杆點遠離直線,則它還具有高影響,也就是說去掉這個觀測值會實質性改變擬合線。如果一個高影響點與其他點不是來自同一總體,就應該剔除。如果必須保留這個點,那麼應該使用其他方法而不用最小二乘方法去估計模型參數。 4.圍繞迴歸線的變異性是透過殘差的標準差來度量的。這個標準差可以用經驗法則解釋。標準差有時會隨預測值的增加而增加,這時應該嘗試對因變數做變換。 S.迴歸線的斜率(和截距)的假設檢驗和置信區間都是基子!分佈。如果變量間沒有關係,則斜率為0。如果z變數的變化範圍較寬,則估計的迴歸線更準確。 6. 利用擬合的直線可以在新的x值處進行預測,仍然用,分佈來進行。如果新的z 值遠離以前的x值時,預測就可能不準確。 7. 決定係數,即相關係數平方,是度量變數間關係的強弱的一個標準方法。 這個度量會因為關係的非線性或人為限制z變數的變化池圍有所減少。 對管理人員來說,統計最重要的應用之一是預測。一個經理可能需要在已知某項合同工作的規模的情況下預測其成本;也可能需要在已知國民生產總值目前的增長率的情況下預測某種特定商品的銷售情況;還可能需要在已知勞動力規模的情況下預測生產的零部件的數量。預測的統計方法中運用最廣泛的就是迴歸

11.8小結 • 661• 分析。 在迴歸分析方法中,相關變數的過去資料被用來開發和評估預測方程。這個方程中被預測的變數稱為因變數,而預測所用的變數稱為自變望。本章所討論的迴歸方法只涉及一個自變數。第十一章我們將把這些方法擴充套件為多元迴歸,多元可歸是考慮多個自變的情形。 以下是一個迴歸分析研究中所能夠完成的一系列上作: 1,利用資料求得迴歸方程。 2. 利用資料估計這個方程的變異性或不確定性。 3. 利用資料確定遠離預測值的異常點,這些點可能代表異常的問題或機會。 4. 由於資料只是一個樣本,因此能夠對迴歸引數的(總體)真值進行推斷。 5. 利用預測方程可以得出因變數未來值的一個合理的範圍。 6.利用資料估計因變數和自變基間的相關係數,這個數度量了二變數間關係的強弱程度。 重要公式 1. 斜率和截距的最小二乘估計 2~和B一了一的元 Sxx 其中 2.0的估計 Z03:-3.22 SS(殘差) n- 2 1-2 3.3.的統計檢驗 Ho:B=0(雙側) T.S.:1=— B1 Se/1/Sw 4. B.的置信區間 B士tol2Ss Sxn 5.Ho:B =0(雙側)的F檢驗 T.S.:F= .MS(迴歸) MS(殘差) 6.E(yn+1)的置信區間 31士torse pn Szx

• 662• 第十一章線性歸和相關 7.yn+1的預測區間 n+1 2se Szx 8. 線性迴歸擬合不足的檢驗 T.S.:F= MSLask MSoxp 其中 SSPee MSop" Z(n;-T)2:(n:-1) MSatk-2(獲考)一S8Fon -2-Z(n;-1) 9.基於單個y值的z的預測限 2-B0 1 其中 2128 NSa d= Le/25g 10.基於m個值的的預測區間 S = + 1— L= + 121-02-x)-8] 其中 =一 CYm. Bo B 1)(1 23)+ Sz 11. 相關係數 Szx =B1 VSrSw N Sy 12. 決定係數

11.8小結 • 663• 品=88(總積)後(殘差】 SS(總和) 1.3.pxr的統計檢驗 Ho psr =0(雙側) T.S.:t=rx Vn-2 有i-項補充練習 11.67 考慮以下資料: x:10 12 14 y:25 30 36 15 37 18 42 19 50 20 55 a.繪製散點圖。 b.利用資料,求出模型 y=80+B1x; +e:的最小二乘估計。 c. 預測當x=21時的y。 11.68 參照練習11.67。 2. 計算殘差標準差se。 b.計算這些資料的殘差,大多數都在0計程車25.內嗎? 11.69(政府)某負責政府研究課題資助的機構是在許多私營公司的仔細檢查之下工作的。一家公司研究了專案合同的金額(× 10,000 美元)與專案計劃的提交到批准的時間的關係: 需要的時間y(月): 合同金額(×10,000美元): 3 1 4 5 6 10 8 50 11 100 14 500 20 1000 y關下x的散點圖和 Stata 輸出結果如下: .regress Length Size Source ] SS df MS Hoclel Resicual 191.389193 28.3250928 1 5 191.389193 5.66501856 Total 219.714286 6 36.6190476 Nunber of obs F(1,5) Prob >E F-square AdjB-sguare Root MSE = = = = 7 33.78 0.0021 0.8711 0.8453 2.3801 Length CoeE. Std,Err. t P≥|tI [95 8 Conf. Interval] size cons 0,0148652 5.890659 0.0025575 1.086177 5.812 5.423 0.002 0.003 0.008291 3.098553 0.0214394 8.682765

•664• 第十、章線性迴歸和相關 21 15間時 + 934 0 200 400 600 金類 800 100 a. 最小二乘線是什麼? b.進行零假設為Ho:B≤0 的檢驗,確定此檢驗的p值。 11.70 參照練習11.67 的資料。y關於:的自然對數的散點圖和 Stata 輸出結果如下: 21 15間時 9 3-4 0 2 T 4 對數金額 6 8 .regress Length lnsize Source | SS df MS Modei Residual 199.443893 20.2703932 1 5 199.443893 4.05407863 Total! 219.714286 6 36.6190476 Number of obs = F(1,5) 上F Prob>F R-square Adj R-sguare = Root KSE 7 49.20 0.0009 0.9077 0.8893 2.0135 Length Coef. Std.Err. t P>It [95% Conf. Interval] InSize cons 2.307015 1.007445 0.3269169 1. 421494 7.014 0.709 0.000 0.510 1.461500 - 2.646622 3.152523 4. 661511

••一 11.8 小結•665• a. logx 為自變數的迴歸線是什麼? b.進行零假設為Ho:B: ≤O 的檢驗,確定單側對立假設H:≥0的顯著性水平。 11.71 利用練習11.69 和練習11.70的結果,確定哪個迴歸模型提供了更好的擬合,並說明理由。 11.72 參照前兩個練習的計算機輸出結果。 a.求出線性迴歸線斜率 B,的95%置信區間。 b.確定對數迴歸模型斜率 8」的95%置信區間。 11.73 利用你所選擇的練習11.70的資料的模型,預測批准一個合同金額為750,000美元的專案的以月計的時間,並給出95%預測區同的粗略估計。 11.74(環境)某航空公司研究一種特定型飛機的燃料消耗,收集了100次航程的資料,這些資料包括飛行英里數x(以百英里計)和的實際的燃料消耗y(以加侖計)。Statistix 的計算結果秤散點圖如下。 UXWEIGHTED LEAST SQUARES LINEAR REGRESSION OF GALLONS PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDEHT'S T P CONSTANT NILES 140.074 0.61896 44,1293 0.04855 3.17 12.75 0.0099 0.0000 R-SQUARED ADTUSTRD P- SQUARED 0.9420 0.9362 RESID. MEAN SOUARE(HSE) STANDARD DEVIATION 1182.34 34.3852 SOURCE REGRESSION RESIDUAL TOTAL. DF 1 10 11 $S 1.921區+05 11823.4 2.039E+ 05 NS 1.921R+05 1182.34 F 162.48 P 0.0000 PREDICTED/FITTED VALUIES OE GALIONS LOWER PREDICTED BOUND PREDICTED VALJE UPPER PREDICTKD EOUND SE (PREDICTED VALUE) 678.33 759.03 839.73 36.218 LOWER FITTED BOUND FITTED VALUE UPPER FTTTED FOUND SE (EIYTBD VALLIE) 733. 6日 759.03 784.38 11.377 UNTUSUAL.NTESS (LEVERAGE) 0.1095

• 666• 第十一章線性歸和相關 EERCENT COVERAGE CORRESPONDING T 95.0 2.23 PREDICTOR VALIIES: MIL.FS= 1000.0 950 870 790 警70 630 550 470 400 600 800 1,000 1,200 1,400 英里數 z.求出迴歸方程。 b. 樣本相關係數和決定係數是多少?並解釋這兩個數。 c.關於檢驗 Ho:防≤0,有什麼看法? 11.75 參照練習 11.74 的資料和輸出結果。 a.預測所有1,000 英里航程的平均燃料消耗,並給出95%的置信區間。 b.預測某次 1,000英里航程的燃料消耗,628加侖的燃料消耗是特別少嗎? 11.76 在練習11.74的情況下,B,的解釋是什麼?B。有解釋嗎? 11.77(商務)某個大的郊區汽車旅館的收入來源於客房的出租和餐廳與遊戲廳的銷售。客房的佔有和餐廳/遊戲廳的銷售之間似乎應該存在一定的聯絡,但旅館的經理對這種關係的密切程度沒有認識。於是收集了36個非假期的工作日 (星期一到星期四的晚上)的出租客房的數量和餐廳/遊戲廳的銷售額。這些資料的散點圖和迴歸分析結果奶下所示。 〔西租客房的收入 1300 1200 • 2007 1000 - 900 800 - 700 600 500 400 0 20 40 60 80 100 120 出租的客房

11.8小結 • 667. Linear Fit| Sunmary oft 可it RSquare RSquare Adj Root Mean Square Error Hean of Response Observations (or Sun Ngts) 0.118716 0.092796 182.253 854.1514 36 nalysis of Variance Source Nodel,ErCOr LC Total DF 1 34 35 Sun of Squares 152132.2 1129349.3 1281481.6. Hean Square 152132 33216 F Ratio 4.5901 Prob≥E 0.0396. Paraneter Estimates Ter Estimate Std Error t Ratio Prob>[t] Intercept 557.72428 141.8019 3.93 0.0004 JBooms occupied 3.1760047 1.484039 2.1 0.0396 2.按照輸出結果,客房的出租和收入間存在統計上顯著的關係嗎? b.如果剔除位於左上方的點,斜率會增大還是減少?你認為有實質性改變嗎? 11.78 旅館的資料有一個點出現輸入錯誤,客房出租數被記錄為10而不是 100。改正這個錯誤後,得到的輸出結果如下所示。 〔出租客房的收入) 1300 1200 1100 . 1000 900: • .: • 700 600 500 40D -T 50 60 70 80 90 100 110 120 出租的客房 - Linear Fit Sunmary of Fit RSquare RSquare Adj Root Mean Square Error Mean of Response Observations (or Sun Ngt.s) 0.552922 0.539773 129.81 854,1514 36

•668• 第十⋯彰線性迴歸和相關 Analysis of Variance Parameter Est.imates Term Intercept Booms occupied Estimate -50.18525 9.4365563 Std ErTOr 141.1283 1.455236 t Ratio - 0.36 6.49 Prob>[t] 0.7243 0.0000 a。改正錯誤後斜率會有什麼變化? b.截距怎麼變化? c.離群值使得標準殘差增大還是減小? d.離群值使得,’的值增大還是減小? 11.79(工程)某雜貨店食品製造公司的管理科學部門正在為麥片產品的生產和配送開發一個線性規劃模型。這個模型需要大量的起點和終點的運輸成本。 每個可能的組合都做詳細的價格分析是不切實際的,因此選擇了S0條線路的樣本。對於每系線路,找出英里數和運輸費率(單位是元/100磅)。進行迴歸分析後,得出的散點圖和 Excel 輸出結果如下: A SUMMARY OUTEVT 醜 C D E F G 1 2 3 Regr ession Statistics HltipleR 5 R Square 6 adjusted R Square 7 Standard Brror 8 Observations 9 10 11:AHOVA 12 13 Regression 14 Residual 0.9929 0.9859 0.9856. 2.2021 4B 1 46 SS HS F 15558.63 15558.6 3208.47 223.06 4.85 Significance E 0.00

A 11.8 E 115:Total 16 17 18 19 Intercept 20 Mileage B c D 47 15781.7 Coefficients Standard Brror t Stat P-value 9.7709 0.4740 20.6122 | 0.0000 0.0501 0.0009 56.64340.0000 小結 • 669• 續表 F G Lower 95* Upper 95& 8.8167 10.7251 0.0483 0. 0519 90 率費 150 30 20 10 資料如下里程 50 費率 12.7 里程 120 費率 16.4 里程 260 費率 24.7 裡秺 650 費率 46.4 60 13.0 120 11.1 300 24.7 700 45.8 80 13.7 120 16.0 330 18.0 720 46.6 0 80 14.1 120 13.8 340 27.1 760 48.0 500 1,000 里程 1,500 90 14.6 130 16.0 370 28.2 800 51.7 90 100 100 100 110 110 110 14.1 15.6 14.9 14.5 15.3 15.5 15.9 130 140 150 170 190 200 230 16.7 17.2 17.5 18.6 19.3 20.4 21.8 400 440 440 480 510 S40 600 30.6 31.8 32.4 34.5 35.0 36.3 41.4 810 850 920 960 1,050 1,200 1,650 50.2 $3.6 57.9 56.1 58.7 75.8 89.0 a.寫出迴歸方程和殘差標準差。 b. 計算斜率真值的95%置信區間。 11.80 練習11.79 的散點圖中,你認為這些資料有問題嗎? 11.81 關於練習11.79,預澳一條340英里長的線路的運輸費率,並求出 95%預測區間。這個練習中的外推問題嚴重嗎?

• 670• 第十一意線性迴歸和相關 11.82 (社會)郊區城鎮常常將大部分市政預算花在公眾安全(警察、消防和急救)服務上。某個納稅人團體認為由於財政基數小,那些非常小的城鎮花費了大董的人均預算。這個團體收集了某個大都市的29個郊區城鎮公眾安全的每筆資金支出的資料以及每個城鎮的人口總數。資料經過 Minitab 軟體分析,因變數為 “支出(expendit)” ’,自變數為“城鎮人口數(townpopn)”的迴歸模型產生下面的結果: HTB >regress expendit' 1‘townpopni The regression eqvation is expendit = 119 + 0. 000532 townpopn Predictor Constant townpopn Coef 118.96 0.0005324 Stdev 23.26 0.0006181 t-ratio 5.11 0.06 P 0.000 0.397 8= 43.31 R-sg =2.78 Rsa(adj) =0.0米 Analysis of Variance SOURCE Regression Error Total DE 1 27 28 ss 1392 50651 52043 MS 1392 1876 F 0.74 P 0.397 Unusual Observations Obs. towmpopn expendit 白 74151 334.00 fit 158.43 Stdev.Fit 25.32 Residual 175.57 st. Resid 5.00RX R denotes an obs.with a large st. resid. X denotes an obs. whose X value gives it large inf1uence. a,如果納稅人團體的想法是正確的,則迴歸模型的斜率的符號應該是什麼? b.輸出結果中的斜率證實了這個團體的評論嗎? 11.83 下面給出了練習 11.82 中的資料由 Minitab 繪製的散點圖利 LOWESS平滑曲線,這個散點圖是否表明迴歸線是不合適的?為什麼?

11.8小結•671• 300 820010010000 20000 30000 40000 50000 60000 70000 80000 Townpopn 11.84 練習11.82 的資料集中某個城鎮有一個大的地區性購物中心。這個城鎮的公眾安全支出的很大部分是與這個購物中心相關的,將這個城鎮的資料從資料集中剔除,再對剩餘的資料用 Minitab 進行分析。資料的散點圖如下所示。 180experidit 130: ••…: -' • 80 T 10000 20000 30000 40000 50000 60000 Fownpopn 8.解釋為什麼從資料集中剔除這個點後迴歸線會有如此實質性的變化? b.重新分析的迴歸線是否證實練習11.82 中納稅人團體的評論? 11.85 下面給出了練習11.82 的資料剔除一個離群值後的迴歸分析結果, 所得的斜率與前面的相比有什麼變化? MTB.> regress expendit'1'towmpopni The regression equation is expendit = 104-0.00158 townpapn Predictor Constant townpopn Coef 184.240 -0.0015766 Stdev 7.481 0.0002099 t-ratio 24.63 -7.51 P 0.000、 0.000

• 672, 第十一章線性迴歸和相關 8=12.14 R-sq=68.5* R-sg(adj)=67.28 Analysis of variance SOURCE Regression Error Total DE 1 26 27 SS 8322.7 3834.5 12157.2 HS 8322.7 147.5 F 56.43 0.000 Unusuai Observations Obs. townpopn 5 40307 6 13457 13 59779 22 21701 27 53322 exspendit 96.00 139.00 89.00 176.00 76.00 Fit 120.69 163.02 89.99 150.03 100.17 stdev.Rit 2.66 4.87 5.89 3.44 4.67 Residual -24.69 - 24.02 -0.99 25.97 -24.17 st.Resid -2.08R -2.168 -0.09 X 2.23R -2.16R R denotes an obs.with a large st. resid. x denotes an oba. whose X value gives it large influence. 11.86(生物) 在研究對高血壓治療有效的藥物時,研究人員安排廣三組試驗用老鼠,每組六隻。第一組的老鼠注射了0.1 mg/kg 的某種試驗藥物;而第二和第三組的分別注射了0.2和0.4 mg/kg。研究人員想了解注射約物後兩小時後的血壓比注射前的血壓下降了多少。具體的資料如下所示: Giroup1 (ircup2 Group3 劑黛,z 0.1 mg/kg 0.2 mE/kg 0.4mg/kg 10 25 30 22 32 血瓜下降(unmHg). 15 26 16 19 27 13 18 26 11 24 29 8.利用統計軟體擬合模型 B+ Bilogiox +a b.利用殘差圖檢驗(a)中模型的擬合程度。 c•進行 Hp:B1≤0,H:8>0的統計檢驗,求出此檢驗的p值。 11.87(農業)某個實驗室進行了一項研究以檢驗不同水平的氮對萵苣種植產望的影響。利用下列資料擬合線性迴歸方程,並檢驗模型可能的擬合不足。

11.8小結 •673 氮的程式碼 1 2 3 產量(每塊地中禽出莖的重量) 21,18,17 24,22,26 34,29,32 11.88(醫學) 研究人員測量了從24個接受腸分流術的病人的一部分腸中抽取的蔗糖酶的特的活性。抽取後,將它們均勻後再進行酶活動的分析[Carter (1981)]。兩種不同的方法用來測蔗糖酶的活性:勻漿法(homogenate)和糖丸法 (peliet)。用這兩種方法測量的24個病人的資料如下: 病人 1 2 3 4 5 6 7 8 9 10 11 12 13 14 IS 16 17 18 19 20 21 22 23 24 由勻漿法及糖丸法測得的蔗糖酶活性勻漿法,y 18.88 7.26 6.50 9.83 46.05 20.10 35.78 59.42 58.43 62.32 88.53 19.50 60.78 77.92 51.29 77.91 36.65 31.17 66.09 115.15 95.88 64.61 37.71 100.82 糖丸法,z 70.00 55.43 18.87 40.41 $7.43 31.14 70.10 137.56 221.20. 276.43 316.00 75.56 277.30 331.50 133.74 221.50 132.93 85.38 142.34 294.63 262.52 183.56 86.12 226.55

•674• 第十一章線性迴歸和相關 Relationship between Homogenate and Pellet 100 HOMOGENATE • 50 • • • • •. • 0 0 100 'T 200 PELLET 300 Regression Anelyais: HOOGERATE Ver SU8 PELL.ET The regression egvation is HOHIOGENATE =10.3+ 0.267 PBLLBT Predictor Constant PRI.LET Coef 10.335 0.26694 SE Coef 5.995 0.03251 1.72 8.21 P 0.099 0.000 5= 15.62 R-sg -75.4* i-sq(adj) 74.3 Analysis of Variance Source Regression Residual Error Total DE 1 22 23 sS 16440 5366 21606 HS 16440 244 F 67.41 • P 0.000 Obs 1 2 3 4 5 6 7 8 9 10 PELLET 70 55 19 40 57 31 70 138 221 276 HONOGEHA 18.88 7.26 6.50 9.83 46.05 20.10 35.78 59.42 58.43 62.32 ait 29.02 25.13 15.37 21.12 25.67 18.65 29.05 47.06 69.38 8A.13 SE Fit 4.24 4.57 5.49 4.93 4.52 5.17 4.24 3.24 3.83 5.04 Residual - 10.14 -17.87 -8.87 - 11.29 20.38 1.45 6.73 12.36 -10.95 -21.81 St Resid -0.67 - 1,20 -0.61 -0.76 1.36 0.10 0.45 0.82 -0.72 -1.48

11.8 小 PELLEY 316 75 277 332 134 222 133 85 142 295 263 184 86 227 HCHIOGERA Fit 88.53 94.69 SE Fit 6.10 19.50 30.50 60.78 84.36 77.92 9B.83 Residual -6.16 -11.00 -23.58 -20.91 51.29 46.04 •77.91 69.46 36.65 45.82 31.17 33.13 66.09 A8.33 115.15 88.98 95.88 80.41 64.61 59.33 3.31 5.29 37.71 33.32 3.92 4.39 100.82 70.81 3.92 30.01 Regression Line for Homogenate versus Pel let HOHOGENATE = 10.3348+ 0.266940 PBLLBT $= 15.6169 RSq =75.48 R-Sg(adj) =74.3米. • 100• • HOMOGENATE •,• 結 • 675 st Resid -0.43 -0.73 - 1.60 -1.47 0.34 0.56 -0.60 -0.13 1.16 1.79 1.04 0.35 0.29 1.99 500 • • 0 100 200 PELLET 300 a.檢查資料的散點圖,線性模型充分描述了這兩種方法間的關係嗎? b.檢查殘差圖:這個散點圖是否揭示出一些問題? c•一般地,糖丸法比勻漿法更花時間,同時也提供了蔗糖酶活動的更準確的測量。你如何根據勻漿法的讀數預測糖丸法的讀數? d.你怎樣求出點估計的置信(預測)區間? 11.89(商業)某郊區的房產經紀人想僅僅根據房屋的大小預測房價。從所列的多項服務中,這個房產經紀人獲得了房屋的戶型(單位為幹平方英尺)和價格 (單位為幹美元)。所有的資訊都存貯在EX1189.DAT檔案,讀者可在出版社網戰的資料集中找到,其中第一列是價格,第二列是戶型。使用統計軟體讀出這個檔案。

• 676•