AI 新聞與投資
統計學方法與資料分析引論

第十五章 標準設計的方差分析

28 / 34

星期 1 2 3 4 5 星期一 133(E) 139(A) 138(B) 137(C) 142(D) 星期二 139(B) 136(E) 139(D) 140(A) 143(C) 星期三 140(C) 141(B) 140(E) 136(D) 142(A) 星期四 140(D) 143(C) 139(A) 129(E) 144(B) 星期五 145(A) 146(D) 142(C) 132(B) 132(E) General Linear Models Procedure for Exercise 15.45 Dependent Variable:Y OUTHIT Source Hodel Error Corrected Tota1 DF 12 12 24 sun of Squares 313.12000 120.72000 433.84000 Mean Square 26.09333 10.06000 F Value 2.59 F>F 0.0561 R-Square 0.721741 c.V. 2.290522 Root HSE 3.1718 Y Mean 139.08 Source DF Type III sS Hean Square F Value Pr>F WRFK DAY MUSIC 4 4 4 123.44000 11.84000 177.64000 30.86000 2.96000 44.46000 3.07 0.29 4.42 0.0589 0.8761 0.0200 KEEK 1 2 3 4 5 Mean 139.4 141.0 139.6 134.8 140.6 DAY 1 2 3 4 5 Nean 137.8 139.4 139.8 139.0 139.4 HUSIC A B c D E Mean 141.0 138.8 141.0 140.6 134.0 15.47(農業)下面是5個衣場中小麥的產量(單位:磅)。從每個農場按照土壞的肥力挑選五塊地,並按土地的肥沃程度從高到低依次編號為1、2、3、4、5。每塊地所接受的處理(施肥)由括號中的字母表示。 2.指出這個設計是什麼設計。: b.進行方差分析,並得出關於五種施肥方法的結論,取∞=0.01。

15.8 小結•1047• 肥力衣場 1 2 3 4 5 1 (D)10.3 (E) 8.8 (A) 6.3 (C) 8.9 (B)7.3 2 (E)8.6 (B)6.7 (C)8.3 (D)7.4 (A)4.4 3 (A)6.7 (C)6.7 (B)6.8 (E)8.2 (D)7.7 4 (C)7.6 (A)4.8 (D)8.0 (B)6.2 (E)6.8 5 (B)5.8 (D)6.0 (E)8.8 (A)4.4 (C)6.7 15.48 參見練習 15.47。用多重比較方法對處理均值做兩兩比較。指出哪個錯誤的機率受到了控制。 General Linear Models Procedure for Exercises 15.47 and 15.48 Dependent Var iable:YIRID Source Model EITOr Corrected Total DF 12 12 24 Sum of Squares 46.067200 4.663200 50.730400 Hean Square 3.838933 0.388600 F Value 9.68 Pr>E 0.0002 R-Square 0.908079 C.U. 8.745481 Root MSE 0.6234 Y Mean 7.1280 Source DF Type III SS Mean Square E Value Pr>E FARM PIOT FERT 4 4 4 6.522400 11.266400 28.278400 1.630600 2.816600 • 7.069600 4.20 7.25 18.19 0.0236 0.0033 0.0001 FARH 1 2 3 4 5 Mean 7.80 6.60 7.64 7.02 6.58: PToT 1 2 3 4 5 Mean 8.32 7.08 7.22 6.68 6.34 FERTILIZER A B C D 醜 Hean 5.32 6.56 7.64 7.88 8.24

16.1 16.2 16.3 16.4 16.5 第十六章引言和菜例具有一個協變童的完全隨機化設計外推問題多維協變童和更復雜的設計小結協方差分析 16.1 引言和案例在一些試驗中,試驗單元並不是齊性的,或者在試驗條件中存在一些並非由處理決定的變異。例如,要設計一項研究來評估幾種針對八歲兒童的閱讀教學方法。 響應變數是兒童在參加完這個閱讀訓練專案後的測試分數。但是,參加研究的兒童在參加之前閱讀能力上也有差異,而且很多學校之外的因素也會影響兒童的閱讀分數,如與兒童家庭有關的社會經濟變數。用來描述試驗單元之間或試驗條件之間差異的變稱為協變數。協方差分析是可以減少協變數對於處理均值影響的 —-種方法。它可以提高引數估計的精度和假設檢驗的功效。 在第十五章中,我們曾利用隨機化完全區組和拉丁方設計來解決上述問題。 試驗單元劃分為區組,從而,與把所有的試驗單元作為一個整體相比,每個區組內的試驗單元具有更好的齊性。這樣我們就可以使響應變數的方差中由處理之外的因素造成的那部分變小。 在很多試驗中很難或不可能將試驗單元分為區組。在進行試驗之前可能並不知道哪些特徵能用於區分試驗單元,或者影響響應值的變數直到試驗開始後才可以看出來。在某些情況下,可能每個區組內的試驗單元很少,以至不能用於考察所有的處理。包含這些情況的試驗可以從以下的例子中看到。 •要進行一項臨床試驗來評估治療饅性疼痛的幾種傳統方法和一些新的替代方法。試驗中病人疼痛的水平與他們有這種症狀的時間長短,他們的年齡,健康狀況,以及其他一些會影響治療的因素有關。研究人員可以按這些因素中的若干個分成區組,但是其他一些協變數可能會對試驗結果造成不良影響。 •有人建議在Texas的大牧區內用空中撒播殺蟲劑的方法來控制火蟻。將殺蟲劑噴酒到牧場上有若干種可能的方法。由於 EPA(美國環保署)關注

16.1 引音和案例 • 1049• 噴酒中相對於目標區域的漂移,所以要設計一項研究來衡量噴灑技術的準確性。對於四種撒播殺蟲劑的方法,記錄其在目標區域內著附的殺蟲劑量 y。試驗應只在無風或風很小的日子裡進行。然而在 Texas 經常會有陣風影響噴酒的準確性。因此,一個重要的協變數就是在噴灑過程中目標區域上空的風速。 •光纖電纜的生產商要調查三種用於做光纜塗層的機器。所感興趣的響應變數是電纜在塗層後的拉伸強度。儘管塗層的厚度是一致的,都是 1.5mm,在100米長的電纜上其圖層還是會有一些厚度上的不同。這些不同很可能會影響電纜的拉伸強度。檢驗在恆溫的實驗室中進行,試驗進行 「五天。因為天與天之間存在著環境和技術人員的差異,研究者決定按天劃分割槽組,並記錄下在電纜斷裂處的塗層的厚度。這樣,試驗中既用到了區組變數又用到了協變數。 任下面案例分析所描述的試驗中,其響應變數不僅與指定的處理有關,而且還與研究期間在試驗單元上測量得到的協變數有關。 來例:涼爽拳節草坪的評價高爾夫球場的草坪維護者所面臨的一個問題濾過性毒菌疾病(viral diseases)的流行,這種疾病能夠破壞草坪。早春時節,天氣涼爽潮溼,草坪上的草還未完全從冬眠中恢復,此時這些疾病更為危險。幾種用於高爾夫球場的新的草皮品種已經培植出來。這些品種可以抵抗維護者所關心的那種濾過性毒菌疾病。在採用這些新品綠化高爾夫草場之前,有必要對它們對於相應地面的適應性做出評價。 資料收集的設計在設計一個適當的試驗評價這些品種時,研究老考慮了下列因素: 1. 評價這些品種時需要使用哪些效能指標? 2. 本國的地理區域特徵會否影響草皮品種的效能? 3.在高爾夫季節中不同的時間內這些品種表現是否有差別? 4. 土壤的哪些因素會影響草皮品種的效能特徵? 5. 為獲得對草皮品種效能的可靠估計,對每個品種需作多少次重複觀測? 6. 在試驗期間,哪些環境因素會影響草皮的效能? 7. 哪些統計方法可以用來對這些品種的差異進行有效的評估? 8.在最終的報告中,需要給出哪些資訊來證明這些品種在高爾夫草場綠化適用性上的差別? 在以前的研究中,已發現三種草皮(CI、C2和 Cg)對早春的濾過性毒菌疾病的抵抗力最強。然後,研究者透過與高爾夫球場的管理者討論,確定最主要的衡量草皮效能的指標是球被球杆擊中後在草坪上的滾動速度。美國高爾夫聯合會 (UGSA)已經開發出了一種叫做高爾夫球測速儀(Stimpmeter)的裝置來測定球在

• 1050• 第十六章協方差分析草上的速度。高爾夫球測速儀是一根長36英寸的鋁杆,在它的一側有一條刻好的跑道。跑道上有一個槽口,用來撐住球直到高爾夫球測速儀的一端被抬高大約20 度角。高爾夫球沿高爾夫球測速儀相反兩方向滾動後的平均距離作為在草上的速度。球滾的越遠,速度就越快。影響速度的重要因素是草的長度,地面的硬度及地面的坡度。 研究者決定研究考察八個不同的地區。在每個地區,他們選擇了一個高爾夫球場並鋪了三塊草坪。三塊草地間具有相同的土壤結梅和坡度。每個區域內三種草隨機地分到一塊草地上。這樣與地理位置有關的影響草上的速度的因素透過劃分割槽組得到了控制。一個非常重要而研究者又難以控制的因素是試驗期間的溼度。因此就決定記錄下溼度,把它作為協變數。在八個地區測得的草上速度和溼度資料如表16.1。 表16.1 三種草皮上的球速地區 Cs 1 2 3 4 6 7 8 溼度 31.60 54.12 42.34 53.82 86.70 76.27 68.66 47.27 速度 7.56 7.41 7.64 6.81 6.86 6.86 7.22 7.64 溼度 29.42 44.44 84.38 88.42 71.33 45.50 66.79 58.34 速度 8.88 8.20 7.20 7.12 8.16 8.68 8.25 8.22 溼度 89.60 37.17 37.32 89.21 58.S7 66.68 82.78 29.52 速度 8.20 9.15 9.24 8.31 9.42 9.26 8.93 9.89 試驗期間的每塊草坪上的速度測量值與相應的溼度的讀數由圖16.1描畫出來。畫出的資料點表明,對這三種草,在速度和溼度水平間存在相類似的負相關。 然而Cs總體上顯得比其他兩種具有更快的速度。在本章的後續部分我們將建立模型和分析方法,以使我們能對各個品種的速度讀數按照試驗球場所在的地理區域位以及試驗期間的溼度資料進行調整。由於協方差分析既有方差分析的特點,也有迴歸分析的特點,我們將利用一般的線性模型來對此類資料進行分析。通過參考前面章節的知識,並基於這些一般線性模型的理論,我們可以更容易地理解方差分析與迴歸模型的結合。我們從只含有一個協變數的完全隨機化設計開始。

16.2 具有一個協變數的完全隨機化設計•1051• 速度 10.0+ 9.s! 9.01 8.5f 8.0+ 7.5| 7.0+ 6.5+ 溼度一速度圖 (圖中符號表示草皮種類) C3 C3 C3 C2 C3 CI C2 c2 cICi C2 Cez C1 CI CI CI Cz c2 Cl 溼度圖16.1 溼度與三種草皮上的高爾夫球速 16.2 具有一個協變數的完全隨機化設計完全隨機化設計可用於比較:個總體的均值。為達到此目的,我們必須獲得響應變數y在第;個總體處的n:個觀測值的隨機樣本(i=1,2,•,t)。而現在, 除了要測量每個試驗單元上響應變數y的值,我們還要測量另一個變數z,經常稱之為協變數。比如,在研究幾種不同的用於提高8歲兒童閱讀水平的方法的效應時,我們不但要考查每個兒童最終的戒績,還要考查他們在參加研究之前的閱讀水平。最後,我們要用y和z共同提供的資訊來比較這幾種不同的方法。 注意,x可以看為一個自變數,但與前些章裡討論的情況不同,這裡我們在觀測:之前無法控制它的取值(像我們控制溫度或壓力那樣)。儘管如此,我們仍可以為完全隨機化設計建立一個模型,並將協變數作為一個自變數來處理。

• 1052• 第十六章協方差分析我們將用一個有:=3個處理,一個協變數的完全隨機化設計來舉例說明協方差分析的步驟。 例16.1 本項研究中,我們比較兩個處理一即緩慢釋放的肥料(S)和快速釋放的肥料(F),與對照(C)—一種標準的肥料對於花生米產量(克)的效應。每個處理有10 次重複,試驗在溫室中進行。在開始試驗時,研究者認識到這30 株花生的健康水平與成長水平並不完全相同。因此,研究者在試驗開始前記錄下了每株的高度(釐米)作為衡量植物健康與成長水平的標準,如下表所示。 對照(C) 緩慢釋放(S) 快速放(F) 產量 12.2 12.4 11.9 =1.3 =1.8 12.1 13.1 12.7 12.4 11.4 高度 45 52 42 35 40 48 60 61 50 33 116.6 15.8 16.5 15.0 15.4 15.6 15.8 15.8 16.0 15.8 高度 63 50 63 38 45 50 48 50 49 產量 9.5 9.5 9.6 8.8 9.5 9.8 9.1 10.3 9.5 8.5 高度 52 54 58 45 57 62 52 67 55 40 圖16.2以協變數植株高度為橫軸變數,給出了每個處理處產量的散點圖。 例16.1中描述的試驗是一個具有3個處理,•個協變數的完全隨機化試驗。 如果我們假設產量3:與協變數z;之間是直線關係,則這個只有一個協變數的完全隨機化設計的模型為: 或 =B+a+B2+e 其中:=1,2.⋯,t,j=1,2、,n,A:是第;個處理的均值,B,是3對工迴歸的斜率,B是y;對z迴歸的截距,a:是第之個處理的效應,6;是試驗誤差,為服從均值為0,方差為品的正態分佈的隨機變過。協方差分析中加之於模型上的主要條件還有: 1.響應變甘»與協變數z的關係是線性的。

16.2 具有一個協變數的完全隨機化設計 •1053• 植株高度與產量圖(圖中符號表示處理) s jM. S S 堇 14+ 13+ 12+ CC ccfc Cc 10+ 9} F F FFFFF F F F -4 30 高度圖16.2 協變數植株高度與三個處理下的花生米產量 2. 對於所有處理,可歸的係數及1相同。 3. 處理不影響協變數 zij。 協方差分析要對響應變數y擬合許多模型。首先,我們需要確定協變數,會否使試驗誤差有很顯著的減少(這裡意指模型中協變數的引入使得模型中的誤差部分有顯著的減少,也就是說,協變數對於響應值的變異有顯著的影響—譯者注)。如果減少是顯著的,那我們就將觀測到的處理均了:用調整後的處理均值 R.A4,來替代,其中pAt.:已根據協變數對響應變數的效應作了調整。這樣,處理差異的顯著性就取決於調整後的均值而不是觀察到的均值。 現在我們把協方差分析所需要的模型用公式表達出來。3與:個處理及協變量之間關係的模型可寫為方差分析模型的形式,並可進一步表達為迴歸的形式。 全模型:Y =B0+o+勝十E 其次,我們給出兩個簡略模型的公式,一個不包括協變數,另一個忽略處理之間的差異但包括協變數。 簡略模型I:yi=Bo+a;+Ei 簡略模型I:3:=Bo+Bi2u+Ei 這三個模型也可寫為第十二章的迴歸(一般線性)模型的形式。我們之所以將

• 1054. 第十六章協方差分析之轉換為迴歸模型的形式,是為了使之更適於用各種統計軟體包作分析。 全模型:3=B0+Bx1+B222+•+BX:+E 其中 1=協變數 x2=1 若處理2被使用 x3 =1 若處理3被使用 2=0 否則 X3=0 否則 ••••• x:=1若處理:被使用 x:=0香則用上:述模型做出期值的表是很有用的,表16.2 是基於全模型給出的。注意各處理具有相同的斜率(B),但截距是不同的。 表16.2 全橫型中的期望值處理 1 2; 期望僨 Bn+Bjxs (B+B)+Bz1: (Po+B.)+BXI 為了確定協變數的作用,接下來我們來擬合不包括協變基的簡略模型。 簡略模型I: =B+B12+•+Bz:+E 然後,擬合第二個簡略模型,其中怒略了處理的差異而保留了協變數。 簡略模型I: =Bo+Bx1te 對每個模型,我們可算得它的誤差平方和,並以下列符號表示: SSEp=全模型的誤差平方和 SSERI =簡略模型I的誤差平方和 SSERI=簡略模型I的誤差平方和協變數對於響應變數作用的顯著性,可透過檢驗假設“處理的迴歸直線斜率為 0”來確定。對於全模型,此假設為: Ho:B=0 Ha:8i 0 檢驗統計基於因模型中引入協變數而帶來的平方和的減少,表示為: SSrio =SSERI -SSEF 由此,我們得到F檢驗統計基為: SScor F-SSE/(N--T)

16.2 具有-個協變數的完全隨機化設計•1055, 其中 N是試驗中的總觀測次數。判決規則由下式給出: 拒絕Ho:B1=0 當 F≥Fa.l,N--1 如果我們斷定協變數與響應變數間有顯著的線性關係,我們下一步就要用調整後的處理均值來檢驗處理的顯著效應。也就是說,我們要檢驗如下假設: Ho:au=a2=…=a=0 Ho:並非所有的 a:均為0 這等同於在迴歸模型中檢驗所有的迴歸直線具有相同的截距(8)。從表16.2可知,我們是要檢驗: Ho:B2-03=:=B=0 H。:並非所有的B2,B3,“,B,均為0 檢驗統計量基於因模型中引入處理均值的差而帶來的平方和的減少,表示為: SSrn = SSERI-SSE: F 檢驗統計量為: SSrn/(t- 1) F= SSEp/(N-t-1) 判決規則由下式給出: 拒絕H0:82 B=⋯=B=0 當F≥Fa.1-1.N-1-1時如果拒絕了Ho,我們可以用由如下公式估計的調整後的處理均值來衡量處理間的差異: 這個值是透過對觀測得到的處理均根據協變數的效應進行調整後得到的,其中協變的效應又是透過考慮第;個處理的各試驗單元協變數值的平均值與所有處理的平均值的差的大小來估計的。 我們也可以用迴歸模型來估計調整後的處理均值。從表16.2,對處理;=2, 3.…,t我們有 Mi= E(y)=B+R+BIX1 對i=1, AI = E(y)=B+BX1 調整後的處理均值是透過估計在每個處理上相應於協變數的總平均值x1= . 的v的均值而得到的。對處理:=2,3,⋯, 有: FAdI=B+房+p=. 對處理1有 FiAt,L=月+月 . 第;個處理均值的估計值pAd,的標準誤差的估計為: SE(pAd.i) = JMSEn + Eaa

• 1056• 第十六章協方差分析誤差的估計為: SE(KAd).:- HAdti,k)= 其中 MSE:是全模型的均方。這些估計的標準誤差可用於確定調後的處理均偵和它們的差的置信區間。 我們用下例來說明協方差分析的思想。 例16.2 在例16.1中,我們有三個處埋一對照肥料(C),緩慢釋放的肥料(S)和快速釋放的肥料(F),並且我們用研究開始時的植株高度作為協變數;響應變數是花生米產基,有十次重複。 2.寫出協方差分析的模型。 b.利用下面給出的計算機輸出結果檢驗協變數的引入是否使試驗誤差有顯著的減少。 <•給出三個處理上的線性迴歸方程。 d.分別計算三個處理上的觀測和調整後的處理均值。 e•在根據協變數調整後,三個處理之間有顯著的差異嗎? 計算機輸出結果如下。 FULL MODEI, General Linear Hodels Procedure Dependent Varieble:Y YIELD Source Mocle1 ETTOT Corrected Total DF 3 26 29 INTERCEPT X1(Cov) X2(S) X3(E) 9.529256364 0.055809949 3.571637117 -3.144155615 Sum of Squares 214.37595 0.41771 214.79367 T For FO: 71.34 20.41 62.62 -52.08 Mean Square 71.45865 0.01607 E Value 4447.85 Pr>E 0.0001 Pr≥ITI 0.0001 0.0001 0.0001 0.0001 Std Error of 0.13357349 0.00273429 0.05703267 0.05037390

16.2 具有-個協變數的完全隨機化設計•1057• REDUCED HODEL, I General Linear Models Procedure Dependent Vaziable: Y YIEID Source Moxdel ErTOr Correctedd Total DE 2 27 29 Parameter INTERCEPT x2(S) X3(B). Estimate 12.13000000 3.70000000 -2.72000000 REDUCED MODEL, I! General Linear Nodels Procedure Dependent Var iable:Y YIEI.D Sum of Squares 207.68267 7.11100 214.79367 T Eor HO: Parameter=0 74.74 16.12 - 11.65 Mean Square 103.84133 0.26337 Pr≥ITI 0.0001 0.0001 0.0001 Source Hodel Error Corrected Total Parameter INTERCEET X1(Cov) Sum of DF Squares 0.4721494 28 214.3215172 29 214.7936667 T For H0: Estinate Paraneter=0 13.14900450 4.64 -0.01387451 -0.25 Mean Square 0.4721494 7.6543399 Pr≥I? 0.0001 0.6057 F Value 394.28 Pr>E 0.0001 Std Error of Estimate 0.16228690 0.22950833 0.22950833 E Value 0.06 Hr>E 0.8057 std Error of Estimate 2.83300563 0.05586395 解答 #.這是一個完全隨機化設計,有三個處理,每個處理處有10次重複,有一個協變數。因此模型為yi= +B(i .)+Eioi=1,2,3.j=1,,10. 全模型用迴歸的記號表示如下。 全模型(各回歸直線有相同的斜率和不同的截距): -+pizi+ Bza+ Bsts+a 其中 =產基 =植株高度 x2=1若處理為S 42=0 否則

• 1058• 第十六章協方差分析 x3=1 若處理為F 與三個處理相應的期望的值為: 處理 C S F •zs=0 否則期望的值 BatBxi (Bo+B2)+Biz1 (Bn+B)+Bz1 相應的簡略模型為: 簡略模型1(迴歸直線的斜率為0;即,響應變基與協變數無關): y=Bo+B2X2+ BsX3+E 和簡略模型I(迴歸直線有相同的截距 Bn和相同的斜率8) Y=B+AIZI+E b.我們要檢驗協變數是否會使試驗誤差減少;即,我們需要檢驗共同斜率為 0。 Hn:B=0 由計算機的輸出結果, SSEF=0.41771 He:防 0 SSERI=7.11100 這樣,我們有 SSvon =SSERI- SSEr=7.111-0.41771=6.69329 F檢驗為 6.69329 F=0.41771/(30-3-1) =416.62 和 F0.05.1.20-4.23 因為416.62 大於4.23,我們拒絕H。並給出結論:植物種子的產量與植株高度(協變)顯著相關《即斜率B」不為0)。 c。由全模型的輸出結果我們可以得到最小二乘估計為: Bo=9.53 B,=0.0558 B2=3.57 B=-3.14 三種處理下根據初始的植株高度調整後的種子產的估計值為: 對照: $=B+B1=9.53+0. 05$8z1 緩慢釋放: (+防)+B 1 (9.53+3.57)+0.0558z1 =13.1+0.0558x1 快速釋放: (陽+多)+B 1=(9.53-3.14)+0.0558x1 =6.39+0.0558x1 d. 觀測到的樣本均值如下。

16.2 具有-一個協變數的完全隨機化設計•1059• 對照肥料 12.13 46.60 緩慢釋放肥料 15.83 48.90 快速釋放肥料 9.41 $4.20 總平均 12.457 49.900 在每個迴歸方程中,我們可以用植株高度的總平均值代替z1來估計調整後的均值對照:MAd,1=9.53+0.0558(49.90)=12.31 緩慢釋放:pfAd,2=13.1 + 0.0558(49.90)=15.88 快速釋放:pAd.3=6.39+0.0558(49.90)=9.17 或者我們可以用下面的公式獲得上述估計: pAdti=可:一B(xi.-E.) 對照: HAd,1=12.13-0.0558(46.60-49.90)=12.31 緩慢釋放:/Ad.2=15.83-0.0558(48.9-49.90)=15.88 快速釋放:pAd,3=9.41-0.0558(54.20-49.90) 9.17 因為用緩慢釋放肥料的植物的平均植株高度低於總平均高度,所以觀測的平均種子產量15.83 調整為15.88,而快速釋放肥料的產量則由9.41 減少為9.17。 e.我們可以透過簡略模型II的誤差平方和來檢驗三種處理下平均產量間的差異。我們需檢驗如下假設: Fo:MAd,1=HAd.2=:= Adi, He:並非所有 pA Ad都相等這相當於檢驗迴歸直線具有相同的截距這樣一個零假設,即檢驗: Ho:B=B3=0 Ha:B2 0或Bs天0 由計算機的輸出結果, SSEr =0.41771 SSERI=214.3215 所以我們有 SSrn=SSERn- SSEP=214.3215-0.41771=213.90 F 檢驗為 213.90/(3-1) F=0.417H1/(30-3-1)=6.657.13 及 F0.05. 2,26 = 3.37 因為6,657.13 大於3.37,我們拒絕王心。認為各截距不等,因此對於三種肥料,調 𤨣後的產量間有顯著差異。 例 16.2 中得到的結論依賴於棋型條件是否滿足。我們可以透過考察模型擬合的殘差

• 1060• 第十六章協方差分析來檢查誤差項獨立且服從相同的正態分佈的條件是否成立。我們可以用圖和正態性檢驗的方法檢驗e;的等方差和正態性條件是否滿足。 我們將透過下面的方式檢驗協方差分析的三個另外的條件。 響應變數與協變數之間的關係是線性的我們可以像在迴歸分析中用圖和假設檢驗的方法那樣檢驗這個條件。我們可以分別對每個處理以z,少為座標畫圖,判定畫出的點是否是直線。用第十一章的方法可以對每個處理分別擬合一回婦直線。然後,我們可以考察這!條擬合直線的殘差,進行擬合不足的檢驗,以決定擬合時是否需要協變工的更高階的項。 對於所有:個處理,迴歸係數(斜率)是相同的考慮如下模型: 模型A: 1=B0+B1x1+ B222+ Bt3+:+Bz: 其中z2•,。表示處理的指示變,z,表示協變數。這個迴歸模型對於每個處理會產生不同的迴歸直線,這些直線可能具有不同的斜率和不同的截臣。(模型A 的期望的值見表16.3) 表16.3 機型A 的期望值處理 i 2 3; 期望值 Bo+pz (B+B)+(月+R+1)z」 (B0+B7+(B1+B:12221 (B+R.)+(B1+B:-1)z1 下面我們考慮一個簡略模型,其中對於各個處理,斜率是一致的,但允許截距之間有差別: 模型 B:y=Bo+B121+B2z2+.+Bz,+e 斜率相等的檢驗,包含於下列假設的檢驗之中: Hn:B+l= B+2 =:=B2:-1 = 0 Ha:B.+1,B+28B21-1 不全為0 透過擬合模型A 和B,得到下述檢驗統計量: F= (SSEE-SSEA)/(t-1) SSEA/(N-2:) 自由度 dfy =t-1,df=N-21

16.2 具有一個協變數的完全隨機化設計•1061• 由此可以確定聯絡響應變與協變的一組迴歸直線是否有相同的斜率。這是個關鍵的問題,因為如果各條直線的斜率是不同的,那麼,調整後的均值將高度依賴於調整時所選用的協變數的水平。這種情況類似於在兩個因子的試驗中,當交生效應顯著時,關十一個因子的推斷依賴子第二個因子。圖16.3中顯示了聯絡啊應變與協變數的迴歸直線具有不同斜率的情形。由該圖可以看出,調整量的大小隨處理和協變數的水平不同而有很大差異。 /T1 - T2 ⅝. -×× *s 圖16.3 具有不同斜率的聯絡喻應變數與協變數的歸直線處理不影響協變數xi當試驗中的協變數x與響應變過y都受到處理的影響時,我們就不能有效地運用協方差分析。此時適當的分析方法當屬多元分析,即將響應變數看為二元變數(z,y)處理。如果在把處理隨機分配到試驗單元之前,已經對協變數進行了測量,這時就可以使用協方差分析的模型,因為此時處理就不會影響協變數。如果協變數是對試驗中某些條件的測—即,協變數需要在試驗進行過程中測量——那麼試驗者就必須確定處理是否會影響協變數。只有在試驗者確定處理不會影響協變後,我們才能正確地根據協變數調整處理的均值。 例 16.3 是否得到滿足。 見例16.1。利用下面的計算機輸出結果評價協方差分析模型中的必要條件

•1062• 第十六章協方差分析 MODELA: DIFFERENT SLOEES FOR EACH TREATHEHT General Linear Hodels Procedure. Nunber of observations in data set = 30 Dependent Variable:Y YIEL.D Source Model Error Corrected Total DE 5 24 29 Sum of Squares 214.43722 0.35644 21.4.79367 Mean Sqvare 42.88744 0.01485 Source DE TYe III SS Hean Square ×1 X2 X3 X2*X1 ×3*×1 1 1 1 1 1 2.6167178 2.5905994 1.4990044 0.0190292 0.0151538 2.6167178 2.5905994 1.4990044 0.0190292 0.0151538 Parameter Estinate INTERCEPT 9.491768741 X1 0.056614405 X2 3.906558043 X3 -3.519620102 X2* X1 -0.006月日6936 28*XI 0.006814587 MODEL B: SAME SLOPE FOR ALL TREAINHEATS General Linear Models Procedure Number of observations in data set. = 30 Dependent Variable:Y YIELD T for HO: Parameter =0 46.88 13.27 13.21 - 10.05 - 1.13 1.01 Pr>IT1 0.0001 0.0001 0.0001 0.0001 0.2698 0.3225 Source Hodel EIIOT Corrected Total Source X1 Sum of DF Squares 3 214.37595 26 0.41771 Mean Squaze 71.45865 0.01607 29 214.79367 DF Type III sS Hean Square 1 6.693267 6.693287 E Valie 2887.70 Pr>E 0.0001 F Vaiue 176.19 174.43 100.93 1.28 1.02 Std Error of Estimate 0.20245904 0.0042651日 0.29576964 0.35033468 0.00608421 0.00674632 PrYE 0.0001 0.0001 0.0001 0.2558 0. 3225 FValue 4447.85 E Value 416.62 Pr>F 0.0001 Er>E 0.0001

16.2 具有一個協變數的完全隨機化設計•1063 • X2 ×3 1 1 63.007424 43.572654 63.007424 43.572654 3921.82 2712.12 0.0001 0.0001 Paraneter INTERCEPT x1 X2 ×3 T Eor HO: Estimate zaraneter =0 9.529256364 71.34 0.055809949 20.41 3.571637117 62.52 - 3.144155615 - 52.08 F≥Ir 0.0001 0.0001 0.0002 0.0001 Std Error of Estimate 0.13357349 0.00273429 0.05703267 0.06037390 解答由圖16.2我們可以看到,以植株高度為橫軸,種子產為縱軸得到的三個處理的曲線都可以很好地用直線來擬合,且它們的科率大體相同;也就是說, 我們得到了截距不同的三條平行直線。前面的計算機輸出結果是透過用模型A (不同斜率不同截距》和模型B(相同斜率不同截矩)對種子產量的資料擬合後得到的。 從輸出結果可以計算得 F= CSSEB- SSEA)/(L-1) = 50.41771-0.35644)/(3-1) SSEA/(N-2t) 0.35644/(30- 6) = 2.06 其中dfy =2,dh=24。因為Fo.05.2.24=3.40,我們不能拒絕Ho,由此,我們得出結論:三條直線的斜率沒有顯著不同。因為協變數植株高度是在將化肥種類分配給植物之前測甘的,所以處理不會對協變數有影響。等方差和正態性等條件可以通過殘差分析米評定。 練習基本技能 16.1 考慮一個完全隨機化設計,1=5個處理,一個協變 zj,每個處理處有六個觀測值。假設每個處理處響應變數,與協變數x間有線性關係,寫出完全的一般線性模型。給出模型中各引數的意義。 16.2 根據練習16.1,給出如下情況下模型中引數的關係,並對每種情況作出示意圖. a。直線不平行。 b.直線平行但不重合。 c.直線重合。 16.3 在練習16.1中,對於這五個處理,你將如何檢驗這些直線是否平行? 你是如何獲得檢驗統計量的?檢驗統計量的自由度是多少?

• 1064• 第十六章協方差分析 16.4 在練習16.1中,假設直線是平行的,給出調整後處理均值的檢驗. 對工I=S,你是如何估計處理1的響應變數的均值的? 16.5 對下面的試驗做方差分析。一名研究者想衡量三種不同加工方法下矽片表面塗膜厚度平均值的差異。給六塊矽片隨機地分配加工方法。對每塊矽片都記錄下塗膜厚度(Y)和加工過程中試驗室的溫度(X)。研究者注意到了溫度的波動可能會對塗膜厚度有影響。檢驗三種加工方法下的塗膜厚度的均值是否有差異。 1 加工過程 2 3 工 28 29 34 100 150 106 95 113 144 z 24 28 29 32 36 118 134 138 147 165 159 工 37 31 34 27 28 25 Y 124 95 120 86 98 81 16.3 外推問題在上一節中,我們討論了在只有一個協變數時如何比較完全隨機化設計中的兩個(或多個)處理。我們曾經談到,如果對於各個處理,迴歸方程關於協變均是線性的,並且各條直線相互平行,就可以用調整後的處理均值來比較各處理。然而,像大多數方法一樣,我們不能盲目地使用協方差分析方法。即使線性和平行的假設都能滿足,如果各處理下協變數的取值範圍沒有充分的登合,我們也會遇到問題。我們將以下例來說明這一點。 假設我們要比較酒精嗜好者和吸毒者的自尊分數。我們收集了一個包括九個酒精嗜好者和九個吸毒者的樣本,對每個人,我們記錄下他(她)的自尊分數和年齡。資料見表16.4。 如果我們不看資料就盲目地進行協方差分析,我們可以發現對酒精嗜好者和吸毒者,迴歸方程都呈線性日平行。從圖16.4的計算機輸出結果來看,酒精嗜好者(A)的資料對應的點近似呈直線,同樣,吸毒者(D)的資料也如此。根據兩個模型的誤差平方和,可算得自尊 25 22 24 20 21 17 14 16 15 16.3 外推問題 1065 表16.4 酒精牆好者和吸套者樣本的自尊分數酒精嚌好者年齡 15 17 18 19 21 22 23 24 25 吸毒者自尊 20 17 18 15 14 12 10 11 年齡 30 31 33 35 36 38 4 41! 25 A 24 23 22 21 20 19 尊自 18 17 16 15 14+ 13 12 十+ 11 T 10- -亠15 A A A D D A=酒精嗜好者 D=吸毒者 D A A A DD D D D D 40 -+---! 20 30 年齢圖 16.4 年齡-自尊分數圖 45

• 1066• 第十六章協方差分析 F=(30.88-27:39 /(2-12 = 1.78 1.9567 其中dfy=1.df =14。觀測到的F值的值為Pr(F≥1.78)=0.2035。這樣我們將接受原假設,認為酒精嗜好者和吸毒者的自尊分數關於華齡的迴歸直線斜率相同。此外,由模型B的輸出結果,得到關子調整後自尊分數的均值是否有差異的檢驗的p值為Pr(F≥34.14)<0.0001。這意味著兩種嗜好者調整後的自尊的分數有顯著差異。 MODEL A: DIRERRENT SLOPES AND TREATNHENI DIEFERENCES Dependent Variable:Y SELF-ESTEEM Source Hodel ExrOr Corrected Total DF 3 14 17 Sum of Squares 286.60611 27.39389 314.00000 Hean Square 95.53537 1.95671 F Value 48.82 F>E 0.0001 Source X1 22 X2*X1 DE Iype III Ss Hean Sguare 1 1 1 188.51593 188.51393 0.43265 0.43265 3.48284 3.48284 F Value 96.34 0.22 1.78 PT>E 0.0001 0.6454 0.2035 Parameter Estinate INTERCEPT 44.18390805 B X1 - 0.B2758621 B X2 -2.60800443 B X2 * X1 - 0.26036560 8 T Eor HO: Parameter=0 9.49 -6.37 - 0.47 - 1.33 HODEL B: SAME SLOPES AND TREATHENT DIFFERENCES Dependent Variable:Y SELF-ESTEEN Er>IT! 0.0001 0.0001 0.6454 0.2035 Std Error of Estimate 4.65570471 0.1298774日 5.54628759 0.19515497 Source Model Brror Corrected Total DF 2 15 27 Sum of Squares 283.12327 30.87673 314.00000 Mean Square 141.56163 2.05B45 F Value 68.77 PI≥E 0.0001 Source X1 DE rype III SS Mean Sqguare 1 185.12327 185.12327 F Value 89.93 PrYF 0.0001

16.3 外推何題 •1067. X2 1 70.27928 70.27928 34.14 0.0001 Parameter INTERCEFT X1 X2 Eatimate 48.29686944 B -0.94290288 -9.68641053 B T for HO: Parameter=0 13.50 -9.48 -5.84 Pr≥ 0.0001 0.0001 0.0001 Std Brror of Estimate 3.57834982 0.09942750 1.65775088 REDUCED HODEL I: YREATHENT DIFE ERENCRS HITH NO CDVARIATE General Linear Models Procedure Dependent Var iable:Y SEL.F-ESTEEH Source Hodel Error Corrected Total Sum of DF Squares 1 98.000000 16 216.000000 17 314.000000 Mean Square $B.000000 13.500000 F Value 7.26 PE>E 0.0160 Source DE TYee III SS Mean Sqvare X2 1 98.000000 98.000000 REDUCED HODEL IT: COVARIATR BUT NO TREATYEAT DIRTERRNCES General Linear Models Procedure Dependent Variable:Y SELF-ESTEEH F Value 7.26 ET>F 0.0160 51 Source Hodel ErTOz Corrected Total DF 1 16 17 Sum of Squares 212.84398 101.15602 314.00000 Hean Square -212.84398 6.32225 F Value 33.67 FT≥E 0.0001 Source XI Parameter INTERCEPT X1 Estimate 28.57258960 - 0.41248834 DE Type III SS Mean Square 1 212.84398 212. 84398 T Eor H0: Pr≥/r Parameter-0 13.73 -5.80 0.0001 0.0001 E Value Pr>E 33.67 0.0001 Std Error of Estimate 2.0B069635 0.07109137 那麼酒精嗜好老和吸毒者真的有不同的自尊分數嗎?對分數差異的一個可能解釋就是我們所處理的是兩個不同年齡組的資料;樣本中酒精嗜好者年齡介於15

• 1068• 第十六章協方差分析到25歲,面吸毒者則介於30到41歲。上面輸出結果中的散點圖證實了這兩組間所存在的年齡的差異。 兩組的平均年齡分別為20.44 和35.67,而總平均年齡為28.06。注意,兩個樣本組的年齡範圍內都不包含總平均年齡。我們沒有關於30歲以下吸毒者自尊分數的資訊,也沒有25歲以上酒精嗜好者的資訊。因此,對於兩個由“調整”年齢 (28.06)得到的調整後的自尊分數做比較就不太合適了,因為其中包括了對所觀測到的樣本的年齡範圍之外的外推。在此例中,我們很難對不同年齡或存在其他差異(未測的)的兩組酒精嗜好者和吸毒者做出什麼比較。 所以,千萬別忘了看看你的資料。外推時潛在的問題,儘管可能不會像上面例子那樣顯而易見,但在資料的圖中可能會明顯地看出來。這樣,當作出的調整 《或做任何比較)本身就不妥當時,可以避免使用協方差分析對調整後的處理均值做比較。當將這些分析方法擴充套件到分析不止一個協變數或更復雜的試驗設計時, 也可能會遇到相同的問題—但此時將更難於檢測到這些何題。 16.4 多維協變數和更復雜的設計 16.2節中討論的方法也可用於含有一個或多個協變數的完全隨機化設計。 模型中包含有多個協變數只意味著我們的模型中含有不止一個定量的自變數。例如,我們可能希望比較幾個不同職業團體的社會地位y,同時又要考慮每個群體中每個人在中學後受到正式教育的年數 z1,每個人的收入水平z2 等資訊。如前面提到的,我們不要把自己侷限於協變數的一次方。這樣我們可以用下面的模型將響應變數與兩個協變數(z和 z2)及三個處理的聯絡表示出來: + Bgzjza + BLox2 3+ BL 2X4+8 其中 xs=1當使用處理2 z3=0 否則 x4=1 當使用處理3 3=1 香則用像表16.1那樣的期望值表我們可以很容易地給出各個B的解釋。 對更復雜設計的協方差分析也可以透過一般線性模型的方法解決。在隨機化完全區組設計和拉丁方設計中,根據協變數作調整時的技巧類似於我們在完全隨機化設計中討論過的方法。我們用下例來說明對於隨機化區組設計模型是如何建立的。

16.4 多維協變數和更復雜的設計•1069• 例 16.4 假設我們有一隨機化完全區組設計,兩個區組,三個處理,一個協變數x,每個區組內每個處理處有n>1次觀測。假設對每個處理,響應變數與協變數都有著線性關係,寫出這個試驗的模型。給出模型中引數的意義。 解答模型如下 Yok= Bo + a + Y +Bixih + Eik 其中:=1,2,3:j=1,2;及k=1,•,n。引數的意義如下:B是y關於z的迴歸直線的截距,a:是第;個處理的效應,Y;是第;個區組的效應,B1是y關於z的回歸直線的斜率,ej是隨機誤差項。我們可以用一般線性模型寫做: 其中 x1=協變數 x2=1對於區組2 x2=0 否則 x3=1財於處理2 x=0否則 xA=1對於處理3 =0 否則由此我們立即可以看出,該模型將響應變數y和一個定變數z,及兩個定性變數即區組和處理聯絡起來。模型中各個8的解釋可從表16.5中的期望值得到。 表16.5 有一個協變數的隨機區組設計的期望取值區組 1 2 處理 1 2 3 1 2 3 期望取值 Ba+B (防+月)+(月+限) 1 (Bo+B)+(月+防)z1 (Bo+B22+(B1+Bs) 1 (Bo+B2+Bs)+(B+Bs+B)z1 例16.4中建立的模型除了可以表示出各區組內每個處理處y與z」的線性關系,它還可以表示出截距間以及斜率間的差異。如果我們想檢驗處理間和區組間斜率是杏相等,我們可以檢驗如下零假設: Ho:Bs= B=B=0 如沒有足夠的依據拒絕Ho,我們可以再考慮簡化模型(由在上述模型中令Bs=p。

•1070• 第十六章協方差分析 =B=0得到) y- Bo+ BX1+B 2+BZs+BKA+E 檢驗對於協變數調整後的處理間是否有差異,可以透過擬合全模型和對於零假設 Hn:Bs = BA=0 的簡化模型來進行。 案例的資料分析:高爾夫球場草坪上的球速此研究的目的在於比較擊中後的高爾夫球在用三種不同品種的草皮鋪成的高爾夫球場上的平均速度。對應資料的圖由圖16.1給出。由圖上看來,嗬應變數 —擊中後球的速度—對三種草皮以相似的斜率係數與相對溼度呈線性關係。 我們將根據資料建立模型,評價模型條件否滿足,並檢驗對於三種草皮調整後的速度是否有差異。因為土壤性質,天氣條件等方面存在地域差異,我們選取了八個不同的地區進行試驗。在每個試驗地點,給每種草皮都分配一塊草地。協變甘 —相對溼度,在得到每塊草地上速度測量值的同時被記錄下來。這樣,我們就有一個隨機化完全區組設計,其中八個區組(即試驗地區),三個始理(草皮)以及一個協變數(相對溼度)。我們透過建立模型,將響應變數(草地上的球速)與區組、處理和協變數聯絡起來,並假設每個地區內對三個處理(草皮)可以有不同的斜率,但假設同一處理在不同地區具有相同的斜率。 模型I:以一般線性模型的符號,上述情況下的全模型表示如下: 其中 X1=相對溼度(協變數) 2=1如果是地區1 s=1如果是地區2 X4=1 如果是地區3 s=1 如果是地區4 6 1如果是地區5 7=1如果是地區6 8=1如果是地區7 x9=1如果是草皮1 x10 =1 如果是草皮2 X2=0 杏則 x3=0否則 4=0 否則 x$=0 否則 ×6=0 否則 6=0則 8=0否則 z$=0香則 X10=0 否則模型1中的各期望值見表16.6。 注意草皮品種間具有不同的斜率,但每種草皮在不同地區的斜率卻相同。

16.4 多維協變數和更復雜的設計 •1071• 要檢驗速度與相對溼度間的線性關係對於三種草皮是否一樣——即三系直線是否斜率相等,我們將用以下模型擬合資料,其中三條直線有相同的斜率,但有不同的截距。 模型I:協變數斜率相同時地區和草皮的差異衰16.6 素例中模型1中的期熟值地區草皮品種 1 2 I (Ba+B)+(B+B) 1 (Bo+B)+(B1+B2) 1 2 (Bhn+B)+(B+Bz)工] 7 8; (B+Be)+(B+B 1 B+(B+B11) 1: (Bo+Ba)+(B1+月12)x1 Bo+(pi+Biz)z1 3 B+B)+B 1 (B+B)+B!: (Bo+BR)+p Bn+BE 根據上兩個模型擬合得到的計算機輸出結果如下。 MODEL I: REGION AND TREATNEPT DIFFERERCES WITH COVARIATE HAVING UNEQUAL SLOPES General Linear Hodels Procedure Dependent Variable:s SPEED Source Hodel Error Corrected Total Source X1 x2 X3 X4 X5 Sum of DE Squares 12 18.592940 11 0.312125 Mean Square 1.549412 0.029284 23 18904065 DF Type III ss Hean Square 1 0.8535690 0.8535690 1 0.2203698 0.220369日 1 0.1929255 0.1929255 1 0.1384441 0.1384441 1 0.2766251 0.2766251 F Value 54.78 E Value 30.18 7.79 6.82 4.89 9.78 Pr>E 0.0001 FE>E 6.0002 0.0175 0.0242 0.0490 0.0096

•1072• 第十六章協方差分析 X6 X7 X8 X9 X10 X1*×9 X1*X10 1 1 1 1 1 0.0476899 0.0011902 0.0189954 0.4863322 0.0252385 0.0902496 0.1332566 0.0476899 0.0011902 0.0189954 0.4863322 0.0252386 0.0902496 0.1332566 1.69 0.04 0.67 17.19 0.89 3.19 4.71 MODEI. II: RRGION AND TREAINENT DIFFEREICES WITH COVARIATE HAVING EQUAL SLOPES General Linear Moels Procedure Dependent Var iable:s SPEED Source Model EITOr Corrected Total Source X1 X2 x3 x4 X5 X6 X7 XB x9 ×10 Sum of DF Squares 10 18.435323 13 0.468741 Nean Square 1.843532 0.036057 23 18.904065 DE Type III ss Hean Sguare 1 3.135616 3.135616 1 0.099813 0.099813 1 0.166114 0.166114 1 0.169050 0.169050 1 0.234314 0.234314 1 0.039421 0.039421 1 0.009653 0.009653 1 0.039862 0.039862 1 14.089314 14.089314 1 3.730729 3.730729 F Value 51.13 F Value 86.96 2.73 4.61 4.69 6.50 1.09 0.27 1.11 390.75 103.47 要檢驗斜率是否相等,可檢驗模型1中的奶下假設: Ho:B1 = B22=0 Ha:Bu 0耳/或B12千0 檢驗統計量為 F =(SSEn-SSE,)/(dfau- dfau) MSE」 -5-4607-2602/(03-112-2.70 0.2207 0.8412 0.4299 0.0016 0.3651 0.1016 0.0527 Pr>E 0.0001 Pr>F 0.0001 0.1201 0.0513 0.0495 0.0242 0.3148 0.6136 0.3122 0.0001 0.0001

16.4 多維協變數和更復雜的設計•1073• 中值為 Pr(F2.11≥2.79)=0.1050。可見,此資料支援三種草皮具有相同斜率的假設。其次,我們可以檢驗這三種草皮調整後的均值是否有差異。我們可建立一個模型,其中對這三種草皮協變數的斜率相同,但不再考慮草皮間的差異,同時保留由於區組變數——地區所造成的差異。 模型T:協變數的斜率相同,地區間有差異而草皮品種間無差異此擬合此模型的計算機輸出結果如下。 MODEL ITI: COVARIATE WITH EOUAL SLOPES, REGION BUT HO CULTIVAR DIFFERENCES General Linear Hodels Procedure Dependent Variable:s SPEED Source Model ErrOT Corrected Total Source x1 X2 x3 X4 ×5 x6 x7 Sum of DE Squares 4.3410695 15 14.5629951 Hean Square 0.5426337 0.9708663 23 18.9040646 DE •Type iIt ss Mean Square 1 2.0172033 2.0172033 1 0.1190733 0.1190733 1 0.1670196 0.1670196 1 0.2163489 0.2163489 1 0.4184864 0.4184864 1 0.0032885 0.0032885 1 0,0000020 0.0000020 1 0.0031418 0.0031418 F value 0.56 Pr>F 0.7950 F valve 2.08 0.12 0.17 0.22 0.43 0.00 0.00 0.00 Pr>E 0.1700 0.7311 0.6842 0.6437 0.5214 0.9544 0.9989 0.9554 為考察調整後各草皮品種所對應的均值是否有差異,我們作如下檢驗 Ho:HAd.CI= MAd, C2- HAd, C3 HasFAd,C 不全相等這組假設相當於檢驗模型I 中的假設: Ho:B = B10 =0 H:B 0且/或B10 0 檢驗統計量為: F= LSSEM- SSE,)/(dfaun- difeu) =514.5640.=9.4687)/(15-13) MSEIi 0.0361 = 195.21 值為 Pr(F2.13≥195.21)<0.0001。可見,資料顯著支援研究假設,即三種草皮上的調整後速度間有顯著差異。我們可以透過檢查圖16.5的速度——相對溼度

• 1074. 第十六章協方差分析圖來進一步調查在這三種草皮間存在什麼樣的差異,其中的直線是透過對模型正做引數估計後得到的。我們可以觀察到草皮C3所對應的速度總是比另兩種草皮上的速度要快,而C2又要比C1 快。 圖中符號為草皮的種類速度一 10.0上上 9.5 亠 C3 C3 C3 9.0 C2 c3 C2 8.5 C2 C2 Ccz C3 C3 8.0 + 十一 CI C1 CI 7.5 CI ~C2 CI 7.0 + C1 Cz cz CI CI 6.5 + --+ 20 30 -十 40 -十50 混度 --+ 60 •十70 -+- 80 ~C1 --+---- 90 圖 16.5 速度-相對溼度圖以及擬合的迴歸直線調整後平均速度的估計值由表16.7給出,同時給出了它們的標準差,以用來構造平均速度的95%的置信區間。從表16.7可見,草皮C3上的調整後的速度平均值比C2要快約1個單位,而C2上的速度要比C】上的速度快約1個單位。這樣大小的速度均值差異被認為是很有實際意義的差異,從而將會大大幫助高爾夫球場的設計者們去為他們的球場選擇合適的草皮品種。 在應用上面得到的結果之前,研究者必須檢查協方差分析模型中設定的條件在此試驗中是否滿足。對下面的殘差圖和觀測資料的圖進行研究將有助於檢驗模型假設的有效性。計算機得出的模型I的殘差分析結果見圖16.6。

16.4 多維協變數和更復雜的設計•1075• 表16.7 調整後平均速度的估計值及其95%的置信區間草皮 C1 c2 C3 FiMt 7.20 8.12 9.08 SE(Fed) 0.0674 0.0672 0.0672 95%置信區問 (7.05,7.35) (7.98,8.72) (8.94,9.23) 殘差的莖葉圖和盒形圖並沒有顯示有極端值的存任。正態機率圖顯示有少數殘差值偏離了擬合直線。然而正態性檢驗得到的值為0.3405,顯著支援殘養具有正態性。殘差一預測值圖上,各殘差值總穩定地分佈在預測值附近,說明並未違背殘差等方差的假設。我們對等斜率的假設也進行了檢驗,結果是此條件可以滿足。從圖16.5中標出的數值我們可看到在速度與相對溼度間存在著線性關係。 這樣,在本試驗進行中並沒有違反協方差分析的前提條件。 報告結論我們需要寫一份報告來總結在此試驗中的發現,它應該包括下述內容。 1.對此項研究目的的闡述; 2.對試驗設計的描述,地區是如何選的,每個地區的三塊草坪是如何得到的,草皮品種是如何分配到草坪上的; 3. 對此項研究結果的可推廣性的討論; 4. 資料集的數值和圖形概括; 5. 所用的各種推斷方法的描述: •給出所有研究假設及其 F檢驗值和p值, •列出調整後處理均值的估計值和置信區間, •證明得到推論所需要的必要條件已得到滿足; 6.對試驗結果和所得結論的討論; 7. 相對於以前的研究,對此項研究的發現進行解釋; 8. 對將來研究的建議; 9.列出資料集。 Uaivariate Procedure variable-RESIDUAIS Moments N Hean Std Dew Skewness N:Normal 24 o 0.142759 0.522974 0.954191 Sum Ngts Sum Variance Kurtosis Pr<H 24 0 0.02038 -0.22996 0.3405

• 1076• 第十六章協方差分析 Variable-RESIDUALS Stem Leaf 3W3 11134 -0 8755 -1 433 Boxplot 11534312 -—---- Multiply stem.Leaf by 10**-1 Normal Probability Piot. 0.275t 0.025+ -0.225+ Plot of RESIDUALS VerSUS PREDICTED RESIDUALS 034 A A 00+ -02+ A A A -0.3… 6.5 7.0 A A A A A A A A 叄 A A PREDICTED 圖 16.6

16.5 小結•1077• 練習基本技能 16.6 寫出含一個協變數z1的4×4的拉丁方設計的模型。假設響應變數與協變數間的關係是線性的。解釋模型中的引數的意義。 16.7 參見16.6。 a.指出你將如何檢驗不同的直線是否平行?F檢驗的自由度是如何確定的? b.指出你將如何檢驗根據協變數調整後的處理效應。 16.8 參見16.8。假設響應變數是協變數z!的二次函式,寫出它的完全模型。你能給出模型引數的解釋嗎?在二次模型中你如何檢驗是否平行? 16.5 小結本章中,我們給出了協方差分析的方法。在這裡,對y的每個取值,我們同時觀測到一個伴隨變城z的取值。這第二個變垃,即協變數,可看為不受控制的定的自變數。正是由於這一點,我們可以用前面章節中的一般線性模型的方法來建立模型。 很多情況下,涉及到協方差分析時,總是假設響應變數與協變數x間的關係是線性的,且對於各個處理組,直線的斜率是相等的。然後可以對根據協變數調整後的處理均值進行檢驗。事實上,很多人在進行協方差分析時並沒有檢驗關於平行的假設是否成立。與其給某一試驗的情形強加一個特殊模型,不如透過設計去假定一個合理(不一定是線性的)模型來處理響應變數»和協變數x的關係。然後,在知道模型中引數的含義後,我們可以提出關於引數的一些假設並透過完全模型和簡略模型來檢驗它們。 補充練習 16.9(醫藥)一名研究者要研究三種不同的抗抑鬱藥(A,B和C)對抑鬱症病人的效用。為此,把病人根據年齡一性別的組合分成了六組。每紐隨機選出三個病人,試驗者將三種藥隨機地分配給他們。在試驗開始的當天,首先記錄下了每個病人的基數即治療前的抑鬱水平讀數。然後開始已分配好的治療方案,並保持一周。此時,再記錄下每個病人的第二個讀數即治療後的水平。治療前後的水平讀數見下(分數越高說明抑鬱程度越深)。 a。確定試驗的設計方法。 b.寫出治療後的響應變數y與治療前的讀數x」的一階關係模型。

• 1078•