8.14(農業)研究人員做了一個試驗以比較在沙地生長的蕃茄類植物,在補充不同的營養物 A、B、C時的澱粉含量。研究人員選擇了某個品種的18棵秋苗用於研究,每六棵施用一種營養物,它們均被種在一塊地裡且保持在一個可控環境內。A組的秧苗作為對照組(僅能獲得水),B組的秧苗獲得低含量的 Hoagland 營養物,C組的秧苗獲得高濃度的Hoagland 營養物。種殖25天后,研究人員測試 「莖的澱粉含量,以微克/筆克計,含基記錄如下: 營養物 A 營養物B 營養物C 22 12 7 20 14 9 21 15 7 81 10 6 16 9 5 14 6 3 a.作方差分析,檢驗是否對三個營養物組澱粉含量有差異(a=0.05)。 b.得出你的結論。 8.I5 雖然我們經常計劃好用相等的觀察值數,但研究結束時得到的觀察值數可能不等。假設6棵植物分別被種在練習8.14 中的三種營養物組中,但組B僅有5棵存活,組C只有4棵存活。其澱粉含如下: 營養物 A 營養物 B 些養物C 12 7 20 14 9 21 15 7 18 10 6 16 14 8.對此試驗情形建立-•個合適的模型,定義各項。 b.假若組B和C中沒有植物死亡,作一個方差分析以比較均值,取a=0.05。 8.16(人力資源)工資的爭論以及最後的解決的全部痛苦經歷,使得職員和僱主之間留下了怨恨。為了評價最近僱員對薪水和福利計劃的反應,人部在公司的二個部門(生產、市場、研發)中的每一個部門隨機地取15個人的一個樣本。 人事部的工作人員請抽取到的每一個人真實回答一系列問題。有一些僱員拒絕回答,因而實際樣本容量不相等,具體資料如下: 樣本容量樣本均值樣本方差生產 12 25.2 3.6 市場 14 32.6 4.8 研發 11 28.1 $.3
8.7 小結•457• a.建立這種試驗情形的模型。 b. 用上述得分響應值的概括統計量,比較三個部門的均值(分數越高僱員的滿意度越高),取=0.01。 8.17(農業)對四個不同種類(A、B、C.D)的穀物,研究人員記錄下了作物的產量(蒲式耳/每小塊土地)。在可控制的溫室實驗裡,研究人員隨機地把每類穀物放在可用作研究的32塊土地中的8塊,產基列表如下: A B C D 2.5 3.6 4.3 2.8 3.6 3.9 4.4 2.9 2.8 4.1 4.5 3.1 2.7 4.3 4.1 2.4 3.1 2.9 3.5 3.2 3.4 3.5 3.4 2.5 2.9 3.8 3.2 3.6 3.5 3.7 4.6 2.7 a.寫出合適的統計模型。 b.對這些資料作一個方差分析,並給出你的結論,取a=0.05。 8.18 同練習8.17,利用秩作一個 Kruska-Wallis 方差分析,取 a=0.05。把你的結果與練習8.17的結果做比較。 8.19(商業)許多公司利用每月有固定租金的廣域電話系統(WATS)進行長距離的通話。根據公司所在國的區域,對一定的地理帶可租用一條 WATS線路。 例如公司在 Ohio(俄亥俄》州,這些地理帶可包括下列州: 帶I:Ohio(俄亥俄州) 帶I:Indiana(印第安納州) Pennsylvania(賓夕法尼亞州) Kentucky(背塔基州) Tennessee(田納西州) Maryland(與裡蘭州) Virginia(弗吉尼亞州) Michigan(密歇根州) West Virginia(西弗吉尼亞州) North Carolina(北卡羅來納州) Washington, D.C.(華盛頓特區) 帶咀:32個東部和中西部州,加上華盛頓特區為了監督 WATS線路的使用,一個公司在某個月裡從下列地區中的每一個選擇了一個12 次通話的隨機樣本,記錄下每一次的通話時間(分鐘)(帶皿不包括帶 I 的州及俄亥俄州)。 俄亥俄州帶[ 帶皿 2 6 12 3 8 14 5 10 13 8 15 20 4 19 25 6 21 30 18 10 s 19 12 6 9 13 IZ 6 2 22 7 5 28 5 7 11
•458• 第八章兩個以上總體的中心值的推斷作一個方差分析,比較三個區域的平均通話時間,取a=0.05。 8.20(教育)大多數學齡兒童做家庭作業是晚上的常規任務。文章“Family involvement with middle-grades homework : effect of differential prompting" ",Journal ofEzperimental Education,66:31—48 討論了父母參與孩子的家庭作業是否與提高孩子的學習水平有關。研究中包括74個六年級的學生及其察長。研究人員把學習能力和學習背景相似的學生安排在由同一教師所教的三個數學班中,隨機指定班級到二個測試組中。 組I 學生/家庭激勵:學生被鼓勵尋求家庭成員的幫助,家庭也被鼓勵提供幫助給學生。 組I 學生激勵:學生被鼓勵尋求家庭成員的幫助,但不特別鼓勵家庭給學生幫助。 組皿沒有激勵:不鼓勵學生尋求家庭成員的幫助,家庭成員也不給學生以幫助。 這樣,每個班被指定到三個組之一。試驗後研究人員對學生進行一個測試,結果如下: 處理組學生/家庭激學生激勵沒有激勵學生數 22 22 25 平均分 68% 66% 67% 在這個研究中,研究人員的結論是較高程度的家庭參與科較高的學生成績之間沒有關係。 a.在這個研究中,相關的總體是什麼? b,基於上述資料,研究的結果能對什麼總體具有參考意義? c.對於三個組中的每一個,有效的樣本是什麼?即有多少試驗單元是隨機指定到三個處理組中? d.對此研究的設計,你有什麼評論? e.在家庭參與能改進數學班學生的學習成績的假設下,提出一個改進的設計。 8.21(政府)在一個1994年的參議院小組委員會的昕證會上,一個大煙草公司的執行官宣告,尼古丁被人為地加到菸草中的指控是錯誤的。菸草公司的科學家稱香菸中大量的尼古丁完全是由菸葉的大小確定的,較小的菸葉尼古丁含量較高。所以,香菸中所發生的尼古丁含量的變化是由於菸葉大小的變化,而不是公司在香菸中加進去的。更進一步,菸草公司認為菸葉大小的改變依賴於在生長期的氣候條件,這些條件是不可控制的。為了研究是否小菸葉有較高的尼古丁含量,一
8.7 小結 • 459• 個消費者健康組織做了如下實驗,控制葉子大小的主要因素是溫度和在生長期植物獲得的水量。實驗者考慮了四種生長條件,條件A是平均氣溫和降雨量;條件B 是比平均氣溫和降雨低;條件C是高氣溫、低降雨量;條件D是高於正常的氣溫, 和降雨量。科學家在溫室裡,四種條件下分別種植了10株菸草,溫室裡的溫度和降水量是可控制的,成熟後,記錄下葉子的大小及尼古丁含量,列表如下: 菸草 1 2 3 4 6 7 8 9 10 菸草 1 2 3 4 5 6 7 8 9 A 葉子大小 27.7619 27.8523 21.3495 31.9616 19.4623 12.2804 21.0508 19.5074 26.2808 26.1466 B葉子大小 4.2460 14.1577 7.0279 7.0698 0.8091 13.9385 11.0130 10.9680 6.9112 9.5041 C葉子大小 15.5070 5.0473 18.3020 16.9436 10.2601 19.0571 17.1826 16.6510 18.8472 12.4234 D時子大小 33.0101 44.9680 34.2074 28.9766 42.9229 36.6827 32.7229 34.5668 28.7695 36.6952 A 尼古丁 10.0655 9.4712 9.1246 11.3652 11.3976 11.2936 10.6805. 8.1280. 10.5066 10.6579 B尼古丁 8.5977 8.1299 11.3401 9.3470 9.3049 10.0193 9.5843 6.4503 8.2589 5.0106 C尼古丁 6.7865 10.9249 11.3878 9.7022 8.0371 10.7187 11.2352 7.7079 7.5683 9.0922 D厄古丁 9.9553 5.8495 10.3005 9.7140 10.7543 8.0262 13. 1326 11.8559 11.3345 10.4763 日.作單向方差分析,檢驗在四種生長條件下,葉子的平均大小是否有顯著差異,取 a=0.05。 b.關於生長條件對葉子大小的影響,你能得到什麼結論? c•作單向方差分析,檢驗在四種生長條件下,尼古丁的平均含遺是否有顯著
•460• 第八章兩個以上總體的中心值的推斷差昇,取a=0.05。 d.關於生長條件對尼古丁含量的影響,你能得到什麼結論? e.基於你在(b)和(d)中得到的結論,你認為菸草公司科學家的宣告能被這個試驗支援嗎?論證你的結論。 8.22 利用下面的圖說明,練習8.21中尼古丁含量的資料滿足方差分析的條件嗎?如果你認為條件不滿足,作另一種分析並把你的結果與練習8.21 的結果比較。 50 40 小 30 大子葉20 10 0 A B C D 組練習8.22中各組葉子大小的盒形圖(均值用實圓點表示) 0.999 0.99 0.95 0.80 0.50 0.20 0.05 0.01 0.001 -10 Average:0.0000000 StDev:4.75535 N:40 0 10 葉子大小殘差 Anderson -Darling Normality Test A-Squared:0.205 P-Value:0.864 練習8.22 中葉子大小的殘差機率圖
8.7 小結 • 461• 13 12 11 尼古丁 10 9 6 5 A B c D 組 0.99 0.95 0.80 率0.50 概 0.20 0.05 0.01 0.001 -4 -3 -2 -1 0 1 尼古丁含量的殘差 2 3 Average:0.0000000 StDev:1.62647 N:40 Anderson -Darling Normality Test A-Squared:0.443 P-Value:0.273 練習 8.22 中尼古丁含量的殘差機率圖 8.23 從你的研究領域的雜誌中選一篇包含方差分析的文章,討論試驗的設計及研究人員獲得的結論型別等一些問題。 8.24(農業) 科學家們做了一個試驗,以檢驗五種不同食料對火雞的影響,他們為五種食料中的每一種隨機指定6只火雞,餵養一段時間。
•462• 第八章兩個以上總體的中心值的推斷組對照食料對照食料+新增劑 A的水平1 對照食物+新增劑 A的水平2 對照食物+新增劑B的水平! 對照食物+新增劑B的水平2 增加重量(磅) 4.1,3.3, 3.1,4.2, 3.6,4.4 5.2,4.8,4.5, 6.8, 5.5,6.2 6.3, 6.5,7.2, 7.4, 7.8, 6.7 6.5,6.8,7.3, 7.5, 6.9,7.0 9.5.9.6. 9.2. 9.1,9.8,9.1 8.對每一個樣本畫資料圖。 b,對每一個樣本計算和s”。 c有方差不等和非正態性的證據嗎?解釋之。 d.假設相對於火雞的原重量5個組是可比較的,利用增加重量的資料得到與不同食物相關的結論,取a=0.05。 8.25 對練習8.24 的資料作 Kruskal-Wallis 檢驗,這些結果支援你從方差分析中得到的結論嗎?能得到什麼樣的總的結論?取 a=0.05。 8.261人力資源)一些研究人員猜測,桃樹苗的莖一麻點病可能與土壤中有無線蟲有關。所以,用除草劑對雜草和土壞進行處理能保持秧苗的有效生長。研究人員做試驗以比較在使用三種除草劑後,桃樹苗的生長情況。 A. 對照(沒有除草劑)。 B. 用含有 Nemagone 的除草劑。 C. 用不含有 Nemagone 的除草劑。 研究人員從用於研究的18 棵秧苗中,隨機指定6棵到每一組中,對於三個組中的生長區域內的土壤和雜草用合適的除草劑。研究結束後,對每一秧苗記錄它的高度(釐米),用下列資料作方差分析以檢測三組中秧苗高度的差異,取a= 0.05;給出你的結論。 除草劑 A 除草劑B 除草劑c 66 85 91 67 84 93 74 76 88 73 82 87 75 79 90 64 86 86 8.27 用練習8.24的資料,說明一個極端值對方差分析所得結果的影響,假定在新增劑B的水平2上,組中第15 只火雞的增加重量是15.8而不是9.8。 a,對方差分析的假定有何影響? •
8.7 小結•463• b.用15.8代替9.8,如果一個人不熟悉方差分析,他或她能得到什麼結論? 8.28 同練習8.27,如果用 15.8 代替9.8,對 Kruskal-Wallis 檢驗會發生僕麼影響?有理由既作 Kruskal-Wallis 檢驗又作方差分析嗎?為什麼? 8.29 為檢驗均值同的差異,是否在一定情形下,Kruskal-Wallis 檢驗比方差分析有更高的功效?為什麼? 8.30(工程)一個小公司用三種不同型號的機器生產電線的絕緣保護層,公司想要評估由機器生產的保護層的內徑。公司的一個質量工程師隨機選取每個機器生產的保護層,並且記錄每個保護層的內徑(毫米),她要確定三種機器的均值和標準差之間是杏有差異。 保護層 1 2 3 4 5 6 7 8 9 10 機器A 18.1 2.4 2.7 7.5 11.0 機器 B 8.7 56.8 4.4 8.3 5.8 機器C 29.7 18.7 16.5 63.7 18.9 107.2 19.7 93.4 21.6 17.8 a. 檢驗總體方差的齊性,取a=0.05。 b. 按照如上檢驗的結果,作方差分析合適嗎? c.如果內徑的方差是不同的,作一個能減少方差之間差異的變換,然後進行方差分析,確定是否平均內徑有差異,取a=0.05。 d. 把在(c)中分析的結果與下面給出的計算機輸出作比較,哪一個是原直徑的方差分析? e.如果工程師知道機器B和機器C的方差比機器A的方差大,她會怎樣設計一個不同的試驗? •
•464• 第八章兩個以上總體的中心值的推斷 Analysis of Variance Source Factor Error Total DF 2 17 19 Level Machine Machine Machine N 5 5 10 ss 4141 12907 1704日 Mean 8.32 16.78 40.70 27.55 練習8.30的單向方差分析 MS 2071 759 StDev 6.52 22.43 34.52 2.73 0.094 Individual 95 * CIs for Mean Based on Pooled StDev ——一, -十一 {⋯ { -—--) (-- -】 --- Pooled StDev = 0 25 50 8.31 當方差不等時,Kruskal-Wallis 檢驗不象方差分析那樣,受到那麼大的影響。對練習8.30中的資料,把Kruskal-Wallis 檢驗用於原始資料及變換資料,並且比較這兩個分析的結果以證實這個結論。
第九章多重比較 9.1 引言和業例 9.2 線性對照 9.3 控制哪個錯誤率 9.4 Fisher(費舍爾)最小顯著差異法 9.5 Tukey 的W方法 9.6 Student-Newman-Keuls 方法 9.7 Dunnett 方法:處理組與對照組的比較 9.8 Scheffe 的S方法 9.9 小結 9.1 引言和案例在第八章裡,我們介紹了檢驗!個總體均值是否相等的方法。我們利用檢驗統計過F=嚴判斷樣本組間變異性相對於樣本組內變異性來說是否太大。如果從樣本資料計算得到的F值超過了附表&中的臨界值,我們就拒絕零假設Ho:M1 = 2=…=從,而接受備擇假設 Ha:: 個總體均值中至少有一個與其餘的不同儘管拒絕零假設確實給我們提供了一些有關總體均值的資訊,但我們還不知道究競哪些值與其他俏不同。例如,41 與p2或p3 相等嗎? 3 等於 p2:A41 945 = 者的均值嗎?處理均俏pA1,H2, ⋯,P。是否存在增長趨勢?多重比較方法及對比就是用來回答.上述這些問題的。儘管存在著許多多重比較方法,但我們只集中討論一些比較常用的方法。在研究了這些方法後,你將能應用多重比較方法評價許多出版物中的結果,或者在試驗中提出合理的多重比較方法。 注意:我們只傾向於分析那些從樣本資料看來有意義的比較。這種做法有時被稱為資料網漁(data dredging)或資料探索(data snooping),單個比較的置信度不能反陝比較的深層特徵。例如,利用以前的知識我們知道利用公式 (5.-3)士9g原十點兩個總體均值之差的區間估計的置信度是1-。假如我們利用方差分析檢驗了有關6個總體的假設 H:M1= 2=M3=H4= 路S=46
•466• 第九章多重比較但只是在看到最大的樣本均值是習及最小的樣本均值是32-後,我們才決定計算 11與p2的置信區間。這種情況下,置信度就不是原來設想的1-a了;這個值只適用於預先計劃的比較,即適用於未看到樣本資料的情況。 在觀察到樣本資料後,要進行資料探索,一種方法是利用某個多重比較方法在一定的置信度下包含所有比較在觀察到樣本資料的情況下可以作出的結論,本章中就要討論一些這樣的方法。 其他可能的選擇是以資料探素性的比較為基礎建立假設,這些假設必須在接下來的試驗或研究中證實。這裡,資料探索性的比較扮演著探測性的或產生零假設的角色,並不能在資料探測的基礎上得出任何結論。需要作進一步的試驗證實資料探索中建立的假設。 案例:面試者的決定受不同殘疾型別的影響嗎? 在美國大約有 50,000,000 人報告說有身體殘疾。而且,據估計年齡在18到 64 歲之間的殘疾人的失業率幾乎是正常人失業率的兩倍。因此,身體有殘疾的人在找工作時似乎比較困難。殘疾人面臨的問題之一可能是在受僱面談時遭受僱主的歧視。 刊登於雜誌 Human Performance(《人類行為學》)1990年第三期157~171頁的論文“Interviewers’ decisions reiated to applicant handicap type and rater empathy” (“面試官的決定與找工作的殘疾人型別及其移情作用有關”)就考察了這樣的問題。研究的目的是調查是否不同型別的殘疾人令評價者產生不同的移情作用及考察面試官的評價是否受到被面試者的殘疾型別的影響。 資料收集方家的設計研究者對五次模擬的僱傭面試作了錄影。為減少不同錄影帶之間的偏差,五盤錄影帶中使用相同的男演員(申請工作及面試官)及包含相同九個問題的問卷。問卷直指申請者的一般資格,因為這類申請者最易受到面試歧視的影響。這些錄影帶因申請者殘疾的不同而不同,但所有的申請者均被表演為水久殘疾。五個條件被標記為輪椅、加拿大柺杖、聽覺障礙、腿部截肢及正常人(對照)。 這項研究中的每個參與者應根據面試的錄影中應試者為申請計算機銷售職位而回答向題的情況對其資格進行評定。在觀看錄影前,每個參與者均填寫蛋根認同等級表(Hogan Empathy Scale)。研究者決定讓每個參與者僅觀看五盤錄影帶中的一盤。根據先前研究中大批評定人員評定結果的變異性,研究者們決定要對五種殘疾情況中的每一種情況的平均評定結果得到準確的估計,需要為每盤錄影帶配備14名評定人員。研究中選擇了70名在校大學生參與。對五盤中的每一盤錄像帶,隨機選擇14名學生觀看,在看完每一盤錄影帶後,參與者對應試者接照兩個方面進行打分:第一個方面包含有11項,用來評價評定人員對應試者的喜歡程度, 另一個方面包含有10項,用來評價評定人員對應試者工作資格的評價。對於每一
9.1 引言和案例 • 467• 個方面,各個專案的平均值就是對應試者的整體評價。研究者利用這兩個變數來判斷評定人員對不同的殘疾型別是否有不同的反應,並判斷評定人員對殘疾應試者的移情效果。 下面是研究者感興趣的—一些問題: 1.70 名評定人員移情分數的平均值是否存在差異? 2. 定級者的平均資格分數是否隨著五種殘疾型別的不同而不同? 3. 哪幾組殘疾情況導致不同的平均資格分數? 4.對照組(正常人)的平均定級是否大於所有型別殘疾者的平均定級? 5.聽覺障礙應試者的平均資格定級是否與運動障礙應試者的平均定級不同? 6.拄柺杖應試者的平均資格定級是否與那些被截膠的或坐輪椅的應試者的平均定級不同? 7.被截肢的應試者的平均定級是否與坐輪椅的應試者的平均定級不同? 研究者們做完試驗並且從70名對應試者定級的參加人員中獲得瞭如下所示的資料。移情值經概括後形成表9.1 中的資料。 條件必均數標準差對照(無) 21.43 3.032 表9.1 五種殘疾條件的移情值聽覺障礙加拿大柺杖 22.71 20.43 3.268 3.$89 截去一條腿 20.86 3.035 輪椅 19.86 3.348 表9.2中的資料是70名評定人員對具有五種殘疾情況的應試者資格的打分及其描述統計量(這些資料是用上述論文中的概括統計量模擬產生的。) 對照 6.1 4.6 7.7 4.2 6.1 2.9 表9.2 五種殘疾情況的應試者資格打分聽覺障礙 2.1 4.8 3.7 3.5 2.2 3.4 截肢 4.1 6.1 5.9 5.0 6.1 5.7 柺杖 6.7 6.7 6.5 4.6 7.6 2.9 輪椅 3.0 3.9 7.9 3.0 3.5 8.1
• 468• 第九章多重比較對照 4.6 5.4 4.1 6.4 4.0 7.2 2.4 2.9 riable ntrol rd of Fiearing putee utches eelchair riable ntrol rd of Hearing putee utches eelchair 聽覺障礙 5.5 $.2 6.8 0.4 $.8 4.5 7.0 1.8 N 14 14 14 14 14 Minimam 2.400 0.400 1.100 2.900 3.000 截股 1.1 4.0 4.7 3.0 6.6 3.2 4.5 2.1 案例中的描述統計量 Kean 4.900 4.050 4.436 5.914 5.364 Hedian 4.600 4.100 4.600 6.300 5.650 Naxjmam 7.700 7.000 6.600 8.800 8.100 Q1 3.725 2.175 3.150 5.050 3.800 柺杖 5.2 3.i 5.2 6.6 6.9 6.1 5.9 8.8 TrMean 4.875 A.108 A.533 5.925 5.333 03 6.175 5.575 5.950 6.750 6.400 續表輪椅 6.4 6.4 5.8 4.6 5.8 5.5 $.0 6.2 StDev 1.638 1.961 1.637 1.537 1.633 SE Mean 0.438 0.524 0.437 0.411 0.436 圖9.1中標出「資格分數。盒形圖在某種程度上顯示評定人員對拄柺杖的應試者給出了較高的資格分數。聽力障礙及截肢者的平均資格分數比那些對照組的人及坐輪椅的情況有些低。所有五種情況中資格分數的變異性幾乎是一樣的。另外,這些情況表明分佈中不存在極度偏態或離群值;因此,正態分佈的假設是合理的。 管理資料研究者們下一步將按照2.5 節中描述的步驟為進行統計分析準備
9.2 線性對照•469• 資料。 在第九章接下來的各節中,我們將建立不同的方法以回答這兒提出的問題。 9 8 7 6 4 3 2 1 0 對照聽覺障礙截肢柺杖障礙型別圖9.1 對不同障礙等級的盒形圖(實心圓點代表均值) 輪椅 9.2 線性對照在建立幾個不同的多重比較方法之前,我們需要以下記號及定義。考慮單向分類問題,即我們想對t個總體均值p1,A42,…,A。作出比較。這:個總體均值的比較問題可以寫成如下形式: 1= a1ki + a2M2 +…+ aMe = Eags 這兒 as是滿足2Q,=0的帶數。比如,我們想比救火!與P,就寫波如下幾性形式 L=H1TH2 注意這兒 a1=1,a2= 1,Qs=a4= a,=0,且≥a:=0。同理,我們要比較第一個總體均值與第二、第三個總體均值的平均數,那麼1的形式如下這裡 a1=1,a2=as= 2,=a4 =as=⋯Q,=0,且乙9=0。
•470• 第九章多重比較在這些對照中我們經常把所有的a:寫成整數。要這麼做,我們用一個公分母乘以這些aio假如我們有四個處理均值的如下對照: a1 = L 6 as=!! 公分母是12,我們用12乘以這些a;,得到 a1=342=-2 03=-4 Q4 =3 就這些x而言,這兩種對照是一樣的,但是,在許多計算中整數的形式較易操作。 將1中的p:用相應的樣本均值;替換,即得線性形式!的估計,記為1。估計之叫做線性對照。 定義9.11=0131.+a283+•+a.=二938叫作個樣本均值的線性對照,它可以用來估計1-乙s。其中4:是滿足條件Z?:=0的常數。 線性對照1的方差可估計如下: v(2)=8LS R+點+:+品] 72 這裡,n;為從總體;中抽出的樣本觀察值個數,s 為單向分類方差分析表中計算的樣本組間均方。如果各樣本容基一樣(也就是說,所有的n:一n),那麼由:個樣本均值可以組成許多不同的對照。下面定義一組特殊的對照: 定義9.2 兩個對照!1及12,這裡 11-2as.及22=268: 如果滿足條件則稱兩者正交。 注意:如果樣本容量一致,那麼條件就變成 a1b1 +asb++at =Eab=0 如果一組對照中每兩個都正交,則稱這組對照相互正交。 例9.1 考慮比較1=4總體均值的單向分類。下列對照止交嗎? 11=31-3222=33.-34
9.2 線性對照 •471• 解答我們可以用如下形式改寫這兩個對照: 21=31- $2 +00$3+ 00$4 22=0031-00$2+3+4 明顯 Zap, =ab1+ a2b2 + a363 +44bs-0 因此,這兩個對照正交。 例9.2 參考例9.1,下面給出的對照正交嗎? 解答把這兩個對照改寫為 2=$1- 32+ 00$3.+00$4.) 我們看到 ≥4$=(1(1)+6-10+06-1)+€000=1 這說明這兩個對照不是止交的。 線性對照中的正交性這個概念很重要,因為兩個對照正交,那麼一個對照不包含另一個對照的任何資訊。我們將要證明,利用:個樣本均值習,可以形成t-1 個正交對照,這:-1個對照相互正交。(記住!—1的一個簡單辦法是參考單向分類方差分析表中源於處理(樣本間)的變異性的自由度的值。)另外,很明顯,這t一 1個對照的平方和加起來等十處理(樣本間)平方和。相互正交將直接導致與這t -1 個對照相聯絡的1-1個平方和獨立。這樣,我們就可以把:-1個自由度與描述任何處理均值差異的處理平方和聯絡起來,並將其分成:-1個相互獨立的用來表明處理均值差異之所的部分。我們將舉一個例子進•步拓展這些思想並闡述這些概念。 為表明可以用某個對照來解釋的各處理均值的變異程度,我們需要計算與該處理對照相應的平方和。對每一個對照1=2-a3•,我們可以如下計算這個對照的平方和(SSC): (M: SSC= (2)2
•472• 第九章多重比較當樣本容量相同時,此公式簡化為 SSC= -26②)2 每個這樣的平方和的自由度為1。這樣,我們就可得到:一1 個正交對照,使得具有:-1個自由度的處理間平方和,等於這:-1個對照的平方和之和。下面透過例子來說明。 例g.3 不同的藥劑用來控制莊稼地裡的雜草。我們所擔心的是化學制劑的過量使用。這些藥劑雖然能有效地控制雜草,但同時也流入地下水網造成健康問題。因此,為「消除化學制劑帶來的汙染問題,有人發明了一些新的生物除草劑。研究者們作了一項有關生物製劑的研究,藉此評價與化學制劑相比其是否有效。研究包括一對照組(無任何製劑),兩種生物藥劑(藥劑1與藥劑2),及兩種化學制劑(化學1與化學2)。把紅花草種植在30個1英畝的地塊上。隨意指定6個地塊接受 5中處理中的一種。收穫紅花草並記錄每一英畝的總產量(單位:噸)。資料如下。 製劑型別 ™i 1 兀 1.175 0. 1204 6 2 生物1 1.293 0.1269 6 3 生物2 1.328 0.1196 6 4 化學1 1.415 0.1249 6 5 化學2 1.500 0.1265 6 尋找四個正交對照並證明四個對照的各自平方和之和等於處理(樣本間)的平方和。 解答對這些資料進行方差分析,產生的結果用如下方差分析表表示出來。 米源處理誤差總和 di 4 25 29 SS 0.3648 0.3825 0.7472 MS 0.0912 0.0153 F 5.96 0.0016 方差分析表中,SSru =0.3648。我們將在5個處理均值中建立4個正交組合
9.2 線性對照•473• 並證明SSrm可分為4 個部分,每一部分代表某個特定對照的1個自由度的平方和。表9.3包含了四個組合中每一個的平方和及係數。 表9.3 雜草控制試驗平方和的計算 Contrast 對照組與判劑生物與化學生物1與牛物2 化學1與化學2 處埋 1(對照組)2(生物 1)3(生物2)4(化學1)5(化學2) Q1 42 43 “4 as 4 -1 -I -1 -1 0 1 -1 -1 0 1 0 0] 0 0 1.175 1.293 0 1.328 1 -1 1.415 1.500 20 4 2 2 2 SSC; -0.836 0.2097 - 0.294 0.1297 - 0.035 0.0037 -0.085 0.0217 0.3648 要闡述表9.3中涉及的計算方法,我們計算一下第一個對照的平方和,即無藥劑對有藥劑。首先,注意這個對照代表無藥劑處理的產量與四種施藥劑的平均產量之間的比較。把這個對照先寫為 = 1- (A2 +K3+HA+HS) 4 =(1)¢1+- 然而,我們將每個係數乘以4,將係數從 ¢1 = 1 82= as =刊 as:/ 變為 41=4 42=-1 Q3 =-1 44 =-1 as=-1 下-步,我們計算 Zaz= (4)2+(-1)2+(-1)2+(-1)2+(-1)2 =20 及 1= (4)(1.175) +(-1)(1.293)+(-1)(1.328)+(-1)(1.415)+(-1)(1.500) =- 0.836 最後,我們從下式可以得到此組合的平方 SSC1= (2)2 n(i)2 = 66-9.836)2 = 0.2097 2i.,(03/m.)
• 474• 第丸章多重比較其餘三個平方和可以類似方法得到。從表9.3我們得到 SSCI+ SSC + SSCs+ SSCa= 0.2097+0.1297+0.0037 + 0.0217 = 0.3648 = SST: 您將在一個練習巾證明這四個對照確實相耳正交。 表9.3闡述了我們怎麼樣把處理中的差異分解為不同的代表各處理均值比較的組合。在定義了對照,獲得「其估計及平方和之後,我們需要判斷哪一個對照與零有顯著差異。•個對照若取零值,則表明這個對照代表的均值間的差異不存在。 例如,如果我們的對照!(無藥劑對藥劑)經計算得零,那麼,我們就得出結論:沒有使用任何藥劑的地塊的平均產量等下所有使用四種藥劑的地塊的平均產量。現在我們提出假設,某個組合!-Zi-《d 不等「零。從方差分析表的F 檢驗變形後即可得到我們的檢驗。因為每個對照的平方和具有一個自由度,其均方與其平方和一樣。丁是檢驗統計量為 F= MSR:COr SSC= SSC 檢驗方法總結如下。 對照的 F檢驗 Ho:l=aiyitazp2+:+a.p:=0 SSC T.S.:F= MSFcror R.R.:對指定的值a,如果F大於對a=,df=1,df=n 1 查表8得到的 F值就拒絕H。 檢驗假定並得到結論。 • 例9.4 參見例9.3。研究者們特別關心的是生物製劑與化學制劑的效果是否一致。 雜草控制中使用的四種藥劑與無處理這兩者對紅花草平均產量的影響是否存在顯著差異?檢驗四種組合中每一種的顯著性。 解答從例9.3的概括統許量表中可以看出,樣本標準差幾乎相同。事實上, Fmox = (0.1269)2/(0.1196)2 = 1.13 從表12中可以得到, mox、0.05,S. 16.3。因此,我們沒有理由懷疑這五個總體的方差不相等。例9.3的方差分析表中p值為0.0016。因此,我們有充足的理由拒絕
9.2 線性對照 • 475• Hn:MI = H2 = H3 = K4 = HS 我們由此得出結論:五個總體均值存在顯著差異(=0.0016)。利用例9.3中我們建立的四個組合可以考察這些均值同差異的型別。由F;=SSC:/MSLEro可計算出如下四個檢驗統計量。 F-= 0.209 = 13.71 0.0153 52=2:0753:=8.4 Fs= 9.89%-0.24 Fa0.0217 0.0153 = 1.42 對a=0.05,df =1,d=30-5查表8,得到 F0.0s.1.28 =4.24。因此,我們得到結論:組合1.與12與零有品著養異,但是1s與14與零無顯著差異。利用組合!」,我們得出結論:使用除草控制藥劑的地塊的平均畝產比沒有使用任何藥劑的地塊的平均畝產高得多。利用組合42,我們推斷得到使用生物藥劑控制雜草的地塊的平均畝產比使用化學藥劑的地塊的平均畝產低一些。然而,我們需要考察平均畝產差異的大小來決定這個差異僅僅是統計意義上的還是有經濟意義的。如果這個差異在經濟上是顯著的,使用生物製劑得到的生態收益將為生物製劑代替化學制劑提供正當的理由。 當我們選擇對照來研究時,目標並不是得到一組正交對照將處理的平方和分解成:-1個部分,而是尋找的處理均值的對照,以能夠清楚地解釋對研究者最有用的處理均值差異型別。對照之間的相互正交性在選擇過程中有點兒象額外福利。例如,在除草劑的分析中,我們也有興趣比較一下無藥劑組與兩種生物藥劑組的平均值。這個對照與我們先前設計的許多對照相比不是正交的。我們仍舊使用這個對照並應用試驗資料檢驗其顯著性。選擇哪一個對照來估計應該由試驗者的整體目標來決定,而不是根據其正交性。 • 我們在檢驗許多對照時遇到的問題稱之為多重比較。當我們檢驗了許多對照時,每一個對照犯第一類錯誤的機率為c,在這些檢驗中,至少有一個第一類錯誤發生的機率要比a大一些。在下一部分,我們將闡述這個難點。 練習基本技能 9.1 考慮下列表示式 21=31+ 32:- 233. 22=91.+$2.-294. a. 2.與1,是線性對照嗎? b.11與12正交嗎?
•476• 第九章多重比較 9.2 在例9.3中,在5個處理均值中我們建立了四個對照。證明這叫個對照相互正交。 9.3 在本章前面部分描述的案例中,研究者們感興趣於回答這些問題:評定人員對不同殘疾型別的反映差異有多大。針對下列每一個問題,寫出五種情況平均定級的一個線性對照,藉此回答研究者們提出的問題。 #.問題1:對照組(無殘疾)的平均定級比所有殘疾型別的應試者的平均定級高嗎? b.問題2:聽力障礙的應試者的平均資格定級與那些移動障礙應試者的平均資格定級相同嗎? c.問題3:拄柺杖應試者的平均資格定級與截肢者或坐輪椅的應試者的平均資格定級相同嗎? d.問題4:截肢應試者的平均資格定級與坐輪椅的應試老的平均資格定級相同嗎? 9.4 參考練習9.3。針對下列每一對對照,判斷它們是否正交。 a. 問題1與問題2。 b.問題1與問題3。 c.問題1與問題4。 d.問題2與問題3。:.同題2與問題4。 f.問題3與問題4。 n。這四個對照相互正交嗎? 9.5 參考例8.4。研究者們感興趣幹判斷從密西西比河口附近抽取的樣本的平均氧含量與從離河口較遠的地方抽取的樣本的半均氧含量相比偏低與否。寫出對照回答下列每一個問題並在&=0.05下檢驗此對照是否等於等。清晰概括你的結果。 a.20公里處的平均氧含量是否等於1,5,10公里處平均氧含量的平均數? b.10公里處的平均氧含量是否等子1,5公里處平均氧含址的平均數? c.5公里處的平均氧含量是否等於1公里處的平均氧含量? d. (a),(b)及(c)中定義的三個對照相互正交嗎? e.這三個對照的平方和等於 SST嗎? 9.3 控制哪個錯誤率試驗者希望透過 m 個對照來比較:個總體(處理)的均值。m個對照中的每一個都可以透過以前章節介紹過的F 檢驗統計量來檢驗。假如每一個對照都用
9.3 控制哪個錯誤率 •477• 相同的a值檢驗,此。值表示為a,叫作單個比較的第I類錯誤率。同此,111個粉驗中的每一個檢驗犯第上類錯誤的機率是a!。我們也需要母慮錯誤地扣絕…! 個零假設中至少一個假設的機率,叫作試驗的第I類錯誤率,記為 arv俏ap:影! 我們在進行m個檢驗時,每一個檢驗犯第1類錯誤的機率是…!現們,如果 MSEcor的白由度無限大(西此各個檢驗相互獨立),那麼當所有的m 個李假設幫成立時,錯誤地拒絕 mn 個零假設中至少一個的機率可以用a =1 (1-cp)"表示表9.4包含了與不同 m及ar相對應的cE值。從表9.4中我們觀察斜對給定作 81,當檢驗的數lm增加時,在m 個檢驗中至少有一個檢驗拒絕H,的機率 ar:發得越來越大。例如,如果試驗者想透過 m =10的正交對照來比較:=20個總體故值,當每一個單個檢驗的 ar=0.05時,在所有的:個檢驗中至少有一個檢驗錯誤地拒絕H。的機率達到0.401。 7,對照個數 2 3 4 表9.4 1個樣本均值的m個獨立對照時試驗的第I類鋪誤率的比較 a,每個檢驗犯第I類錯誤的機率 0.10 0.100 0.190 0.271 0.344 0.410 0.05 0.050 0.097 0.143 0.185 0.226 0.01 0.010 0.020 0.030 0.039 0.049: 10 0.651 0.401 0.096 在任何實際問題中,MStro的自由度總是有限的,因此各檢驗不是獨立的。這樣 ax與a!的關係通常並不像表9.4描述的那樣。當各檢驗不獨立時,很難找到相當於 aE=1—(1-a)”的表示式。但是,可以證明,對我們要做的總體均值間的大多數型別的比較,試驗的錯誤率存在如下上限: aE≤1-(1-az)™ 這樣,對於單個檢驗中的每一個,當給定值 a,時,我們就知道了aE的最大可能值。 假如,對:=20的總體均值的m=8個對照,我們希望單個檢驗的錯誤率最大為 0.05。要達到整個錯誤率 aE =0.05,在這 m個檢驗中我們應該選擇怎樣的az呢? 利用前邊的上限,如果我們選擇 aI =1-(1- 8E) =1-(1-0.05) =0.0064 那麼就可得到cr≤0.05。惟一的問題是與單個檢驗錯誤率相比,這個方法十分保
• 478• 第九章多重比較守,固此,將會增大犯第I類錯誤的機率。 現在考慮一種方法,這種方法適用於任何 m 個檢驗而且較容易獲得aE的上限。當我們進行許多個檢驗時,表9.4中的結果會令人煩惱。至少犯一次第一類錯誤的機率將會比選定的單個檢驗的錯誤率高很多。當顯著的結果出現在試驗結果的分析屮時,我們將對此提出懷疑。如果我們控制的是試驗的錯誤率 aE 而不是單個檢驗的錯誤率a」時,這個問題可稍微得到緩解。我們需要選擇一個a!值使得ap:可被人們接受。Bonferroni(幫佛洛尼)不等式給我們提供了一個在aE不超過某個給定值時選擇ar的方法。這個不等式闡明整個的第一類錯誤率 aE小於或等於7個檢驗的單個錯誤率之和。因此,當m 個檢驗中的每一個檢驗具有相同的單個檢驗錯誤率 a1時,應用 Bonferroni 不等式得到 QR≤ maI 如果我們想保證犯第一類錯誤的機率最大為a,我們對 mn 個檢驗中的任何一個選擇 a1=g m 那麼, aE《mG=m =。 這樣,試驗的錯誤率就小於等於我們指定的值。正如我們先前提到的那樣,由這個方法決定的試驗的錯誤率可能十分保守,因此將會增大犯第二類錯誤的機率。 例9.5 參見例9.4,我們在(=5的處理均值間建立了m=4 個對照(比較)。如果我們想把試驗的錯誤率控制在水平 aE =0.05上,就取 8= 2.5 = 0.0125 那麼檢驗的臨界值是Fo.0125.1,25=7.24,與此相對,如果我們忽略我們正在進行有關處理均值的多重檢驗這個事實,那麼 Fo.0s.1,25=4.24。 當 SSC;/MSErmn≥ 7.24時,我們就拒絕Ho。從例9.4得到,這四個 F比率值是 Fi=13.71 F2=8.48 Fs=0.24 FA= 1.42 利用 Bonferroni 方法,我們斷言由於對照!與2的F比值比7.24大,因此它們與麥有昆著差異。應用 Bonferroni 檢驗方法,我們確信在這四個檢驗中至少有一個犯第-類錯誤的機率最大為0.05。四個檢驗中每一個檢驗應用。=0.05 並不能使我們估計出這四個比較中犯第一類錯誤的確切機率。然而,這個值要比0.05 大得多,很可能是0.20。
鄉.4 Fisher(費舍爾)最小顯料異法•479. Bsonferroni方法使得我們在保持一定的試驗的第•類錯誤機率的前提下,作觀察資料前先選擇一小部分對照進行分析。作許多試驗中,排究橋們想嬰對所有的處理兩兩進行比較或把所有的處理與對照組進行比較。這此多重比較方讓的上要區別在寸每一個方法要控制的錯誤率型別。在下面的章節中我們將公討論兒個這樣的方法。 9.4 Fisher(費舍爾)最小顯著差異法記得在方差分析中在我們拒絕了!個總體均值不全相等的假設後,我們感興趣於哪一個總體均值句其他的不同。R.A.Fisher(1949)建立了一個方法川來處理一組:個總體均值的兩兩比較。這個方法叫作 Fisher(費舍爾)最小顯等於異法 (L.SD)。 只有當最小顯著差異法應用於獨立(止交)的比較或預先計劃的比較時,這個比較的 Fisher 最小疑著差異法的水平a才是正確的。然而,許多人發現 Fisher 最小顯著差異法容易讓算,因此應用在所有可能的成對比較(尤其是那些完成試驗後覺得有趣的比較)中;研究者們建議只有在各處理的F 檢驗顯著時才能應用 Fisher 的I.SD 方法。這種修止後的方法有時被稱為 Fisher 保護最小顯著差異法。模擬冊究[ Cramer und Szeanson(1973)]表明保護最小顯著差異法的試驗的錯誤率控制在大約等於F檢驗的a水平上。 我們將要介紹 Fisber 保護方法,但我們仍然把它叫作費舍爾最小顯著差異法。 這個方法總結如下。 Fisher 最小顯著差異方法 1.利用方差分析檢驗 Ho:K1= 2 =•=、備擇假設為至少有一個均值與其餘的不同。 2.利用F=MSB/MSW,如果無充足證據拒絕Ho,則要停下來。 3.如果拒絕了Ho,就定義最小顯著差異為兩個樣本均值之間的觀察差異,這個差異是聲稱相應的總體均值之間有差異時所必需的。 4.對給定的a值,A。對p;的最小顯著差異為 L.SDy; =5a/2 3米+步) 這裡n,與n;分別是從總體i與;中抽取的樣本的樣本容量。t為當a=含,df為 I,SD;= I.SD = La/2 23
•480• 第九章多重比 5.接著對樣本均值進行兩兩比較。如果|:一多,|≥1.SDy,則表明相應的總體均俏p:與A;不同。 6.炆每-對總體均值的比較,犯第一類錯誤的機率固定在某個特定值a上。 注意;最小顯著差異法類似於對任何兩個總體均值 A: 與p,進行兩樣本的:檢驗,除「我們使用從所有的個樣本中計算的總體方差。的聯合估計量sw,而不是使用從樣本;和;計算的聯合樣本方差。另外,值的自由度為方差分析中的 dfww=n 1,而不是n:+n;一2。 例9.6 參見例9.3,我們有5種不同的除草劑及每種除草劑指定n=6個地塊。方差分析列布表9.5。 表9.5 例9.3中資料的方整分析喪來源處理誤差總和 4 25 29 ss 0.3648 0.3825 0.7472 MS 0.0912 0.0153 F 5.96 p值 0.0016 解答我們按照I.SD方法的5個步驟來解決這個問題。 去發1.我們利用方差分析表9.5。零假設為Ho:MI = 2=…=KS,其F檢驗的統計垃為 F= MSL Msw = MSE.0 MSt = 5.9 a =0.05,df =4,db=2.如果F超過2.76(見附表8)我們拒絕 H00 華樂23.由寸5.96>2.76,我們拒絕Ho,得出結論至少有一個總體均值與其餘的不同(=0.001)。 生發4,由於樣本容量均為6,所以比較兩個均值的最小顯著差異為 LSD -on EMw -2.060 (200.0130)-0.1471 注意從表2, a= =0.025, df=2可得相應的:值(2.060)。 綴5.當樣本容基相同時,我們並不需要對所有的樣本均值進行兩兩比較, 因為所有的比較都應用相同的L.SD,所以採用以下方法簡便一些。 a.把樣本均值從小到大排列。
9.4 Fisher(費舍爾)最小顯著差異法• 481• 藥劑 1 1.175 2 1.293 3 1.328 4 1.415 s 1.500 b. 計算樣本差俏習最大一予最小如果這個養值大TLSD,我們就斷言相應的總體均值相互差異顯著。接下來我們計算樣本差值第:大一最小把結果與L.SD 相比較。我們繼續與最小作比較。 3第大最小等等,直到我們發現要麼所有的樣本均價與y最小之差大於L.,SD(因此相應的總體均不相同),要麼有一個樣本均值與最小之差小於LSD。要是後者的話,我們停止與了取小作對比。針對我們的資料,與最小對比的結果如下: 比較結論 >I.SD;繼續 >LSD;繼續 ≥LSD;繼續 <I.SD;停止透過下面的圖表來概括得到的結果: 藥劑 1 2 3 4 5 那些用下劃線連起來的總體,其均俏與可的差異不顯著。注意藥劑3,4,5與藥劑1的樣本差值大於1.SD,因此沒有加下劃線。 c.類似地,再與了第二小(本例中即 32.)作比較,對這種情況我們沿用(b)部分的方法。 比較 35.-$2-0.207 34 $2-=0.122 結論 >LSD;繼續 <LSD;停止藥劑 1 2 -3 -_4 5
• 482• 第兒章多車比較 •-—- d.繼續與習第:小(木例中即53.)作比較, 比較 sV3-0.172 .33.-0.1187 結論 >I.SD;繼續 <LSD;停止約劑 1 2 3 4 5 e.繼續與第門小(本例中即 .)作比較。 比較 4 0.085 藥劑 1 2 3 4 【.步驟(a)至(e)可概括如下: 藥劑 1 2 3 4 5 結論 <I.SD;停止按照L.SD準則,那些沒有用下劃線連線起來的總體表明其均存在顯著差異。注意在(f)部分中我們可以省略從上數第三根線,因為從上數第二根線就包含了它。顯著與非顯著的結果修正後總結如下藥劑 1 2 3 4 5 敏後,我們知道y1,42與p3顯著地小於 pS。另外, 3與p4 顯著地大下 MI。 雖然例9.6 中討論的LSD 方法似乎十分費力,但它的應用卻十分簡單。首先,進行方差分析。如果我們拒絕所有總體均值相等的零假設,我們就對樣本均值兩兩計算1.SD。當樣本容量相同時,各組的差異都是一個數。我們應用例9.6中從步驟5(a)至5(f)的方法。我們不需要寫下所有這些過程,只要有概括線就可以。就像步驟 5(f)那樣,最後利用 Fisher 的L.SD給出一個簡單直觀用於反映各個對比的圖形作總結。 在利用L.SD方法做兩兩比較時有一些問題要注意。首先,有可能出現在方差分析中整個的F檢驗顯著但是利用1.SD方法任何兩兩的比較均不顯著。這種明
9.5 Tukeg 的 W方法 • 483• 顯異常的發生是因為F檢驗的零假設Ho:/41=#2 =•,等價於假設總體均值間所有可能的對照(成對或其他)都等十零。對一組資料,顯著的對照並不•定形如 1i一A,而這種形式正是我們在進行兩兩比較時所採用的。 其次,Fisher 的最小顯著差異法也可用於建立A:—A;的信區間。置信度為 100(1- a)%的置信區間的形式如 (-3-)土LSD:; 最後,當所有的樣本容量相同時,所有對照的I.SD是 123k Lal2d 9.5 Tukey 的 W方法我們知道多重比較方法的一個主要缺陷是控制每一個比較的錯誤率。甚至當 NI =A2 =•p,時,除非每一個比較的錯誤率(比如利用 Fisher 非保護的1.SD)a+ 分小,在多重比較中得出至少有一對均值不同的機率仍然很高。為避免如此,人們建立了另外…些多重比較方法來控制不同的錯誤率。 Tukey(1953)提出了利用學生化極差分佈的方法。當比較兩個以上的樣本均值時,要檢驗最大與最小樣本均值,我們用如下檢驗統計量立承太一五最少 Sp Vi/n 這裡n是每個樣本的觀察值個數,Sp是共同的總體標準差。的組合估計。這個檢驗統計量與兩個均值比較時的檢驗統計量十分相似,但它不服從:分佈。不服從的••個原因是在我們觀察到最大與最小樣本均值之前不能確定到底要比較哪兩個樣本均俏(及總體均值)。這個方法與兩個均值比較的方法十分本同,兩個均值比校的方法是指定檢驗 HI:I—M2 =0,觀察少」.及 2•建立一個1統計量。 豆最大一了地小 sp /1/n 服從學生化極差分佈。我們不討論此分佈的特性,而只介紹它在 Tukey 多重比較中的用途。 Tukey 的 W方法 1.對:個樣本均值排序。 2. 如果
•484• 第兒章多重比較則兩個總體均值p: 與p,不相等,其中 s是自由度為的樣本組內均方,4(t,w)是比較:個不同總體時學生化極差的上側尾部臨界值,*是每個樣本的觀察值個數。下面將要討論如何從附表10中獲得Ga(1,w)的值。 3.要控制的誤差率就是試驗的錯誤率。即指定試驗中一組或幾組成對比較被錯誤地判斷為顯著的機率指定為。。 我們可以從附表10中查得9。(1,)的值。v值列在表的左列,t值橫跨表的第一行。對於a=0.05及=0.01,學生化極差的上側尾部值分開顯示。例如,比較10個總體均值,s的自由度為9,學生化極差對應於0.05 的上側尾部臨界值是90.ns(10,9)=5.74。 例9.7 之間的兩兩比較。 參見例9.3中的資料。利用 Tukey的W 方法任a =0.05時作5個總體均值解答第一步將樣本均值從小到大排列,產生下表。 約劑 1 1.175 2 1.293 3 1.328 4 1.415 5 1.500 從例9.6 中描述的試驗,我們得知 t=5(我們是在5個均值間進行兩兩比較的) =25(s 的自由度等於方差分析中的 dfEtror) &=0.05(我們指定試驗的錯誤率 aE 為0.05) 1=6(對每種藥劑隨機指定6個地塊) 我們從附表10 中查得 4。(t,v)= 90.0s(5,25) ~ 4.158 每一個樣本均償之差的絕對值I: 3;1要與 W= galt,t) - 4.158/90233 - 0.2100 作對比。把W替換為1.SD,我們就可以使用與例9.6解中的第五步相同的方法來對比樣本均值了。將樣本均值從小到大排序後,我們與了最小(即可1.)作對比如
9.5 Tukcy 的W方法•485• 下: 比較結論 >W;繼續 >W;繼續 <W;停止透過下圖總結我們得到的結果: 藥劑 1 2 _3 與第小(即 32.)比較,得到 4 比較 2-=0.207 5 結論 <死:停止約劑 1 23 4 同樣,35.與33.及 .比較,得到藥劑 1 2 3 4 綜合以上結果,我們得到藥劑 1. 2 3 4 5 5 簡化為藥劑 L. 2 3 4 5 所有沒有共同下劃線的總體其均值相互差異顯著;這就是說,44 與15 顯著地大於 1。其他均俏間不存在顯著差異。 透過對比最小顯著差異法(例9.6)與 rukey 的W 方法(例9.7)的多重比校結論,我們發現 Tukey 方法比 LSD 方法更加保守(發現較少的顯著差異)。例如, 對例9.6 中的資料應用 Tukey 方法,我們發現 p3 不再顯著地大於 p41。同樣,142 與p3不再顯著地小於pS。之所以這樣是因為,儘管兩個方法都有試驗錯誤率,但是我們已經指出保護I.SD 方法比 Tukey的 W 方法每一個比較的錯誤率要大。
•486• 第九章多重比較 Tukey 方法的侷限性在」它要求所有的樣本均值來自於相同個數的資料。樣本容量不相等就不能應用。如果樣本容量差別不大,米勒(1981)建議用n:的調和平均數替換 W公式中的數值n: t n= 1 如果各樣本容量相差較大,試驗者應該考慮使用LSD 方法或 Bonferroni 檢驗方法。 Tukey 方法也可以用來建立兩個均值之差的置信區間。然而,與 Fisher LSD 建立的買信區間不同,Tukey 方法使我們可同時建立所有對處理差異的置信區間。 對某指定 a,可計算出相應的 W,形如的置信區間包含所有的差異14: M,的整個機率為1-a。這就是說,所有的區間 (3 一$-)土W包含相應總體差昇: A,的機率是1-a。 9.6 Student-Newman-Keuls 方法 Stdent-New man-Keuls(SNK)方法對 Tukey的W 方法作了修正。雖然 SNK 方法仍然使用學生化極差統計量,但依據步驟的不同使用不同的臨界值來區分待檢驗的均值。為比較這兩個方法,我們來看例9.3。將樣本均值從小到大排列如下表: 藥劑 1 1.175 2 1.293 3 1.328 4 1.415 s 1.500 Tukey 的W 方法的學生化極差臨界值為 9o(t,v)= 90.05(5, 25) ~4.158 對五個處理均值的所有兩兩比較都使用這個相同的q值。 SNK 方法中,當:個樣本均值從小到大排列時,距離,步的均值間的臨界值為 W,= 9alr,w)y 我們這個例子中,可是大與可種小相差五步,要比較它們應該使用 W:= 0.(5.0)JF-000(5.25)9098-4.158P.092_0.2000
9.6 Student-Newman-Keuls 方法 • 487• (注意:這就是 Tukey W方法中的W),然而,可錄大與習第二小相差四步,與它們比較的應該是 2 W4= 48(4,0) = 90.0$(4,25) /0.0153 6 = 3.892 (0.0153 = 0.19650 表9.6中列出了有關例9.3資料的所有臨界值 W,。在附表10中,用,替換1,因為表中未給出 =25,故取其近似就可得到值 Q(r,)。 4:r,z) W, 表9.6例9.3中r,9(r,以)和W,的值 2 2.915 0.1472 3 3.523 0.1779 4 3.892 1.1965 4.158 0.2100 Student-Newman-Keuls方法在決定觀察到的樣本差異顯著性時依賴這兩個樣本均值間排序的步寬,它既沒有試驗的錯誤率也沒有每一比較的錯誤率。而且,錯誤率是根據均值的相應步寬而定義的。由於隨著要比較的均值間的步寬的減小臨界值 W,也在減小,SNK方法就不那麼保守,因此一般比 Tukey 的 W 方法發現較多的顯著差異,這是因為 Tukey 方法不管要比較的均值相差幾步都使用最大的W 值。事實上,Tukey的W的臨界值是W,,而對所有r<:均有W,<W。另外,當,都相同時,若記 Fisher 1.SD 的臨界值為Wz,那麼對所有,>2均有LSD<W.。 因此,SNK 通常比 Fisher L.SD方法發現較少具有顯著差異的組。 SNK 方法總結如下。 SNK 方法 1.將:個樣本均值從小到大排列。 2.對步長為r的兩個均值3.與可,如果它們滿足我們就認為兩者具有差異,其中 W, =90(r,w)/3w/n,n為每個樣本觀察值個數, s 是方差分析表中樣本組內均方, 為s的自由度,9(r,w)是學生化極差的臨界值。附表 10列出了a=0.05及a=0.01 時g(r,)的值。 (注意:利用列上的:定位想要的,值。) 例9.8 參見例9.3中的資料。運用SNK方法在=0.05上作所有的兩兩比較。
•488• 第九章多重比較解答表9.6中列出了W,的臨界值。 1.從習錄大開始,每一個樣本均值都與習最小比較,使用合適的W,值。結果總結如下表。 比較 $5.-71.=0.325 =0.240 33.-$1-=0.153 2.類似的,與第一小對比。 比較 J5.-32.=0.207 4-32. 0.122 3.接著,與第小對比。 比較 s- 3.=0.122 4.最後,與子第四小對比。 比較 Ys.34-=0.085 W. 0.2100 0.1965 0.1779 W. 0.1965 0.1779 W, 0.1779 W, 0.1471 利用SNK 方法,這些多重比較的結果展示如下; 藥劑 1 2 3 4 5 結論 >Ws:繼續 >W4:繼續 <Ws;停止結論 >Wa;繼續 <Ws:停止結論 <Wg;停止結論 <Wz;停止所有不帶共同下劃線的總體其均值相互間存在顯著差異;這就是說,從4 與p5 顯著
9.7 Dnnett 方法:處理組與對照組的比較 •489• 地大於A1。同理,p5 顯著地大於x2,除此之外 SNK方法未發現其他存在顯著差異的均值對比。這個例子告訴我們這樣一個事實:SNK 方法往往比 Tukey 的W 方法發現較多的差異(因此較不保守)。 SNK 方法經修改後可以應用於樣本容量不同的情形。當n;大丸;時, 步均值的W,值可以象 Tukey 方法那樣做修正。這裡如果n;間差異不大的話,將W,公式中的n用n;的調和平均數替換: t N= 上+1+…11 31 72 如果樣本容甘差異很大,試驗者應該考慮使用LSD 方法或 Honferroni 方法。 9.7 Dunnett 方法:處理組與對照組的比較在許多研究與試驗中,研究者們為了便於比較,通常包含對照(或者說控制)處理。對照的種類很多,似通常對照只是作為一個標準以便其他如理與之對比。例如,在許多情況下,試驗得以進行的條件對因變數產生極強的影響,以至於在試驗中有效的處理通常不能產生所希望的響應。比如,如果昆蟲數量太多的話,大多數殺蟲劑在合理用量時並不能錄薯地減少昆蟲數量。因此,在所噴酒區域內使用沒有有效成分的噴霧劑作為對照用以顯示昆蟲的水平。需要使用對照的第二種情況是參與試驗者不管接受任何合理的處理(治療)都產生希望看到的響應。這被稱為安慰劑效應。在這類研究或試驗中,完全象對待接受積極治療的參與者一樣,隨機指派一些參與老組成對照組。在大多數評價新的藥物或治療手段的臨床試驗中, 為了測定新藥或新療法效果的大小都要使用安慰劑處理。最後,對照可以代表現行方法或標準方法,這是對任何新方法進行對比的基礎。 在包含對照組(或著說控制組)的試驗中,研究者們想測定接受治療組的平均效果是否不同於控制組。Dunnett(1955)建文了一個與對照組作對比的方法,此方法控制的是試驗的第一類錯誤率。這個方法將每一個處理均值與對照組均值了。 作對比並比較樣本均值之差可;一$。與臨界差異 D=c。(,) Dunnett 方法要求樣本容量相同,n;=n。。表11 (附錄)列出了值d。(R,w)。Dunmet (1964)針對n,不全相等的情況對錶11 中的資料作了調整。對比可以是單側的也可以是雙側的,其體總結如下。 Dunnett 方法 1.對某指定 aE 值,比較p:與p。(對照組均值)的 Dunnett D值為
•490• 第九彰多重比較 D-4.6.0) 扛其中,n為第;個處理組與對照組的共同樣本容量,及=1—1 為非對照處理的個數;a為想要的試驗錯誤率;s 是組內均方;是s的自由度:d。(R,2)為Dunnett 臨界值(附表11)。 2.對雙邊備擇假設 H。:A:產,如果滿足下式則認為 p: 不等於M 其中。)值是表11中的雙邊值。 3.對單邊備擇假設 H。::>。如果滿足下式則認為p,大於A. 其中 d。(k,)值是表11 中的單邊值。 4.對單邊備擇假設 H。:A; <A,如果滿足下式則認為Ai小於A. 其中d。(k,w)值是表11中的單邊值。 5.要控制的第一類錯誤率是一個試驗的錯誤率。因此,一個試驗中一個或多個與對照處理的比較被錯判為顯著這種情況出現的機率指定為。。 例9.9 參見例9.3中的資料。在a=0.05下,分別將兩種生物處理及兩種化學處理與對照處理進行對比。 解答我們想斷定生物及化學處理是否提高了紅花草的產量,因此我們需要作對照的單邊比較。 1.從例9.3中,我們知道s=0.0153,其白由度為25,包含對照處理在內共5 種處理。查表11中的單邊部分可以得到 Dunnett方法的臨界值,將下列值代入 8 = 0.05 k=5-1=4 2=25 - 2.28/200 0532-0.163 2.如果(3一)≥20.163,我們就說處理均值p,大丁控制均值p。總結這些
9.8 Schefte 的S方法•491• 處理生物1 生物 2 化學1 化學2 (y~$) (1.293-1.175)=0.118 (1.328-1.175) =0.153 (1.415-1.175)=0.240 (1.500•1.175)=0.325 比較 <D <D >D >D 結論比對照組不大比對照組不大比對照組大比對照組大 3.結論:在這些地塊上使用任何一種生物藥劑與不使用任何藥劑相比紅花草的平均產量並沒有提高。因此,在~=0.05 水平下,在紅花草地塊中生物葯劑不能有效控制雜草。然而,使用化學藥劑與不使用任何藥劑相比紅花草的平均產量似乎要大。 當樣本容量不等時,Dunnett 方法的試驗錯誤率不等於。。 Dunnett(1964)針對樣本容量不等時的情況修正「表11 中的資料。 9.8 Scheffe 的S 方法到目前為止,我們所討論的五種多重比較方法都是處理!個總體均億間兩兩比較的問題。Scheffe(1953)提出了一個更一般的方法,該方法可以用來作:個總體均值間的任何可能的比較。雖然 Sbeffe 方法也可以用米作:個總體均值間的兩兩比較,但它比其他三個多重比較方法在檢測總體均值間兩兩差異顯著性方面要保守一些(不敏感),這是因為 Scheffe 方法與兩兩比較相比其包括的比較“家族”較大。 多煎比較的 Sehefte S 方法 1. 考慮!個總體均值的任意一個線性對照 1=41M1 + a2M2+ -+ 00 我們希望檢驗零假設 Ho:1=0 相應的備擇假設為 H:l 0 2.檢驗統計量為 2= a1.+a2y2. +1 ase. 3.設 S= 其中,從9.2節中有 802)=$2%
• 492• 第兒章多重比較 t是總體均值的個數,F.出是F分佈的上側臨界值,《=a,df=1-1,d是sto 的自由度。 4. 對指定值a,如果|2|≥S,則拒絕H。 5.要控制的錯誤率為試驗的錯誤率。考慮到任何可能的線性對照,試驗中一個或多個線性對照被錯判為顯著的機率指定為。。 例9.10 參見例9.3。我們在例9.3中定義了5個處理均值的4個對照,試圖考察控制(無藥劑組)或四種除草劑之一使地塊上紅花草的平均產量的差異。利用樣本數據及 Scheffe 方法確定這四個對照中哪些顯著地不等於零。使用&=0.05。 解答表9.7給出了這四個感興趣的對照及其估計量。為解釋表9.7中涉及的計算,我們計算第一個對照,即無葯劑對藥劑的S俏。要計算 S= 我們必須先計算0(2),利用公式因為所有樣本均值都等於6,s =0.0153,則 ()=0.01sa/ +水++葉+2)-0.0158a- 0.0$10 對照控制與葯劑生物與化學生物1 與生物2 化學1與化學2 表9.7 雜草控制試驗中 Scheffe 方法的計算處釐控制生物1生物2化學1化學2 41 42 (3 w4 45 Eu?/n: 2 s 4 -I -1 1 -1 20/6 -0.836 0.0510 0.750 1 1 -1 -1 4/6 0 1 -0.294 0.0102 0.336 -1 2/6 -0.035 0.0051 0.237 0 0! -1 2/6 - 0.085 0.0051 0.237 結論顯著不顯著不顯著不顯著查表8,a=0.05, df=1-1=4,df =25(s 的自由度),Fo.os.4.25=2.76,那麼S 的值為 S =./0.0510 /4(2.76) = (0.2258)(3.323) = 0.750
9.8 Scheffe 的S方法•493• 因為1的絕對值|-0.836|=0.836 超過了0.750,我們就有顯著的證據(a= 0.05)表明地塊上使用一種藥劑比不使用任何藥劑平塢紅花草產量高。其他三個對照的計算概括在表9.7裡。注意不同的對照具有不同的S值,此例中,惟一與零存在顯著差異的是第一組。其他三個對照在a=0.05下不顯著。這些結論與例9.4中我們得到的結論有所不同,那時我們發現第二個對照與零也存在顯著差異。這兩個結論不同的原因在於 Scheffe 方法在0.05水平上控制試驗的第一類錯誤率,而在例9.4中我們僅在0.05水平上控制單個比較。 Scheffe 方法可以用來建立任何可能的:個處理均值對照(未必成對比較) 的同時置信區間。具體地,所有可能的形如!=Zai,其中乙a=0的對照被包含進形如 I-S<I<I+S 區間的機率等 1 ¢。 現在讓我們回到本章開始時介紹的案例上。 案例中資料的分析研究的目的是調查面試者對應試者的評價是否受到應試者身體殘疾的影響。在檢驗假設及對五種處理作出比較前,我們需要證明這項研究滿足這些檢驗及多重比較方法的條件要求。 0.999 0.99 0.95 0.80 率概 0.50 0.20 0.0s1-- 0.01 0.001 L1廠 3 -3 平均值 -0.0000000 標準差 1.63767 樣本量70 Average:-0.0000000 Sibev:1.63767 N:70 0 殘差正態性檢驗 A方 0.384 P值0.387 Anderson -Darling Norpality Test A-Squared:0.384 P-Value:0.387 圖9.2 殘差的正態機率圖
• 494• 第九章多重比較從圖9.1中可以看出,盒形圖寬度幾乎相同,沒有離群值,鬍鬚長度幾乎一樣。 五組應試老中的每一組平均值及中位數大致相同。因此,方差分析的假設看起來成立。要驗證這個觀察,我們計算殘差並將其繪在正態機率圖上。(參見圖9.2。) 從此圖上我們可以看到除了個別的兩個值外,所有的點幾乎位於一條直線上。這樣,強有力的證據顯示五個應試者資格定級的總體服從正態分佈。 其次,我們可以檢驗方差相等的假設。從盒形圖看出,散佈大體相同。從表 9.2提供的概括統計甘來看,我們注意到標準差範圍從1.537到1.961。這樣,樣本標準差差異非常小。為證實這個觀察,我們利用Levine 檢驗法檢驗方差齊性。 我們要檢驗 Ho: =0=0=0=0 Ha:方差不全相等經計算得L=0.405。臨界值為 Fo.os.4,25=2.76。因此,我們不能拒絕Hy。更進一步,我們計算得到值為P(F4.25≥0.405)=0.803;我們有自信說本研究中沒有違反方差齊性的假設。 我們透過與研究討論試驗進行的方式就可檢查資料是否獨立。務必確保在整個研究中,觀看錄相帶的房間中條件保持不變,這樣做是為了避免引起評定人員分心而影響評級效果。另外,首先要檢查移情分數的分佈在五組評定人員中是相同的,以確保在五組評定人員對應試者的資格進行評價前他們中不存在移情水平的差異。研究的假設是五組殘疾情況中各平均資格定級 p:存在差異: Ho:K1=p2=A3=隊4=15 H:至少有一個均值不等其他均值計算機輸出的方差分析表如下。輸出中使用下列符號:對照組(C),聽力障礙(H), 截肢(A),柺杖(R)及輪椅(W)。 General Linear Models Procedure Dependent Variable:Rating Source Sun of Squares F value HT>E Hodei Error Corrected Total」 — 4 65 69 30.47800000 185.05642857 215.53442857 1 -- 2.68 0.0394
9.8 Shelle 的S方法•495• Dunnett's One- tailed T Tests for Variable: Rating Note:This test controls the type I experinentwise error for comparisons of all treatments against a control. Alpha = 0.05 Confidence= 0.95 Critical Value of Dunnett's T= 2.203 Minimum significant Difference: 1.4049 df= 65 MSE=2.847022 Comparisons significant at the 0.05 level are indicated by‘* * * '. HC Conparison Simultaneous LOwET Confidence Limit Difference Between Heans Simultaneous Upper Conf idence Linit R A H -c -c -C -C -0.3907 -0.9407 - 1.8692 - 2.2549 1.0143 0.4643 -0.4643 - 0.8500 --- Tukey's Studentized Range (HSD) Test for Var iable: Rat ing 2.4192 1. 8692 0.9407 0.5549 NoTE:This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGNQ. Alpha = 0.05 df= 65 MSE = 2.847022 Critical Value of studentized Range=3.968 Ninimum Significant Difference = 1.7894 Means with the same letter are not significantly different. Tukey Grouping B B E B A A A A Mean 5.9143 5.3643 4.9000 4.4357 4. 0500 1--- N 14 •14 14 14 14 HC R c A
•496• 第凡章多重比較從結果看,F檢驗的值為0.0394。因此,五類殘疾的平均定級存在顯著差異。我們下一步要考察各組問定級存在什麼型別的差異。我們對比對照組與有殘疾的四組——柺杖(R),輪椅(W),截肢(A),聽力障碼(H),在 aF =0.05 水平下使用Dunnert 方法。我們對四個殘疾組中任何組的平均定級是否低於對照組採用單邊檢驗: Ho:K A Aa:A.CK 我們得到結論:對照(無殘疾)組的平均定級並不比任何一個殘疾組的平均定級顯著地低。接著,我們運用多重方法確定哪兩個組的平均定級存在差異。分析採用 Tukey 方法,a =0.05,結果顯示在計算機輸出中。具有相同 Tukey 分組字母的殘疾型別的平均定級間不存在顯著差異。因此,拄柺杖應試老的平均定級顯著地高於聽力障礙應試者的平均定級。沒有發現其他存在顯著差異的組。要考察五類殘疾條件下所有均值差異的大小,我們利用 Tukey 方法,計算十組平均差異的95% 的同時置信區間。下面的計算機輸出列出了這些區問。 ALpha = 0.05 Conf idence * 0.95 df = 65 HSE = 2.847022 Critical Value of Studentized Range = 3.968 Minimun Significant Difference = 1.7894 Comparisons significant at the 0. 05 level are indicated by‘* **. EC Comparison Simultaneous Lower Confidence L.ia辻 Difference Between Means Simultaneous Upper Conf idence timit R-W R-C R-A R-H H-C N- A W-H C-五 - 1.2394 -0.7751 -0.3108 0.0749 -1.3251 - 0.8608 - 0.4751 -1.3251 0.5500 1.0143 1.4786 1.8643 0.4643 0.9286 1.3143 0.4643 2.3394 2-8037 3.2680 3.6537 2.2537 2.7160 3.1037 2.2537 ***
9.8 Schetfe 的S方法 • 497• C-H A-H -0.9394 - 1.4037 0.8500 0.3857 2.6394 2.1751 Contrast DF Contrast Ss F Value PR>F Control vs Fandicap HearingvsNobility Grutches vs Amp.&wheel 1 1 1 0.01889286 14.B2148810 9.60190476 0.01 5.21 3.37 0.9353 0.0258 0.0709 最後,我們建立了幾個對照用以評價研究者提出的其他問題。下面列出了這些問題及相應的對照。 問題無殘疾定級對殘疾定級聽力定級對運動障礙定級柺杖定級對截肢及輪椅定級對照 Apc- KR-KW- MA MH OMC- KR HW KA +3FH OMC+2MR MW-MA +OKH •對這一個對照進行檢驗的零假設與備擇假設形式如下: Ho:1=0 H:1千0 我們使用 Bonferroni 方法在E=0.05 下檢驗這三個假設。單個比較的錯誤率設為ar=an/3=0.05/3=0.0167。這樣,如果這三個對照中任意一個對照的F檢驗的》值小於0.0167,我們就說這個對照顯著地不等於零。從計算機輸出看,這三個值分別0.9353,0.0258及0.0709。結果,這三個對照與等均不存在顯著差異。 五種平均定級中惟—一個存在顯著差異的組是聽力障礙的應試者與掛柺杖的應試。研究者們在文章裡詳細討論了這個差異發生的原因。 報告結論總結此項研究結果的報告應該包含以下及各部分: 1.陳述研究目的。 2.描述研究方案,評定人員如何選擇,面試如何進行。 3.討論研究結果的可推廣性。 4.資料集的數值及圖形概拮。 5.描述所有的推斷方法:
•秘98• 第九學多重比較方差分析及F檢驗。 薌重比較方法,線性對照及蹬信區間。 驗讓滿足推斷方法所需要的所有條件。 6.討論結果及結論。 7.解釋與先前研究相比的發現。 8.對未來研究的建議。 9.列出資料集。!.l 9.9 小結我們介紹了三種不同的多重比較方法(Fisher, Tukey 及SNK)來對:個總體均值作兩兩比較。另一個方法,Scheffe, 可以應用於均值的任意線性對照(包括成對比較),對每一個方法,我們竭力指出它控制的是哪一類錯誤及其與其他的方法相比保守度如何。因為所有兩兩及多重比較方法計算差值\•一3、|來確定:1 與x2的差異,我們透過比較兩個方法間各自顯著所需要的差異值來感受其保守的程度。使用例9.3中的資料,此資訊列於表9.8。 從表9.8可以看到,Scheffe 方法十分保守。其臨界差異比 Tukey 的W大 13%,比1.SD大61%。因此,我們在進行處理均值的成對比較時從不建議使用 Scheffe 方法。另外,當=2時,LSD 的值等於 SNK 的值;當 =1=5時,Tukey W的值等於SNK的值。因此,SNK 是界於開放的L.SD 與保守的W之間的一種折衷方法。 我9.8 相距,步的樣本均值的臨界差異均值相距的步數方法 1.SD SNK Tukey Scheffe 2 0.1471 0.1471 0.2100 0.2373 3 0.1471 0.1783 0.2100 0.2373 4 0.1471 0.1969 0.2104 0.2373 5 0.1471 0.2100 0.2100 0.2373 我們應該使用哪種方法呢?在比較效果時我們通常較喜歡 SNK 方法,在與控制組(對照組)比較時較喜歡Dunnett 方法。但是,這些選擇的原因與我們的工作環境及決策規則有很大關係。因為我們的環境也許完全不同於你們,使用哪一個方法,什麼時候使用,要依賴於個人。對給定的問題,確定有關差異的決定通常是
9.9 小否應該較(或較不)保守,然後選擇符合具有所希望的特點的方法。 重要公式 1.Fisher 的 LSD方法結•499• 2.Tukey 的W方法 W=90(1,t)。 3.SNK方法 4.當樣本容堪差異不大時,Tukey 及SNK 方法中n的近似 1 •+ +…•十 1 11 n2 5.Dunnett 方法 6.Scheffe 方法 S- V () JTE-T)Fo.df,d 其中補充練習 9.6(農業)參見例8.1 的資料。園藝家要考察三種不同品種蘋果樹葉子的隣含。 a,進行方差分析。 b. 使用SNK方法檢驗所有的兩兩比較,取a=0.05。 c•將(b)部分的結論與下面的SAS計算機輸出結果進行對比。 General Linear Hodels Procedure Class Level Information
• 500• 第九章多重比教 Class VARIETY Levels 3 Values 1 23 Nunber of observations in data set = 15 Dependent Variable:P Source Hodel Error Corrected Total PHOSPHORUS DE 2 12 14 Sun of Sgvares 0.27664000 0.09760000 0.37444000 E Value 16.97 Pr≥E 0.0003 R-Square 0.738810 C.V. 13.93169 P Mean 0.64800000 Source VARIETY DF 2 Type III sS F Value 0.27664000 16.97 Fr>E 0.0003 Student-Newman- Keuls test for variable: PHOSPHORUS NOTE: This test controls the type I experimentwise error rate under the complete null hypothes is but not under pertia1 nu11 hypotheses. Alpha=0.05 df = 12 MSE= 0.00915 Rumber of Heans 2 3 Critical Range 0.1244028 0.1523193 Heans with the same let ter are not significantiy different. SNK Grouping Hean N VARIETY A 0.77600 5 2 A 0.70800 5 3 B 0.46000 5 1 9.7(醫學)研究者作了-項試驗,即將四種新減肥葯的效果與目前已有的一種減肥藥對比。研究者隨機將 50個男人的隨機樣本分成相等的五組,A製劑指定給第一組,B製劑指定給第二組,等等。接著在正式研究前對每一個參加試驗的人作體格檢查並告知他超重的磅數。對比各組超重的平均磅數發現它們不存在顯著差異。研究老接著開始進行試驗,每一組都服用指定的製劑一段固定的時間。在研究期結束時記錄每個人的體重下降資料如下:
9.9 小結•501• AI Az s 12.4 9.1 8.5 12.7 8.7 10.7 11.5 11.6 13.2 9.3 11.9 11.3 10.2 11.8 8.2 11.0 9.7 10.9 11.9 8.3 12.4 13.2 9.0 12.2 9.0 12.3 10.7 9.6 11.2 9.4 13.0 10.6 9.9 13.7 9.2 12.5 11.3 11.3 11.8 12.2 11.2 11.1 10.5 11.5 8.5 13.1 11.7 11.2 11.7 9.9 標準藥劑標記為藥劑S,四種新藥劑分別標記為 A1,A2.AJ及As。下面列出了資料及計算機列印輸出的分析結果。 Gereral Lirear Models Rrocedure Class Level Information Cless Levele Valuea AGENI 5 1234 S Nuber of observations in data set = 50 Dependent Variable:L NEIGHTLOSS SOURCE Hodel ErrOr Correct.ed Total DE 4 45 49 Sum of Squares 61.61600000 44.20700000 105.82500000 F Value 15.68 Pr>F 0.0001 FSquare .0.582263 C.V. 9.035093 I Hear 10.9700000 Source AGENT -—— Level of A DF rype III ss 61.61800000 F Value 15.68 Pz>E 0.0001 --- -L-- —— M Hean $D 1 2 10 10 12.0500000 11.0200000 0.82898867 1.12130976 .
• 502• 第九章多重比較 3 4 S 10 10 10 10.2700000 12.2400000 9.2700000 1.02637442 0.75601293 1. 15659110 FISHER S LSD for variable: WEIGHTIoSS Alpha = 0.05 df = 45 MSE= 0.982378 Critical Value of?=2.01 Least Significant Difference= 0.8928 Means with the same letter are not significantly different. T Grouping Mean A A B C NA 12.2400 10 12.0500 10 11.0200 10 10.2700 10 9.2700 10 Student-Newman-Keuls test for variable:L Alpha = 0.05 df = 45 MSE= 0.982378 Nunber of Heans 2 Critical Range 0.8927774 3 1.0742812 Means with the same letter are not significantly different. SNK Grouping Mean A A B B 4 1.1824729 N A 12.2400 10 12.0500 10 11.0200 10 10.2700 1Q 9.2700 10 •-- Tukey's Studentized Range(HSD) Test for variable: L 4 1 2 3 S 4 1 2 3 S 5 1.2594897
9.9 小結 • 503• Alpba=0.05 df = 45 MSE = 0.982378 Critical Value of Studentized Range = 4.018 Min imun significant Difference =1.2595 Means with the sane letter are not significantly different. Tukey Grouping Mean A B B A A C C N A 12.2400 10 4 12.0500 10 11.0200 10 2 10.2700 10 3 9.2700 10 S Dunnett's One- tailed T tests for variable:L Alpha =0.05 Confidence = 0.95 df = 45 NSE = 0.982378 Critical Value of Dunnett's T=2.222 Minimum Significant Difference= 0.9851 Compar isons significant at the 0.05 level are indicated by‘* * *. A Compar ison Simuitaneous Lower Contidence Limit Difference Between Means Simultaneous Ugper Confidence Limit 4 1 2 3 一s -$ 1.9849 1.7949 0. 7649 0.0149 2.9700 2.7800 1.7500 1,0000 3.9551 3.7651 2.7351 1.9851 米* * **木米水* 冰水* Univariate Procedure Variable = RESIDUAL
•504•