要出版社出版的SAT 考試材料的考生分數的變異性。因此我們需要設計一種統計檢驗方法,以便能比較:>2個總體的方差。我們將考慮兩種方。第一個是 Hartley 檢驗,該方法應用簡單,但要求總體必須服從正態分佈且樣本容量相等。 第二個是Levine 檢驗,該方法計算較複雜,但對總體分佈和樣本容量沒有限制。 許多統軟體都有 levine 檢驗功能。例如 SAS 和 Minitah 都使用 Levine 檢驗比較總體方差。 H. O.Hartley(1950)建立了 Hartley Emox檢驗用來檢驗假設 Ho:好=名=:= H:0不全相等 Hartley Fmex檢驗要求從:個正態分佈總體中獨立地抽取樣本容量均為n的:個隨機樣本。除了要求n1=n2=⋯=n1=n外,Harley 檢驗實際上是前面檢驗1=2 個方差的 F檢驗的推)。記s?為第;個樣本的樣本方差,Shin =8中最小者,Shmx =中最大者。則 Hartley Fmax檢驗統計量為: Fmax = Sanin 檢驗步驟如下: 總體方差齊性的 Hartley Frms檢驗 Ho:d= =… 02(方差齊性) Ha:各總體方差不全相等 1.S.(檢驗統計量):Fmnx = Smnin R.R.(拒絕域):對於給定的a,如果對小a=a,1,d= -1,Fmax超過表 12中的F倩,則拒絕Ho,其中,n是:個隨機樣本的共同樣本容量。 檢查假定並得出結論。 例7.8 Wludyka 機 NelsonLTechnometrics (1997),39:274~285]描述了下面這個實驗。在生產隱形眼鏡時,一種單體被注入到塑膠框中,將這種單體用紫外線光照射並加熱(時間,溫度,和光的強度是變化的),再拿走塑膠框,將鏡片與水化合。據說能透過控制溫度來達到所要求的鏡片強度。因此,我們感興趣的是比較鏡片強度的變異性。下面的資料是使用三個不同供應商的單體所生產的鏡片,其強度距目標值偏差的編碼值。我們希望檢驗Ho:唔=03=0。
供應商 1 2 3 7.4 比較多個總體方差時的檢驗 •399• 對應於三個供應商的鏡片的強度距目標值的偏差樣本 1 2 3 4 5 6 7 8 9 •71 191.9 189.1 190.9 183.8 185.5 190.9 192.8 188.4 189.0 9 178.2 174.1 170.3 171.6 171.7 174.7 176.0 176.6 172.8 9 218.6 208.4 187.1 199.5 202.0 211.1 197.6 204.4 206.8 9 8.69 6.89 80.22 差偏 220 210. 200 190 180 170 2 供應商圖7.12 對應於三個供應商的鏡片的強度距目標值的偏差的盒形圖解答在進行 Hartley 檢驗之前,我們必須檢查正態性條件是否滿足。用圖 7.12 中的盒形圖觀察資料的正態性。所有三組資料似乎都來自於正態分佈總體。 因此我們可以應用Hartley F max檢驗。當a=0.05,t=3,df=9-1=8時,查表 12,我們得到 Fmax,0.0s =6.00。 因此拒絕域為: 拒絕域:如果 F max≥Fmax,0.05 =6.00,則拒絕 Ho。 2 min = min(8.69, 6.89,80.22) = 6.89 Shnax = max(8.69, 6.89, 80.22) = 80.22 因此 Fmax K=80.22 6.89 = 11.64 >6.00 於是,我們拒絕Ho,並且認為方差不全相等。 如果樣本容量不全相等,我們取n一 max,其中,nmax是最大樣本容量。這時
• 400• 第七章關於總體方差的推斷 Fmx不再具有精確的水平c。事實上,從犯第I類錯誤的機率略大於名義值a的意義上來講,該檢驗不夠準確。因此,和所有 n:相等,且樣本均來自於方差相等的正態總體時的檢驗相比,該檢驗更容易錯誤地拒絕 Ho。 Hartley Fmax檢驗對於正態性的偏離十分敏感。因此,如果樣本所來自的總體的分佈稍微偏離正態但方差相等時,Fmex也會拒絕Ho,從而認為方差不相等。此時檢驗探察的是總體的非正態性,而不是方差的不等。因此,當總體分佈非正態時,Fmox檢驗不適合用來作為方差的齊性檢驗。另一種不需要總體服從正態分佈的方法是【,evine 檢驗。但是 Levine 檢驗在計算上比 Hartley 檢驗更復雜,並且,當總體服從正態分佈時,用Hartley 檢驗比 L.evine 檢驗具有更高的功效。Conover, Johnson, 和 Johnson [ Technometrics (1981),23:351~361]對包括 Hartey 檢驗和 levine 檢驗在內的各種方差齊性檢驗進行了模擬研究。他們的研究表明,當總體分佈嚴重偏態時,Hartley 檢驗的。真實水平會膨脹。此時,他們推薦使用 Levine 檢驗。 L.evine 檢驗要求將第:個樣本中的第;個觀測y,替換為2y=|2g 1,其中, 是第;個樣本的樣本中位數。然後,我們計算基於的Levine 檢驗統計量。 總體方差齊性的 Levine 檢驗 Hoc=d-…=0方差齊性 Ha:總體方差不全相等 T. S.(檢驗統計量):L= R.R.(拒絕域):對於給定的a,如果L≥F。d,d,則拒絕Ho,其中 d,=t-1,d N-1, N- Zi-,n3, Fo.df,d是盡分佈的上a分位數,見表8。 檢查假定並作出結論。 我們將在下面這個例子中舉例說明 Ievine 檢驗的計算。但是,大多數情況下,我們推薦使用計算機軟體進行該檢驗,如 SAS 和 Minitab軟體。 例7.9 一-消費者檢測機構對市場上銷售的用於增加汽車每加侖英里數(mpg)的三種新增劑進行評估。過去的研究表明,對於經濟型汽車使用該產品行駛250英里,每加侖英里數可以平均增加8%。該檢測機構欲考察各種品牌的經濟型小汽車增加行駛里程數的變異性。他們隨機選取了使用年限相同,里程錶讀數相同,並且動力裝置總的狀況相同的30輛經濟型小汽車。對於每一種新增劑,隨機分配10輛小
7.4 比較多個總體方差時的檢驗•401• 汽車進行試驗。每輛車行駛250英里,記錄他們每加侖英里增加的百分數。他們想知道三種新增劑在增加行駛里程的變化方面是否存在差異。下面列出了原始數據以及計算 Levine 檢驗統計量所需的中間結果。 解答從圖 7.13(a)~(d)我們可以看出,來自新增劑1和2的樣本似乎並非來自正態分佈總體。因此,本例中,我們不能利用 Hartley Fmax檢驗來檢驗方差是否相等。表7.5 中的資訊會幫助我們計算 Levine 檢驗統計量的值。對應於三種新增劑,裡數增加百分數3;的中位數分別為5.80,7.55 和9.15。下面,我們計算每個資料相對於各自中位數的絕對偏差。記 z1;=131 5.80,x2j = v2;-7.55,23;=33-9.15|,j=1,2,⋯,10。見表第三列。 50 403020100 * * 中新增劑1 新增劑2 (a) 新增劑1,2和3的盒形圖 (均值以實心圓點表示) 新增劑3 0.999 0.99 0.95 0.80 0.50 0.20 0.05 0.01 0.001 0 10 (b) 新增劑1 20
•402• 第七章關於總體方差的推斷 0.999 0.99 0.95 0.80 +0.50 概 0.20 0.05 0.01 0.001 10 20 30 (c)新增劑2 40 50 0.999 0.99 0.95 0.80 欖率 0.50 0.20 0.05 0.01 0.001 人新增劑 1 1 1 1 1 1 1 4.2 2.9 0.2 25.7 6.3 7.2 2.3 9.9 5.3 6.5 3.2 4.2 5.2 6.2 72 8.2 9.2 102 11.2 12.2 (d)新增劑3 圖7.13(b}-(d) 新增劑 1,2和3的正態機率圖表7.5 使用三種新增劑使得小汽車行駛里程增加的百分數 ×1;=1y1-5.801 (x1; 4.07)2 5.80 1.60 4.07 6-1009 2.90 1.3689 5.60 2.3409 19.90 250.5889 0.50 12.7449 1.40 7.1289 3.50 0.3249 4.10 0.0009 0.50 12.7449 0.70 11.3569 (zu-5.06)2 11.9716 4.6656 0.2916 220.2256 20.7936 13.3956 2.4336 0.9216 20.7936 19.0096
7.4 比較多個總體方差時的檢驗•403• 新增劑 2 2 2 2 2 2 2 2 2 2 新增劑 3 3 3 3 3 3 3 3 3;3 Tonal Y2i 0.2 11.3 0.3 17.1 51.0 10.1 0.3 0.6 7.9 7.2 $2 7.55 7.2 6.4 9.9 3.5 10.6 10.8 10.6 8.4 6.0 11.9 9.15 ×2I =|32;-7.55| 7.35 3.75 7.25 9.55 43.45 2.55 7.25 6.9s 0.35 0.35 1y3, 9.15| 1.95 2.75 0.75 5.65 1.45 1.65 1.45 0.75 3.15 2.75 5.06 E2 8.88 2.23 續表 (x1;-8.88) (z2j-5.D6)2 2.3409 5.2441 26.3169 1.7161 2.6569 4.7961 0.4489 20.1601 1,195.0849 1,473.7921 40.0689 6.3001 2.6569 4.7961 3.7249 3.5721 72.7609 22.1841 72.7609 22.1841 (zL-2.23)2 (z3) 5.06)2 0.0784 9.6721 0.2704 5.3361 2.1904 18.$761 11.6964 0.3481 0.6084 13.0321 0.3364 11.6281 0.6084 13.0321 2.1904 18.5761 0.8464 3.6481 0.2704 5.3361 1.742.6 1,978.4 其次,我們計算三個平均值,元1.=4.07,至2.=8.88,雙3.=2.23。再其次,我們 it算 z,關於各自均值的偏差平方(2 一五.),即(21-4.07),(z2,-8.88), (x:-2.23)?。這些值列於表中的第六列。然後,我們計算 x;關於總均值》.二第六列和第七列。得 ≥≥(24-2)≥= 17426T2= ≥≥02-= = 1978.4 Levine 檢驗統計量的值也可以用下面的形式求出: L= (T2~T.)/(-1) = 4978.4- 1742.6)/(3-1) T1/(N-t) 1742.6/(30-3) = 1.827 Levine 檢驗的拒絕域為:如果1.≥FQ.-1.N-=F0.05.3-1.30-3=3.35,則拒絕 Hoo
•404• 第七章關於總體方差的推斷因為1.=1.827,所以,我們不能拒絕Ho:好=好=時。從而我們得出結論,認為沒有充分的證據表明三種新增劑增加里數百分數的總體的方差存在差異。 絲習應用 7.20 在例7.9中,我們指出 Hartley 檢驗不適合,因為有證據表明其中兩個總體分佈非正態,然後應用了 Levine 檢驗。透過檢驗獲知,在a =0.05水平下數據並不支援總體方差存在差異。根據資料得到如下統計量: 新增劑樣本容量 10 2 3 10 均值 7.05 10.60 8.53 中位數 5.80 7.$5 9.15 標準差 7.11 15.33 2.69 8.利用例7.9中的圖,證明總體分佈非止態。 b.使用 Hartley檢驗法檢驗總體方差的差異性。 c. Hartley 檢驗與 levine 檢驗結果一致嗎? d.哪種檢驗更合適?並解釋之。 e.你將哪家單體供應商推薦給隱形眼鏡的製造商?並解釋之。 7.21 參見例7.8。用Levine 檢驗法檢驗總體方差的差異性。 a.在例7.8中,我們說總體分佈是正態的,試證明之。 b. Levine 檢驗與 Hartley 檢驗結果一致嗎? c.那種檢驗更合適?並解釋之。 d.哪種新增劑較好?試解釋你的選擇。 7.22(生物)一位野生生物學家對研究圈養對鹿的大小所產生的影響感火趣。她考慮三個總體:野外放養的鹿,在大型狩獵農場中飼養的鹿,在動物園中飼養的鹿。在每一種環境下飼養的鹿中,她隨機選了8只鹿,且在它們一歲時稱量它們的體重。體重資料(單位:磅)如下表所示。 環境野外農場公園 114.7 120.4 103.1 128.9 91.0 90.7 111.5 119.6 129.5 鹿的重量(磅) 116.4 134.5 119.4 150.0 75.8 182.5 126.7 169.7 76.8 120.6 100.9 87.3 129.59 76.1 77.3 a.生物學家假設圈養鹿的體重變異性大了野外放養鹿的體重變異性。資料支援這一論點嗎?
7.4 比較多個總體方差時的檢驗•405. b.(a)所用檢驗的必要條件滿足嗎?作圖以支援你的答案。 7.23 敘述一項你所參加的實驗或一個來自你研究領域文獻的研究專案,在其中到對被測響應的方差進行對比,且研究處理本身的變異性與研究處理均值的差異性是同等重要的。 7.24 為什麼你認為當總體分佈嚴重偏態時,Levine 檢驗比 Hartley 檢驗更合適於檢驗總體方差之間的差異性呢?(提示:總體中心位置的哪一種度量更容易受到偏態分佈的影響,均值還是中位數?) 7.25(教育)許多學區企圖透過利用計算機進行輔助教學以達到既能減少成本又能激勵學生的目的。將一所學校的一群學生隨機分成4組進行分數的加法和乘法運算的教學。每組使用一種教學方法,這四種方法是:僅僅講授(L),講授並配以補習教科書輔助教學(L/R),講授並利用計算機進行輔助教學(I/C),僅通過計算機進行教學(C)。15周之後,對這些學生進行一次考試。15 周開始時也對學生進行過一次考試。兩次考試分數之差列於下表。校管方想知道哪種方法使得考試分數增加最多且增加量最一致。哪一種教學方法最成功?給出所有的相關檢驗,置信區間和圖以證明你的結論。 學生方法 1 3 4 5 6 7 8 9 10 L L/R L/C C 7 5 9 17 2 3 2 26 6 11 17 1 16 16 12 47 11 11 20 27 9 3 0 4 2 20 -8 31 10 21 20 2 2 2 12 19 50 40 3020 10 0 -10 L L/R LC L,L/R,L/C和C的盒形圖(均值以實心圓點表示)
•406• 第七章關子總體方差的推斷 7.5 小結本章,我們討論了關於總體方差,或等價地,總體標準差的推斷方法。關於。 的估計和統計檢驗利用了df=n—1的x2分佈。在關於兩個總體方差或標準差比率的推斷中利用了d=11-1,df=n2-1的F分佈。最後,我們利用 Hartley 檢驗統計量和 Levine 檢驗統計量建立了關於:>2個總體方差的齊性檢驗。 關於一個或多個總體方差的推斷問題可以追溯到第三章我們討論過的關於總體的數值描述性度量方法。為了描述或推斷一個總體,我們不能總是依賴於均值, 即集中趨勢的度量。在評價或比較心理測試中個人的表現,取自於某生產線的產品的一致性,或某品種玉米的產量時,很多次我們透過研究總體方差獲得了重要信息。 重要公式 1. (或)的100(1-a)%置信區間 (n-_1)s2 或 (n-1)52 Y 2.。’的統計檢驗(o已知) 檢驗統計量:x-(n- 2: 3.0/吃的統計檢驗檢驗統計量:F= 52 4.01/ (或 1/ 2)的100(1 a)% 信區間皆^a<站其中,F.= Fa/2,dfy,df,Fu=Fa/2.d:d, 或 s.Ho:di=0=⋯=0的統計檢驗 a.當總體分佈為正態時,Hartley 檢驗應使用檢驗統計址:Folu -醬 Sain 1.當總體分佈非正態時,Levine 檢驗應使用
7.5小結•407• 1t)7(元一8.32/01-1) 檢驗統計量:1= 其中,2y |y-yi.,3:.=3i:,3i的中位數,總二i,”,za,的均值,雙.=*11,,zo,的均值補充練習 7.26 爹見練習6.21。在那裡我們對比較兩種公雞雞冠的重量感興趣,其中每種公雞的飼料中均新增了兩種維他命新增劑之一。Wilcoxon 秩和檢驗被建議用來檢驗假設兩個總體同分布。用t檢驗來比較兩個總體均值合適嗎?試解釋 7.27 (商業)一家保護消費者權益的雜誌欲比較從兩家不同的公司購買的輪胎,其中每家公司都宣稱他們的輪胎能承受40,000英里的行駛路程。在模擬的道路狀況下,隨機抽取每種品牌的10個輪胎進行測試。當輪胎面磨損到一定厚度時記下它們行駛的英里數,資料(單位:英里)如下。 品牌I 38.9 39.7 42.3 39.5 39.6 品牌1 44.6 46.9 48.7 41.5 37.5 35.6 33.1 36.0 43.4 39.2 36.5 •37.6 32.5 39.5 42.0 a.根據資料作圖,並比較兩種品牌輪胎使用壽命的分佈。 b.對於兩種品牌的輪胎,分別構造直到輪胎面被磨破時輪胎行駛里程均值和標準差的95%置信區間。 c.兩種品牌輪胎的耐磨性是否有差異?用適當的圖,假設檢驗和置信區間來證明你的論點。 7.28(醫藥) 從某精神病院隨機抽取20位病人,每人均患有抑鬱症。對每人進行簡單的精神病等級評估。評估等級中包括一系列形容詞,表示這些病人的情緒。過去更廣泛的檢測表明具有某些情緒形容詞的等級傾向於一致,因此將他們放在一起用以聯合評價病人情緒的一個或多個組成部分。例如,一群具有某些形容詞的病人可能被認為患有抑鬱症。如果一個病人總體的標準差大於4,那麼,為了治療,一般將這個總體分成至少兩組使得同組病人的病情更一致。下面列出這 20位病人的資料。 10 16 15 13 19 12 16 16 14 13 21 21 18 18 24 16 13 16 24 9 a. 求病人得分總體標準差。的95%置信區間。
•408• 第七章關於總體方差的推斷 b.需要將病人總體分成幾個組嗎? c.上面推斷所需要的條件是什麼?它們能夠滿足嗎?用適當的資料圖說明之。 7.29(醫藥)一家藥品公司生產某種品牌的抗組胺藥片。其質量控制部門定期對產品進行某些檢測以檢查產品在投放市場之前是否滿足特定的標準。特別地,公司要求藥力應在標定藥量的90%到110%範圍之內。 a.如果公司正在生產25mg的葯片,那麼藥力應在什麼範圍。 b.從最近生產的一批抗組胺藥片中隨機抽取了30片。藥力資料如下。對總體方差進行推斷時的正態假定能保證嗎? c.將公司關於藥力範圍在90%到110%之間這一說明翻譯成關於藥力總體方差的統計檢驗。試在a=0.05 水平下給出你的結論。 24.1 27.2 26.7 23.6 26.4 25.2 20.8 27.3 23.2 26.9 27.1 26.7 22.7 26.9 24.8 24.0 23.4 25.0 24.5 26.1 25.9 25.4 22.9 24.9 26.4 25.4 23.3 23.0 24.3 23.8 7.30(工程)一項研究旨在比較兩種不同工序下生產的1寸方人工合成纖維強度的變異性。從每個工序中隨機選取9個1小方纖維,並進行檢測。 8.分別對每個樣本作圖。 b.正態假定能得到保證嗎? c.如果正態假定能得到保證,那麼利用下面的資料(psi)檢驗研究假設:對應於兩種工序的總體方差存在差異,取a=0.05。 工序1 工序2 74 59 90 66 103 73 86 68 75 70 102 71 97 82 85 69 69 74 7.31 參見例7.2。構造。?的95%置信區間,並利用這一區間幫助解釋消費者組織所得的結果。例7.2的檢驗具有較高的功效來檢驗出。’比宣稱的值增加了25%嗎?試解釋之。 7.32(商業)投資風險通常用投資回報的方差來進行度量,而這種回報是能夠觀測得到的。從兩個不同的投資組合中各隨機抽取10個年回報額作為樣本。 資料如下(以幹美元為單位)。 投資組合1 130 投資組合2 154 135 144 135 147 131 150 129 155 135 153 126 149 136 139 127 140 132 141
7.5 小結 • 409• a.投資組合2比投資組合1有更大的風險嗎? b.給出檢驗的值,並構造兩個標準差比率的置信區間。 .證明(a)和(b)中推斷所需的條件已經滿足。 7.33 參見練習7.32。兩種投資組合的平均回報有差別嗎?敘述在得出結論過程中你所用的方法,並解釋為什麼你用這種方法。 7.34(商業)考慮兩種不同的用來評估房屋轉售價值的建模技術。隨機抽取12幢正掛牌上市的房屋作為樣本。對每幢房屋均採用兩種建模技術分別估價。 資料如下。 評估價待售房屋 1 2 3 4 8 9 10 11 12 155 137 248 136 102 87 63 129 144 270 157 51 2 138 128 230 146 95 82 67 134 149 292 150 48 a.作圖。兩種不同的建模技術得到同樣的結果嗎? b. 估計兩種建模技術估價差的均值和標準差。 7.35 參見練習7.34。求兩種方法估價差方差的90%置信區間,並給出。 的相應的置信區間。 7.36 參見練習7.34和7.35。關於樣本資料的關鍵性假定是什麼?如何檢查這一假定?資料表明該假定成立嗎?你對練習7.35中的推斷有什麼需要注意的嗎? 7.37(醫藥)在評價一-種葯品的效力時,一個重要因素就是藥品放在葯架上一段時間以後,藥力下降的幅度。特別地,藥力下降幅度的變化是非常重要的。研究人員研究兩種藥品經過六個月時間的放置後藥力下降的情況。假定藥品1是試
•410• 第七章關於總體方差的推斷驗藥品,藥品2是市場上銷售的藥品。資料如下。 — 試驗藥品銷售藥品試驗藥品銷售藥品 $9.4 $1.9 53.1 50.1 52.5 52.5 76.9 52.7 69.0 50.0 62.1 50.6 63.9 55.2 $3.6 54.8 62.6 51.3 51.2 53.1 $5.8 $2.7 88.3 55.8 52.7 59.0 51.4 50.0 50.8 64.8 研究人員欲確定試驗藥品和市場上銷售藥品的藥力下降均值和標準差是否存在差異。在確定兩種藥品是否存在差異時,應給出檢驗的p值,所有相關引數的置信區間和圖形以便確定為了使用各種推斷方法,這些資料是否滿足所需的條件。 7.38(醫藥)隨機選擇若干位具有相同病史的病人,比較在食用兩種不同飲食的情況下他們血液中的膽固醇水平。一組食用低脂肪飲食,另一組食用正常飲食。將資料彙總如下。 樣本容量樣本均值祥本方差低脂肪 19 170 198 正常 24 196 435 a.這些資料是否顯示出了充分的證據表明食用兩種不同的飲食其膽固醇水平的變異性存在差異?給定 =0.05。 b.在比較兩種飲食時,是否還有其他什麼檢驗? 7.39(醫藥)在美國市場上減肥藥品的銷售給許多生產這些藥品的公司帶來了可觀的收入。一種減肥方法對一個人的減肥效果既受這個人身體條件的影響又受心理條件的影響。比較兩種減肥藥品 A和 B。特別地,考慮人們持續使用一種治療方法的時間長度。隨機將總共26名身體條件相當的超重男子分成兩組。 第一組服用藥品 A,第二組服用藥品 B。資料如下(以天為單位)。 藥品 A 藥品 B 42 35 47 38 12 35 17 36 26 37 27 35 28 26 34 29 37 31 1920 27 31 30 33 34 44 比較兩組人持續用藥時間的長度。給出所有相關圖形,檢驗,置信區間,並寫一份關於兩種治療方法的書面總結。
7.5 小結•411• 7.40 參見練習7.39,如果藥品 A是一個在市場上用了多年的舊產品,而葯品B是新產品,那麼你的推斷方法改變嗎?我們想知道和藥品A相比,人們持續使用B的時間是否將更長。 7.41(工程)某鐵礦廠的一名化學工作者懷疑每磅礦石含鐵氧化物(重址,以盎司為單位)的方差隨著每磅礦石含鐵氧化物均值的增加而增加。為了檢驗這一理論,從兩個地點分別隨機挑選10個1磅重的鐵礦石標本。地點1相對於地點2有著較高的平均鐵氧化物。礦石標本中含有鐵氧化物的重量資料如下。 地點1 地點2 3.9 4.4 4.7 3.6 4.1 8.7 3.9 4.6 7.9 3.5 8.4 4.0 8.8 4.2 資料是否提供了充分的證據表明地點1比地點2每磅礦石含鐵氧化物數量的變化程度更大一些?給定=0.05。試給出一個置信區間以顯示兩個方差之差的大小。 7.42(人力資源)某人事部門官員計劃用:檢驗比較一跨國公司兩個部門平均每月未經允許而缺席的人數,但是發現可能存在一些困難。兩個部門月缺席人數的方差似乎不同。為此,從每個部門隨機選取5個月,記錄月缺席人數。 部門 A 部門B 20 37 14 29 19 $1 22 40 25 26 a.什麼樣的假定令人事部門官員煩惱? b.資料是否提供了充分的證據表明兩部門缺席職員總體的方差存在差異? 給定a=0.05。 7.43(環境)某研究人員對鳳凰城和西雅圖的天氣形式很感興趣。作為研究的一部分,他隨機選取20天(7月份),記錄每天的平均氣溫。所收集的資料跨越好幾年,以保證日溫度的獨立性。資料如下(華氏): 鳳凰城西雅圖鳳凰城西雅圖 96 60 93 55 95 66 102 58 85 65 99 75 98 62 85 67 94 67 102 63 93 69 83 60 98 64 93 98 65 107 59 96 61 104 S0 96 57 87 63
•412• 第七章關於總體方差的推斷資料是否表明兩城市7月份日平均氣溫的變化存在差異?7月份兩城市日平均氣溫有差異嗎?已知兩檢驗的水平均為a=0.05。 7.44 根據資料盤中的臨床試驗資料庫,計算每個處理組內部焦慮得分的樣本方差。利用這些資料作單獨檢驗,分別將處理A,B和C與安慰劑組D進行比較。用∞=0.05作雙側檢驗。 7.453 練習7.44中的任一檢驗是否均否定了在分別將 A,B和C的處理均值與安慰劑組D的處理均進行比較時使用:檢驗的可能性?試解釋之。 7.46 利用臨床資料庫中睡眠失調得分構造o/的98%置信區間。同樣地,構造 o/0%的98%置信區間。
第八章兩個以上總體的中心值的推斷 8.1 8.2 8.3 8.4 8.5 8.6 8.7 引言和業例兩個以上總體均值的統計檢驗:方差分析完全隨機化設計中觀測值的模型方差分析條件的檢查其他的分析方法:資料變換另一種非引數方法:Kruskal-Wallis 檢驗小結 8.1 引言和案例在第六章,基於獨立隨機樣本,我們提出了比較兩個總體均值的方法。通常情況下,雙樣本問題是實際問題的簡單化。例如,我們要比較分別來自於三個不同民族(非洲裔美國人、英國裔美國人,西斑牙商美國人)並同受僱於一家大型生產公司且不屬於工會組織的農場工人的平均小時工資。分別從三個民族(總體)的農場工人中獨立地選取隨機樣本。那麼,利用三個樣本均值的資訊,我們可以對相應的總體平均小時工資進行推斷。樣本均值很可能不同,但這並不一定意味著三個總體的均值也不同。怎樣由樣本均值的不同去推斷相應總體均值的不同呢?我們將用方差分析這一統計檢驗方法回答如上問題。 案例:用鐳射對深紫色胎痣進行處理的時間效應臉部的深紫色胎痣是一種先天性血管騎形,在新生兒中約佔幹分之三,胎痣對幾童的社會和心理調節有很大的影響。1985年,一種鐳射技術(即 flash-pumped, Pulsed-dyc laser)被用於兒童深紫色胎痣的治療,由丁兒童的皮膚細薄且痣較小,我們可以假設用這種鐳射治療兒童比治療成人更有效,達到最優清理所需要的治療次數較少,因此認為要及早開始治療。 在文章“Effect of the timing of treatment of port-wine stains with the flashlarnp-pumped-dye laser” (1998), The Nee England Journal of Medicine, 338: 1028—1033所描述的前瞻性研究中,研究者討論了是否治療的年紀越輕越好。 資料收集的設計研究人員考慮瞭如下與最有效治療相關的問題: 1.在降低深紫色胎痣的可見度方面,什麼樣的客觀度量被用於評估治療的有效性? 2.評價一種治療方案需要考慮多少不同的年齡組?
• 414• 第八章兩個以上總體的中心值的推斷 3. 什麼樣的試驗設計對不同的治療方案能產生最有效的比較? 4. 作比較的有效的統計方法是什麼? 5. 什麼樣的資訊應該包括在記錄不同年齡組用鐳射進行治療的有效性的最後報告中? 挑選了100 個從前沒治療過的、年齡不超過31 歲的深紫色胎痣病人作為研究物件。在首次就診時,記錄下胎痣的範圍和位置,為了評價鐳射治療是否對較年輕的病人更有效,按照開始就診的次序每25人分成一組,每一組有4 個年齡段。要達到對胎痣的最優清除需要一系列的治療。首次治療前,由照相師在標準條件下對每一個病人進行彩色照相,用染色計(chromometer)對皮膚的顏色作測試,顏色測試的再生性可由治療前在同一個位置的兩次測試來分析。對每一個病人,以後的顏色測試都在同一個位置進行。如果胎痣已經消失或三次治療後沒有減輕就停止治療,我們的目的是測試每一個病人的胎痣的皮膚和健康皮膚間在顏色的差異上是否降低。 由於研究期間情況的變化,有11 人沒有包括在最後的分析中。記錄了89個病人的各種基本特徵:性別、胎痣的表面積和位置、對治療的有效性有影響的其他醫療條件,也包括諸如看醫生的平均次數、放射暴露的水平、每次治療的鐳射脈衝數、治療後頭疼的發生這些有關治療特點的變數。相對於這些特徵,在4個年齡組之間沒有大的區別。 研究者主要感興趣以下兩個方面,一是治療前胎痣的皮膚和健康皮膚間顏色的差異,二是一系列治療後這種顏色差異的改變。圖8.1表示治療前顏色的差異, 盒形圖表明4個年齡組在顏色上沒有很大的差異,這是重要的,如果治療前組別不同,那麼年齡組對治療的有效性的影響就可能被先前的差異所掩蓋。(表8.1 中的 25 15 5 0-5 12-17 18-31 6-11 年齡組圖8.1 不同年齡組胎痣顏色的盒形圖(均值由實心圓點表示)
8.1 引言和案例•415• 數值是用文章所給的概括統計量模擬得到的。) 患者 1 2 3 4 5 6 8 9 10 11 12 13 14 15 16 17 18 19 20 22 23 24 0~5歲 9.6938 7.0027 10.3249 2.7491 0.5637 8.0739 0.1440 8.4572 2.0162 6.1097 9.9310 9.3404 1.1779 1.3520 0.3795 6.9325 1.2866 8.3438 9.2469 0.7416 1.1072 我8.1 不同年齡組胎寒顏色的改暮 6~11歲 13.4081 8.2520 12.0098 7.4514 6.9131 S.6594 8.7352 0.2510 8.9991 6.6154 6.8661 5.$808 6.6772 8.2279 0.1883 1.9060 7.7309 7.9143 1.8724 12.5082 6.2382 12~17歲 10.9110 10.3844 6.4080 13.5611 3.4523 9.5427 10.4976 4.6775 24.7156 4.8656 0.5023 7.3156 10.7833 9.7764 3.6031 9.5543 5.3193 3.0053 11.0496 2.8697 0.1082 11.2424 6.8404 11.2774 18~31 歲 1.4352 10.7740 8.4292 4.4898 13.6303 4.1640 5.4684 4.8650 3.0733 12.3574 7.9067 9.8787 2.3238 6.7331 14.0360 0.6678 2.7218 2.3195 1.6824 1.8150 S.9665 0.5041 5.4484 資料的螫理:研究人員按2.5節的步驟準備資料以便進行統計分析,他們需要確認胎痣的顏色被正確記錄以及所有的計算機檔案和現場資料一致。
•416• 第八章兩個以上總體的中心值的推斷資料的分析概括統計量在下面的表中給出,四個年齡組的盒形圖如圖8.2。 可以看出,12~17歲組有最大的改善,而6~11 歲組的改善稍微小一點。另外兩個組至少比12~17歲組小2個單位。然而,從盒形圖我們看到四個組在改善方面沒有出現巨大的差異。我們將利用方差分析的過程進一步證實在四個年齡組是否存在很大的差異。 * 20 樓10 改 0 0~5 12~17 18~31 年齡組 * * 6~11 圖8.2 不同年齡組顏色改善的盒形圖(均值由實心圓點表示) Descriptive Statistics for Port-Wine Stain Case Study Variable 0-5 6- 11 12-17 18-31 Years Years Years Years Variable 0-5 6-11 12- 17 18- 31 Years Years Years Years N 21 24 21 23 Minimum 0.144 0.188 0.108 0.504 Mean 4.999 7.224 7.757 5.682 Maximum 10.325 13.408 24.716 14.036 Median 6.110 7.182 7.316 4.865 Q1 1.143 5.804 3.528 2.320 TrMean 4.974 7.262 7.270 5.531 StDev 3.916 3.564 5.456 4.147 SE Mean 01 0.855 0.727 1.191 0.865 Q3 8.852 8.933 10.640 8.429 從本節開始引入的例子,我們可以看出這種檢驗方法叫做方差分析的原因。 假定希望從每個種族取5.個工人的樣本去比較三個種族小時工資的均值,我們從
8.1 引言和策例 417 每個總體中取容量為5的樣本去介紹基本的思想,雖然這個樣本容量太小。 假定樣本資料(小時工資,以美元計)如表8.2。這些資料能充分反映三個總體均值的差異嗎?直接檢查資料可看出在每個樣本內資料變化很小,但各樣本均值間的差異較大。由十和樣本內變差比較,樣本均值間的變化較大,我們直觀地認為對應的均值是不同的。 -1, —— 5.90 5.92 5.91 5.89 5.88 $1-5.90 表8.2 三個樣本均值的比較(樣本內變差小) 來自於總體的樣本 2 5.51 5.50 5.50 5.49 5.50 $2=5.50 3 5.01 5.00 4.99 4.98 5.02 $3=5.00 表8.3列出的樣本均值與表8.2相同,但在每一個樣本內資料的變差較大,且相對於樣本內的變化樣本問變差較小,依據這些資料就不大可能說對應總體的均偵是不同的。 1 5.90 4.42 7.51 7.89 3.78 $1=$.90 表8.3 三個樣本均值的比較(樣本內變差大) 水自於總體的樣木 2 6.31 3.54 4.73 7.20 5.72 $2=5.50 3 4.52 6.93 4.48 5.55 3.52 $2=5.00 圖8.3表示了表8.2 和表8.3 中兩個資料集的變化。圖8.3(a)明顯表明表 8.2 中資料能反映總體的均值是不同的,而圖8.3(b)缺乏證據說明表8.3中資料
• 418• 第八章兩個以上總體的中心值的推斷能反映總體的均值是不同的。 口 3.5 4.0 4.5 5.0 5.5 6.0 (a) 表8.2中的資料 6.5 7.0 1.5 口口 4.5 只•90 3.0 75 3.5 4.0 5.0 5.5 6.0 (b)表8.3 中的資料 6.5 8.0 圖8.3 表8.2和表8.3中資料的點圖:〇,樣本1 的觀察值; •,祥本2的觀察值;口,樣本3的觀察值藉助於圖8.3,從如上的討論我們可以看出方差分析就是將樣本均值之間的差異和樣本內的變差進行比較,從商判斷樣本均值之間的差異在統計上是否顯著。 詳細的檢驗過程下節討論。 8.2 兩個以上總體均值的統計檢驗:方差分析在第六章,我們提出了檢驗兩個總體均值相等的方法。假定有兩個正態總體 (1和2),它們的方差均為。,均值分別為P1、A2,用取自兩個正態總體的容量為和n2 的獨立隨機樣本去檢驗零假設:二14,利用樣本資料計算檢驗統計量 •= 31-32. SpJC1/n)+(1/n2g 這裡昨= (na-1)si+(n2- 1)83 (n1-1)+(#2-1) n2-2 是正態總體方差。?的一個組合估計,犯第一類錯誤的機率為 a的拒絕域可由附錄中的表2查得。 我們希望推廣這種方法用來檢驗多於兩個正態總體均值的相等,而這裡使用的檢驗方法僅對於兩個均值的情形,因此是不適當的,所以我們將使用更一般的數據分析的方法,即方差分析。透過下面的例於介紹它的應用。 調查全國五所不同學校的學生對工業汙染的態度,每個被選學生需圓答指定
8.2 兩個以上總體均值的統計檢驗:方差分析•419• 的一些問題,然後給出個總分。假設每個學校有25個學生被調查,我們希望去估計每個學校的學生平均分。 設學校I所有學生得分集記為總體I,其均值為p1,容量為11=25的隨機樣本來自於總體T。依此類推,有總體1、舊、W、W,均值分別是 pA2、43、M4、pA5,樣本容量分別是 2=25、73 25、 4 25、15 25。 從這5個樣本,我們可以計算它們各自的樣本均值和樣本方差,結果如表 8.4。 賽8.4 關於§個總體的樣本的結果 I 樣本均值樣本方差梯本容量 $2 " 33 $4 25 25 25 25 V js 83 25 如果要檢驗總體均值的等式,即以I=A2=從3=84a=AS,那麼我們可以比較所有可能的兩個總體的均值。所以,若進一步確定5個總體均服從方差為。”的正態分佈,我們可用10次:檢驗以比較總體的均值,將假設列出如下(見6.2節)。 零假設 M1 =A2 M1EH3 MI=HA MI=MS M2=43 12=M4 12=K5 A3-14 M3 AS MA=HS 這個檢驗方法的一個明顯的缺點是既乏味又費時。然而,一個重要且不明顯的缺點是隨著:檢驗次數的增加,錯誤地拒絕至少一個假設的機率就增加。所以, 雖然我們對每一個檢驗固定其犯第一類錯誤的機率為。=0.05,但錯誤地拒絕至少一個假設的機率大於0.05。換句話說,對10個假設的整體,犯第一類錯誤的機率大於0.05。確實,可以證明這個機率可大到0.40。 我們所需要的是假設“所有五個總體的均值是相等的”的單個的假設檢驗, 並要求這個檢驗比起那些:檢驗來不那麼單調乏味,犯第一類錯誤的機率等於指定的值(如0.05),這個檢驗方法即是方差分析。 方差分析方法要滿足如下條件: 1.五個總體都服從正態分佈。 2.五個總體的方差是相等的;即好= =時=好=時=。 3.五個獨立隨機樣本分別來自於五個總體。 由條件2,我們考慮望
•420• 第八章兩個以上總體的中心值的推斷忌= (n1- 1)53+ (n2-1)5+ (ns- 1)53+ (n4.- 1)sa+ (ns- 1)s (n1-1)+ (n2- 1)+(n3-1)+ (34-1)+(ns-1) (n1- 1)s+ (n2-1)s+(n3-1)s+ (n4- 1)s+ (ns - 1)5 n1+ #2 +n3+ n4+ ns-5 注意,這個址是 S= (n1-10sf+ (nz-1282 N1+#2-2 的推廣,而此量可作對假設《I =#2 進行檢驗時兩個總體的公共方差的估計(看 6.2節)。所以,品表示公共方差。的組合估計,它反映了五個總體內觀察值的變異性大小(下標 W 是樣本內的變異性“within-semple variability”的宇頭)。 下面我們考慮度量總體均值間變異性的一個量。若零假設 MI= =M3=M4 =pS為真,則5個總體是相同的,且均值為p、方差為。,所以從5個總體中取出的單個樣本相當於從一個總體中取出5個不同的樣本。我們希望這些樣本均值有什麼變化?如果這種變化太大,我們就拒絕假設MI=A2 =13=P4 =/450 為了評估5個樣本均值的變化,我們需要知道來自正態總體的容量為25 的隨機樣本得到的樣本均值的抽樣分佈。由第四章,我們知容量為25的隨機樣本的樣本均值的抽樣分佈的均值與總體的均值p相同,而方差為。2/25,5個容為25 的隨機樣本均如此,我們可以利用公式 5個樣本均值的樣本方差= (3-y.)3 5-1 估計樣本均值的分佈的方差。”/25,這裡 .=2 23:/5是5個樣本均值的平均。 注意,我們僅僅是把各個乏作為有5個觀測值的一個樣本,並計算了該樣本的“樣本方差”。如上式子是對。/25 的估計,從而25×(均值的樣本方差)是對。 的估計,將其記為s;下標B表示5個總體的樣本均值間的變異性。 在零假設下,5個總體的均值是相等的,我們有。”的兩個估計,分別為品, so假定用比值 S/s 作為檢驗假設x1=p42=p3=p4=pS的檢驗統計量,那麼如果我們一次又一次重複試驗並計算s及s,s/s的分佈是什麼樣的呢? 對於我們的例子,s/s服從下分佈,s的自由度是df。=4,Sw2的自由度是 df =120,關於該結論的證明超出了本書的討論範圍。我們將利用這個結果去檢驗零假設 1=M2 =A3 =HA -450 檢驗總體均值相等的檢驗統計量是
8.2 兩個以上總體均值的統計檢驗:方差分析•421• F=路/弦當零假設為真時,s和s可作為。的估計且F 的取值任1附近。當零假設為假時,由子總體均值間的不同,s將大於s。所以,在F=8/s的分佈的上尾部就拒絕零假設。對a=0.05,F= /s的臨界值是2.45。(看圖8.4)如果F的計算值落在拒絕域內,我們就認為不是所有個總體的均值是相等的。 fF) 面積=0.05 一-F 2.45 圖8.4 a=0.05, df=4,df=120時,F的臨界值稍微修改一下公式,這個方法就可以推廣到檢驗方差相等的:(大於等子2的整數)個正態總體均值的相等的假設。來自於各個總體的樣本容量分別為加1, *2,⋯,2,然後我們可以計算樣本均值和樣本方差。取備擇假設為“至少有一個總體的均和其他是不相同的”,來檢驗零假設 pA)= 2 =…=M20 在表述一般化的檢驗方法之前,我們引入一些關於:和s的公式中使用的記號。 對:個不同總體的每一個進行觀察而得到,個隨機樣本的試驗方法稱為一個完全隨機化設計。考慮從5個總體中的每一個進行4次觀察的一個完全隨機化設計。如果我們用y;表示總體i的第;次觀察,則可以把這個完全隨機化設計的梯本資料列在表8.5中。使用表8.5,在進行一個完全隨機化設計的方差分析 (AOV)時,我們可以引入一些有用的記號。 總體 1 2 3 4 5 衰8.§ 完全箱機化設計的樣本資料資料 --…-…… Y11 ¥21 331 ¥4 ¥31 Y12 Yzz ¥32 ¥23 ½33 ¥42 252 ¥53 $14 324 ¥34 ¥4 ¥54 均值 $2. J3. $.
• 422• 第八章兩個以上總體的中心值的推斷一個完全隨機化設計的方差分析所需要的記號 2:總體;的第;個樣本觀察值,例如,223表示來自於總體2的第三個樣本觀察值。 7總體i的樣本觀察值的個數。在我們的資料集中,71=4是總體1的樣本觀察值的個數,類似地有r2=n3=n4 =ns=4。然而,樣本容量不一定是相等的,例如我們可以有71=12, 2=3,n3=6,n4=10等等。 nT:總樣本容量,nr =≥ ni。對錶8.5中所給的資料,nr=n1+ n2+ ns + 74+15=20。 3:總體:的n,個樣本觀察信的平均,3一二o/m。 3.:所有樣本觀察債的平均,J.=二yifnr。 用這些記號,我們可以建立下列代數恆等式(雖然在下列計算s和s時要用到這些結果,但這些恆等式的證明不在本書中列出),令子是nr 個樣本觀察值3 的樣本方差,我們可以用量來表示 *r 個樣本觀察值y;關於總的均俏了的變異性。這個量被稱作是關於總的均值的總平方和(記為TSS),在TSS 中的雙連加號表示的是對所有行和列的求和。 總平方和可以分解如下: 等式右邊的第一個量反映了觀察值 v;關於它的樣本均值了.的變異性。所以, 是一個樣本內的變異性的度量,SSW 被稱為樣本內平方和且用於計算s。 總平方和等式中的第二個表示式反映了樣本均值了,關於總的均值了的變異性,這個量說明了樣本均值間的差異,被稱為樣本間平方和(SSB)且用於計算 s。 SSB= 2n:(3:. -3..)2 雖然關下TSS,SSW,SSB 的公式很容易解釋,但計算卻不太方便,我們可以利用計算機軟體包來計算。 關於:個總體的完全隨機化設計的方差分析,有如下的零假設和備擇假設: Ho:A1=K2=⋯-A H。:1個總體的均值至少有一個和其餘的不同甘s和s可由下列公式計算
8.2 兩個以上總體均值的統計檢驗:方差分析•423• sk= SSB/(t-1) S= SSW/(nr-t) 這裡!-1和nz一1分別表示S及s的自由度。 歷史上,人們曾經用自由度去除平方和,並把所得的值稱為均方,所以經常被叫作樣本間的均方,s被叫作樣本內的均方。由於這些量都是偏差的平方的平均,所以被叫作均方。因為對個樣本的每一個都有二,(3 .)=0,在SSW中僅有 nr 1個線性無關的偏差y一3,所以SSW用nT一1 去除而不用nT。類似地,因為乙:(豆.一)=0, 在SSB 中僅有:-1個線性無關的偏差立.一子,所以 SSB用t-1去除。 如果 F=S/ 的值超出了對a=4,d= 1及df=nz一t查表所得的值,則拒絕委假設。 在完成了 F檢驗後,我們把方差分析總結在一張表中,稱為方差分析喪,簡記 WAOV表。AOV 表的格式如表8.6,AOV 表的第一列列出了方差的來源,第二列是與方差來源相關的平方和。我們已經證明了總平方和(TSS)能被分成兩部分, 所以在 AOV 表中,SSW 和 SSB 相加必等於TSS。表中的第三列是和方差來源相關的自由度,我們可驗證(t-1)+(nr-t)= 雙 —1。均方被列在第四列,關於個總體均值相等的F檢驗列在第五列。 表8.6 憲全隨機化設計方整分析的一個例子來源平方和自由度樣本間 SSB 樣本內 SSW 均方 S=SSR/(1-1) 品=S5W/(nr-1) 總和 TSS NT 1 F檢驗滑/品例8.1 一個園藝學家調查三種不同種類蘋果樹(1.2 和 3)樹葉的含磷量,從三種不同種類蘋果樹中的每一類取5個樹葉的樣本進行含磷量分析,資料見表8.7,用這些資料檢驗假設“三種不同種類蘋果樹的平均含磷水平是一樣的”,取 a=0.05。 爽8.7 三種不同種類蘋果樹樹葉的含磷量種類 1 2 3 總和含磷量樣本容量 0.35 0.40 0.58 0.50 0.65 0.70 0.90 0.84 0.60 0.80 0.75 0.73 0.47 0.79 0.66 5 5 5 15 均值 0.460 0.776 0.708 0.548 方差 0.00795 0.01033 0.00617
• • 424• 第八章兩個以上總體的中心值的推斷解答零假設和備擇假設是 Fo:K=42-從3 Ha:3個總體的均值不全相等樣本容是 n1=N2=73=5,且n =15。利用樣本均值和樣本方差,樣本內和樣本間平方和是 SSB = n:(3.-3.) i-1 = 5(0.46 - 0.648)2 + 5(0.776- 0.648)2 + 5(0.708- 0.648)2 = 0.277 SSW= (n:-1)s (5-100.00795)+(5-1)(0.01033)+(5-1)(0.00617)= 0.0978 從而 TSS=SSB+SSW=0.277+0.0978=0.3748 關於這些資料的AOV 表見表8.8。由附錄中的表8可查得對a=0.05,df, = 2, df=12, F=s/s的臨界值是3.89。而我們計算得F 的值為17.25,大於 3.89,所以拒絕零假設。從資料中可以看出,種類1 的均值小於種類2和種類3的均值。 來源樣本問樣本內總糊平方和 0.277 0.0978 0.3748 表8.8 例8.1的方差分析表自由度均方 2 12 14 0.277/2=0.138 0.0978/12=0.008 F檢驗 0.138/0.008=17.25 例8.2 一個診所的心理醫生想要比較減少大學生敵意水平的三種方法,他使用了某種測試(HL.T)以度量敵意程度。測試中的高分表示敵意度大,心理醫生取出了試驗中得到高分及分數較接近的24個學生。24個學生中隨機選取8個用第一種方法治療,餘下的16箇中隨機選取7個用第二種方法治療,另外9個學生用第三種方法治療,所有的治療均連續進行一個學期,每一個學生在學期末都作一個 HLT 測試,結果見表8.9。利用這些資料做方差分析以確定是否三種方法的平均分有差異,取a=0.05。
8.2 兩個以上總體均值的統計檢驗:方差分析•425, 表8.9 HI.I測試得分方法 1 2 3 溯試分 96 79 91 85 83 91 82 87 77 76 74 73 78 7180 66 73 69 66 77 73 7170 74 均值 86.750 75.571 71.000 標準差 5.625 3.101 3.674 樣本容量 8 9 解答零假設和備擇假設是 Hn:AI=M2=43 Ha:3個總體的均值不全相等對n1=8,12=7,13=9,我們有總樣本容量8r =24。使用表中所給的樣本均值,可計算24個資料的總體平均值二n ./n=(8(86.750)+7(75.$71)+9071.000))/24 = 1861.997/24 = 77.5832 利用此值及表8.9中的均值和標準差,三個平方和計算如下: SSB = 7(7. -.)2 = 8(86.750 - 77.5832)2 + 7(75.571 - 77.5832)2+ 9(71 - 77.5832)2 = 1090.6311 SSW= (ni-1)3 = (8-1)(5.625)2+ (7-1)(3.101)2+(9 -1)(3.674)2= 387.1678 從而 TSS=SSB+SSW=1090.6311+387.1678=1477.80。方差分析表見表 8.10。 來源樣本間樣木內總利平方和 1090.6311 387.1678 1477.80 表8.10 例8.2中資料的方差分析表自由度均方 2 545.316 21 18.4366 23 F檢驗 545316/18.4366=29.58 p值 ≤0.001
• 426• 第八章兩個以上總體的中心值的推斷對a=0.05, df =2,df =21,由附錄中表8可查得F 的臨界值為3.47,而F 的計算值為29.58,大於臨界值3.47。所以,拒絕零假設 Ho。由於從表8知,對 df =2,dh=21、F 的最大值為9.77,其對應的=0.001,因而,本題相當強地拒絕 Ho。從三個樣本均值中可看出,方法1的均值大於方法2及方法3的均值。研究人員還需進一步確定是所有三個總體的均值不相同,或方法2和方法3的均值相同,亦即我們要給出三種方法的均值以及它們差的置信區間,這將提供給研究人員所關心的三種方法差異程度的資訊。在下一章,將給出構造這些型別推斷的技巧。 下面的計算機輸出結果與我們這裡得到的結果是一致的。注意在這些計算機列印出的結果裡,平方和的名字與上面表中的不同,樣本間的平方和是用總體的名字標出的,在此例中為“METHOD”,樣本內平方和則常標為“ERROR”(誤差平方和)。 General Linear Hodels Procedure Class Level Information Class METHOD Levels Values 3 123 Pumber of observat ions in data set = 24 Dependent Variable: SCORE Source Mactel ETTOr Corrected Total DF 2 21 23 Sum of Squares 1090.61904762 387.21428571 1477.833333333 F Value 29.57 Pr>E 0.0001 練習應用 8.1(農業)一個大的實驗室有四種測試土壤樣本pHl 值的裝置。實驗室想要確定四種裝置測得的平均值是否有差異,實驗人員選取了24種在研究中pH 值已知的土壤樣品,每個裝置隨機指定6個樣品進行測試,記錄下的響應值為測試值與已知值的差。這些值見下表
8.2 兩個以上總體均值的統計檢驗:方差分析•427. 樣本裝置 1 2 3 4 5 6 樣本容量均值標準差 A -0.307 -0.249 -0.079-0.019 -0.136-0.324 6 -0.1605 0.1767 B -0.176 0.125 -0.013 0.082 0.091 0.459 6 C 0.137 -0.603 0.240 D -0.042 0.690 0.201 -0.050 0.318 0.166 0.219 0.154 6 0.407 6 0.0947 0.2091 0.1227 0.1532 0.2735 0.2492 a.憑你的直覺,有理由認為四種裝置測得的平均pH 值有任何差異嗎? b.利用方差分析,確認或否定你在(a)中的結論(a =0.05)。 •計算(b)中F檢驗的值。 1.在什麼條件下,你在(b)、《c)得到結論才是有效的? e•假設24個土壤樣品的 pH值有很大的不同,隨機指定土壤樣品到不同的裝置會發生什麼問題? 8.2(商業)一個香菸製造商做廣告稱,發明了一種新品牌的香姻,此香菸的焦油含量比其他主要品牌的低。為驗證他的說法,一個消費者測試機構隨機從4 個主要品牌香菸中選擇了 100支,從新品牌中選擇了100支,香菸的焦油含量結果如下: 品牌低焦油 A B C D 9.64 10.22 10.77 11.57 13.59 0.291 0.478 0.372 0.352 0.469 100 100 100 100 100 a.從盒形圖提供的資訊看,新品牌的香菸平均焦油含量比其他品牌低嗎? b,利用計算機輸出的結果,5種品牌的香菸平均焦油含量有很大的不同嗎 (a=0.05)? c.(b)中檢驗統計董的p值是多少? d. 對(b)中的檢驗,犯第一類錯誤的實際含義是什麼?
• 428• 第八章兩個以上總體的中心值的推斷 15 14 13 12 11 10 9 低焦油 A B 品牌 c 表中資料的盒形圖見上(均值用實圓點表示) One-Way Analysis of Variance for Exercise 8.2 Analysis of Variance for Tar Cont Source DF SS Brand 4 941.193 Error 495 78.784 MS 235.298 0.159 F 1478.39 Total 499 1019.976 P 0.000 D Level 1 2 3 4 5 N 0ouo 100 100 Pooled StDev = Mean 9.644 10.221 10.775 11.570 13.592 0.399 StDev 0.291 0.478 0.372 0.352 0.469 Individual 95 & CIs for Mean Based on Pooled StDev -+。 *) *) (* *) *) -+- 9.6 — + 10.8 -+ 12.0 13.2 8.3 完全隨機化設計中觀測值的模型在這一節,我們考慮完全隨機化設計的模型(有時稱為單向分類模型)。這個
8.3 完全隨機化設計中觀測值的模型•429• 模型將說明方差分析的檢驗方法是恰當的;我們可以把此模型認為是一個物理背景的數學描述,這也可使我們對物理過程產生的資料進行計算機模擬。 我們假定涉及的樣本觀察償及從中抽取樣本的總體滿足如下條件: 1.樣本是獨立隨機樣本,一個樣本的結果對另一個樣本的觀察值沒有任何影響。 2. 每一個樣本來自於正態分佈。 3.總體i的均值和方差分別為和 (1,2,,)。 圖8.5描繪了三個條件均滿足時的一種情形。總體的分佈是正態分佈且具有相同的標準差,其中總體和N的均值相同,工和五的均值不相同。總之,我們已假定:個總體是獨立的正態分佈,它們的均值不相同,方差均為。。 1.5 1.0 皿,I 0.0 4 6 8 10 12 14 } 圖8.5 滿足方差分析假設的4個總體的分佈現在我們能用公式寫出滿足三個假設的一個模型(方程)、如隊前,令3;表示總體;的第;個樣本觀察值。 Yi=K+ai+Ei 這個模型表明y是三項的和,項y表示總平均值,是一個未知常數;a:表示總體: 的效應,它也是一個未知常數。這裡,4表示的是所有:個總體的總均值,也就是所有:個總體包含的觀察值構成的總體的均值,a:表示的是總體之對觀察值的總變異的效應,、Q:是未知常數,它們可由研究或實驗的資料來估計。6u表示的是3 關於第;個總體的均值x:的隨機偏差,ey經常被作為誤差項,但這個“誤差”不能被解釋成試驗中所犯的錯誤,其實e。表示3;關於它們的均值A:的隨機變異。“誤差“這個詞只不過表明了來自於:個總體的觀察值之間的差異不只是它們的均值
•430• 第八章兩個以上總體的中心值的推斷之間的差異這一事實。假設。;服從獨立的正態分佈,均值為0,標準差為。,獨立性這一條件可被解釋如下:2;的觀察值與p:的偏差的大小對其他觀察值的偏差的大小沒有影響。 由於yi是來自於第;個總體的觀察值,所以它的均值為pA:而e,服從均值為 0的分佈,yi的均值記為E(yig)且有 fi= Elyy)= Ely+a+E= +a+E(ei)=p+ai 也就是說y;是從均值為pe +a 的總體隨機挑選的觀察情。所以,效應a:表示了第;個總體的均偵p:和總體均值p的偏差,因而 a:可以是正數、零或負數,即總休; 的均值可以大於、等於或小於總體的均值p。可以證明,個總體中的每一個的方差均為o。最後,因為:是正態分佈,所以:個總體均服從正態分佈。關於單向分類的假設綜合如下表8.11。 表8.11 關於完全隨機化設計的假設總體方差總體 2 總體均值 +a1 H+ a2: K+a: 樣本觀測 … Y21222 ¥2m2: 單向方差分析的零假設是 1=⋯=p。利用我們的模型,它等價於零假設 Ho:a1 = a2=…=R=0 如果H。為真,則所有總體均有未知均值p。確實許多教科書把後者作為一個完全隨機化設計的方差分析的零假設。對應的備擇假設是 H:至少有一個 a:不為零。 在這一節,我們已經對一個完全隨機化設計的方差分析的模型做了簡略的描述,雖然一些作老從其他渠道考慮模型,但我們相信,這是方差分析討論所必需的部分。 我們已經對選擇資料的總體,或等價地說對資料被生成的試驗施加了幾個條件。所以在用方差分析表做推斷前,需要驗證這些條件。在第七章,我們討論瞭如何利用 Hartley Fmex檢驗或 Levine 檢驗去檢驗方差是相等的這一條件。除非總體是嚴重偏倚的或是厚尾的,在大樣本情形下,正態性這一條件不象方差是相等的這一條件要求那麼嚴格;在小樣本條件下,正態性和方差是相等的這些條件變得更加關鍵。由於通常對每個總體沒有足夠的觀察值用於檢驗正態性和方差是相等的這些條件是否滿足,這就提出了一個問題。在下一節,我們將討論一個技巧,至少能
8.4 方差分析條件的檢查•431• 部分地克服這個問題。另外,在本章最後一節,將提出當總體的方差不相等以及總體不服從正態分佈時,用來代替方差分析的一些方法。如第六章中所指出的,我們討論的三個條件中最關鍵的是資料的獨立性。這個條件可以透過仔細地實施研究或試驗,避免觀察值之同的相依性得到滿足。在從:個總體中隨機選擇資料時,一定要小心,以保證資料是隨機的且從一個總體中得到的樣本值不依賴於從另一個總體中得到的樣本值。如在試驗中,1個處理是隨機地分配給試驗單元的,我們就需要確保每個處理真是隨機地被分配的。還有,在試驗中必須保證試驗單元之間不相互影響,以免影響它們的響應值。 8.4 方差分析條件的檢查總體方差是相等的及總體服從正態分佈的假設在本書中的幾個地方被用到, 如比較兩個總體均值的:檢驗及完全隨機化設計中方差分析的F檢驗。 讓我們先考慮比較:個總體均值的試驗,每個總體的隨機樣本是獨立的。我們重申這裡的總體均服從方差為。?的正態分佈,但均倩可能不同。我們利用第七章中的 Hartley 檢驗或 Levine 檢驗去檢驗方差是相等的這一假設。 這裡有幾點需要提及,許多實際工作老日常不使用 Hartley 檢驗,一個原因是此檢驗對正態性的違反特別敏感,所以在檢驗方差相等時,不得不很關心方差分析的另一個假設(總體的正態性)。幸運的是,在第六章我們提到,在樣本容量幾乎相等的情況下,總體方差齊性(相等性)的假設不是很關鍵的,方差可以差別很大而方差分析的值稍微有一點變化。所以我們只在更為極端的情形下推薦使用 Hartley 檢驗或 Levine 檢驗。在這些總體方差性是一個問題的極端情形下,利用數據的變換可能穩定這些方差,此時可以用方差分析進行推斷。 同我們在第五章及第六章討論的一樣,當樣本容量相對較大時,我們可以利用正態機率圖或盒形圖去檢測總體分佈的正態性。然而,在許多試驗中,來自於每個總體的樣本容為S到10,在這種情形下,就總體分佈是否是正態的這一點來說, 圖所揭示的結果就不大可靠。利用前節所介紹的模型去考慮,正態條件的評估可使用殘差分析來進行。 方差相等的條件是可用的,則這些e;就是來自於一個正態總體的隨機樣本。雖然 P:是一個未知常數,但如果我們用虧估計 A;並令 ei = Yi - 3i. 那麼我們可以用e;去估價正態性假設。即使每個n:是很小的,我們也有x.7個殘差,它們可以提供充分多的值去評價正態性條件,我們可以在盒形圖裡或正態圖裡畫en 去評價資料是否是由正態總體產生的。
• 432• 第八章兩個以上總體的中心值的推斷例8.3 因為許多 HMO 組織或者不付心理健康的費用,或者只提供最低限度的關照, 牧師和神父們經常需要給遭受心理疾病的人以忠告。一個由不同宗教派別所共有的組織想要確定不同宗教派別的神職人員相對於心理疾病的原因的認識水平,抽取了三個隨機樣本,第-個樣本包括了10個衛裡工會的牧師,第二個包括了10個天主教的神父,第三個包括了10個猶太教的神父。30 個人中每一個都被測試,使用標準的筆試以檢測他們對心理疾病原因的知識,測驗分數列於表8,12,三個宗教人員的平均測試分是否有顯著的不同? 職員 1 2 4 5 6 7 8 9 10 § 中位數(3) 表8.12 神職人員心理疾病知識的測試分數衛裡工會天主教 62 62 60 62 60 24 25 24 24 22 23 20 20 19 10 12 6 30.50 21.66 10 23.5 8 8 25.90 20.01 10 21 猶太教 37 31 15 15 14 14 14 5 3 2 15.00 11.33 10 14 解答在進行三個均值的方差分析之前,我們需要評估方差分析所要求的條件是否被滿足。圖8.6是關於心理疾病分數的盒形圖,可看出資料稍微有點向右偏。因而,我們要評價正態性條件。為此,需要知道殘差e=2一3,例如e11= 311-31.-62-30.50=31.50,其餘的ey在表8.13 中給出。
8.4 方差分析條件的檢查•433• 60 50 得分 40 30 20 10 0 職員 1 2 3 •4 5 6 7 8 9 10 1 2 宗教 3 圖8.6 三個宗教得分的盒形圖(均值用實心圓點表示) 表8.13 神職人員關於心理疾病知識得分的殘差ey 衛裡工會天主教 31.5 29.5 29.5 -5.5 =6.5 -7.5 -10.5 -17.5 -18.5 -24.5 36.1 36.1 -1.9 -1.9 -3.9 -5.9 -6.9 -15.9 -17.9 -17.9 猶太教 22.0 16.0 0.0 0.0 -1.0 -1.0 -1.0 -10.0 - 12.0 -13.0 殘差被畫在圖8.7和圖8.8中。圖8.8的盒形圖表明30個殘差中有三個離群值。如果殘差是正態分佈的一個隨機樣本,資料值中有10%為離群值是不太可能的,這也被圖8.7所示的正態機率圖所證實。圖8.7表明殘差沒有集中在直線附近。更進一步,正態性檢驗的值小於0.001,這表明不符合正態性,所以結論是資料有非正態特徵。在8.6節,我們將提供一個方法,以代替方差分析中的F
•434• 第八章兩個以上總體的中心值的推晰檢驗,這個方法適合於該例中的情況。 0.999 0.99 0.95 0.80 0.50 0.20 0.05 0.01 0.001 -20 Average:-0.0000000 Stbev:17.5984 N:30 -10 0 殘差 10 20 30 Anderson -Darling Normality Test A-Sguared:1.714 P-Value:0.000 圖8.7 殘差的正態機率圖差殘 40 30201001 -10- -20- -30L: 圖8.8 殘差的盒形圖由於資料可能是非正態的,使用 Hartley Fmox檢驗去檢驗方差的相等是不適當的,所以我們將使用I.evine 檢驗。對Levine 檢驗公式進行考察發現,如果我們把資料y;換為x =13i 3;1.這裡了是第之個資料集的樣本中位數,Levine 檢驗等價於把方差分析應用到z的F檢驗,因而我們可以簡單地使用方差分析的公式去對 Levine檢驗進行計算。用表8.12的中位數,zj列在表8.14。
8.4 方差分析條件的檢查•435. 職員 1 2 3 4 5 6 7 8 9 10 hi 表8.14 變換後的資料集:4=18一列1 衛裡工會天主教 38.5 41 36.5 36.5 1.5 0.5 0.5 3.5 10.5 11.5 17.5 15.70 15.80 3 3】 1 2 11 13 13 12.90 15.57 猶太教 23 17 1 1 0 O 0 9 11 12 7.40 8.29 使用在表中給出的樣本均值,我們來計算30個資料值的總均值: 3 二n:./nr =[10(15.70)+ 10(12.90) + 10(7.40)]/30 = 360/30 = 12 用該值及表8.14中的均值及標準差,我們可以計算下列平方和: 3 S$B= = 10(15.70- 12)2 + 10(12.90- 12)2 + 1007.40-- 12)2 = 356.6 SSW= Z(ni-1)5N = (10 -1)(15.80)2 + (10 - 1)(15.57)2 + (10- 1)(8.29) = 5.047.10 均方是 MSB=SSB/(1-1)=178.3 和MSW=SSW/(nr t)=186.9。最後,我們從 L.=MSB/MSW=178.3/186.9=0.95 得到 Levine 檢驗統計量的值,對a= 0.05,從 df =2、df=27的F 表中可查得L的臨界值是3.35,所以我們接受標準差相等這一零假設。因為在 df =2、df =27的F表中,最小值是1.46,對應的概率是0.25,因而p值大於0.25。這樣,我們有很高的置信度認為三個總體有相同的方差。 在8.6節,我們將提出 Kruskal-Wallis 檢驗,它能用於總體是非正態的,但在零假設下有相同分佈的情形。這個檢驗至少要求總體有相同的方差,所以
•436• 第八章兩個以上總體的中心值的推斷 Kruskal-Wallis檢驗對總體有不同方差的情形是不適當的。下一節將提出一個在總體方差不相等時檢驗總體均值差異的檢驗方法。 索例中的資料分析研究的目的是評價胎痣的治療對十年輕的人是否比對年長的人更有效。資料的概括統計量如下。 Descriptive Statistics for Port-Wine Stain Case Study Variable 0-5 6-11 12-17 18-31 Years Years Years Years N 21 24 21 23 Heen 4.999 7.224 7.757 5.682 Median 6.110 7.182 7.316 4.865 TrMean 4.974 7.262 7.270 5.531 StDev 3.916 3.564 5.456 4.147 SE Hean 0.855 0.727 1.191 0.865 Variable 0-5 6- 11 12-17 18- 31 Years Years Years Years Minimm 0.144 0.198 0.108 0.504 Maximam 10.325 13.408 24.716 14.036 Q1 1.143 5.804 3.528 2.320 23 8.852 8.933 10.640 8.429 從圖8.1看到,盒形圖有相同的寬度,沒有離群值且須長相同。對四個年齡組來說,均值和中位數相近,所以方差分析的假設似乎是滿足的。為驗證這個觀察, 我們計算了殘差並把它們畫在一個機率圖上(見圖8.9)。從此圖可看到,除一一個 3 • 21 正態得分 0- -1 -2 -3 0 10 20 殘差圖8.9 案例中殘差的正態機率圖
8.4 方差分析條件的檢查•437• 資料點外都落在直線附近,這足以說明,皮膚顏色改進的四個總體服從正態分佈。 其次,我們使用 Hartley檢驗或Levine 檢驗去檢查方差相等這一假設。對 Hartley 檢驗,我們有 (5.46)2 Fmax = (3.564)2=2.35 對a=0.05、df=20、1=4,Fmx的臨界值是3.29。由於樣本容量不等,這個檢驗僅是一個近似。然而,樣本容量非常接近,分別為21、21、23和24。因為Fmax不大於3.29,沒有足夠的證據表明四個總體的方差是不同的。對於 Levine 檢驗,有L =1.050,其值是0.375,這說明與Hartley檢驗是一致的。我們有理由認為方差分析中的正態性和方差相等的條件是滿足的。資料的獨立性可以透過就研究進行的方式與研究者進行討論來檢查。治療的次序以及胎患顏色的評估應當確保一個病人皮膚顏色的改善不影響另一個病人顏色的改善。 在這種型別的試驗中,可能會由於裝置、技術人員的偏差、病人間的任何關係及其他相似的因素引起資料相關的問題出現。 研究假設是治療後胎顏色的平均改善對四個年齡組是不同的: Ho:從1=12=43=44 Ha:至少有兩個均值不相等關於方差分析表的計算結果如下: One-Hay Analysis of Variance for Improvenent in Stain Color Source Age Group Error Total DF 3 85 88 SS 108.0 1572.5 1680.5 HS 36.0 18.5 F P 1.95 0.128 Individual 95 * CIs for Mean Based on Pooled StDev Level 0-5 06- 11 12-17 18- 31 N 21 24 21 23 Pooled StDev = 4.301 Mean 4.999 7.224 7.757 5.682 stDev 3.916 3.564 5.456 4.147 •••⋯] (- 4.0 -十 6.0 8.0 10.0
•438• 第八章兩個以上總體的中心值的推斷從中看出,F檢驗的p值是 0.128,所以四個年齡組的平均改善沒有顯著的不同。我們可以計算置信度為95%的平均改善的置信區間,四個區間在計算機的輸出結果中已給出。它們是用組合標準差=JMSW =/18.5=4.30 得到的,df= 85,所以區間有形式 =3士$1.99)44.302 Vn: 四個區間表示如下: 年齡組 0~5 6~11 12~17 18~31 4.999 7.224 7.757 5.682 95%置信區同 3.13.6.87 (5.48,8.97) (5.89,9.62) (3.90,7.47) 從置信區間能得到四個組中胎痣顏色的平均改善估計的總效應,最年輕一組的改善最小,但其上界大於改善最大的年齡組的下界。這種型別的判決的問題在於這些置信區間不是同時置信區間,所以不能給出結論的置信水平。在下一章,將提出均值的同時置信區間,因而可確定不同年齡組是否有顯著的差異。但是,在我們研究的情形中,因為方差分析中F檢驗接受零假設,所以結論是不同年齡組沒有顯著差異。 研究者不能確證早期治療比晚期治療有效的假設。他們的確作出結論,暗示治療時間應選擇在兒童期。雖然面部的胎痣可以在早期有效、安全地得到治療,但遲後的治療也有相似的結果。所以開始治療的年齡應基於對預期的益處及治療時的不適的謹慎衡量。 報告結論我們需要寫一份報告,以總結在關於胎痣治療的前瞻性研究中所得到的發現。其內容應包括: 1.研究目的的陳述。 2.研究設計及資料收集過程的描述。 3.為什麼100個病人中的11個沒有包括在資料分析中的討論。 4.資料集的數值和圖形概括。 5.所有推斷方法論的描述: • 方差分析表和 F 檢驗; • 均值的基下:的置信區間; •所有推斷方法使用的必要條件被滿足的驗證。
8.5 其他的分析方法:資料變換•439• 6.結果和結論的討論。 7.相對於從前的研究,新發現的解釋。 8.進一步研究的建議。 9.列出資料集。 8.5 其他的分析方法:資料變換樣本資料的變換是把原始尺度下的測量值系統地轉化為新尺度的一個過程。例如,如果原始變數是y,且與備個處理下該變址的方差是不相等(非齊)的, 那麼,就可能需要引進一個新的變數,諸如/y、1ogy 或其他變換產生的變。 如何選擇適當的變換呢?這不是一件容易的事,需要實驗者在應用領域內有大量的經驗。儘管有這樣的困難,但對選擇合適的變換我們有幾條指導原則。 經常我們感興都的各個總體的方差是不同的,並且隨總體均值的大小而變化。 例如,可能總體均值越大,總體的方差也越大。當我們能識別方差怎樣隨總體均值變化時,我們就可以定義一個合適的變換從變數到新變數yT。三個特別情形見表8.15。 表8.15的第一行說明,如果,是一個泊松隨機變數,則y的方差等於y的均值,所以均值不同,方差也不同。穩定化方差的變換是yT=V,或者如果泊松分布的均價是小的(5以下),變換y +0.375更好。 衰8.15 獲得一致方差的變換 x和。間的關係 YT kp(當 =1, 是一個泊松分佈隨機變數) 或 +0.375 d2=k2 T k 或5og(y+1) kT(1 不)(當 =1/n, y是二項分佈隨機變數) Yr=arcsinds Y7的方差(對給定的k) 1/4:(k=1) 1;(k-1) 1/4m:(k-1/m) 例8.4 海洋生物學家正在研究墨西哥灣大量的蝦及商用魚的重要變化,密西西比河進人海灣的區域是最受關注的區域之一。生物學家假設富營養的水流入海灣,這些水主要包含來自中西部農田的氮,這導致了浮游生物賴以生存的藻類的快速生長。細菌則以浮游生物排洩物和死藻類為生,消耗了水中的氧。不大移動的海洋生物因缺氧而死亡時,善於移動的海洋生物則逃離了這一區域。為了調查這一狀
•440• 第八章兩個以上總體的中心值的推斷況以確定從密西西比河人口處開始的四個區域的平均溶解氧含量(以ppm計),在四個區域的每一箇中,從海底12米處取10個水樣的一個隨機樣本,樣本資料見表 8.16,牛物學家想要檢驗平均氧含量是否越靠近密西西比河入口處越低。 水樣 1 2 3 4 5 6 7 8 9 10 均值標準差表8.16 離人口處4 個距離的平均溶解氧的含量(以 ppm 計) 距入海口的距離 —— 1公里 1 s 2 1 2 2 4 3 0 2 $1=2.2 S1-1.476 5公里 4 8 2 10公里 20 26 24 3 8 s 6 4 3 3 $2.=4.6 S2=2.119 28 20 19 19 21 24 $3.=21.2 Sg =4.773 20公里 37 30 26 24 41 25 36 31 31 33 $4 =31.4 SA=S.522 日.對 a=0.05,作總體方差相等的檢驗。 b.如果必要的話,對資料進行變換,使得變換後的新資料集中的觀察值有相同的方差。 解笞 a.圖8.10描述了資料的盒形圖,資料沒有明顯的偏倚或厚尾,所以我們使用 Hartley F mnex檢驗,a=0.05 Fmex- 5.2222/1.4762= 14.0 對a=0.05,1=4,df=10-1=9,Fmax的臨界值是6.31。因為 Fmex的值大子 6.31,所以拒絕總體方差相這一假設。 b.檢查一下樣本均值了.和樣本方差:?間的關係。 $/$1= 0.99 s3/$2. =0.97 83/$3. =1.06 63/94.= 0.97
8.5 其他的分析方法:資料變換•441• 40 30 20 10 0 1公里 5公里 10公里 20公里圖8.10 1~20公里的盒形圖(均值用實圓點表示) 所以=kMi,k~1。從表8.15,取變換為yT=v +0.375,yr的值以及它們的均值和標準差見表8.17。雖然原資料有不同的方差,但正象表8.17指出的那樣, 樣本方差均接近於0.25。 水樣 1 2 3 4 5 6 7 8 9 10 均值方差表8.17 表8.16中資料的變換:J=vy+0.375 距入海口的距離 1公里 1.173 2.318 1.541 1.173 1.541 1.541 2.092 1.837 0.612 1.541 1.54 0.24 5公里 10公里 2.092 4.514 2.894 5.136 1.541 4.937 1.837 3.373 2.894 5.327 2.318 4.514 2.525 4.402 2.092 4.402 1.837 4.623 1.837 4.937 2.19 4.62 0.22 0.29 20公里 6.114 5.511 5.136 4.937 6.432 5.037 6.031 5.601 5.601 5.777 5.62 0.24 表8.15中的第二個變換是針對總體方差近似等於總體均值的平方這樣一個
•442• 第八章兩個以上總體的中心值的推斷試驗的情形,或等價地,a= 的情形。實際上,當變異係數d/p:為常數時,對數變換總是合適的。 例8.5 急性腸綜合症(IBS)是不明確的腸紊亂,有腹痛及不規則的腸運動的特徵。在週期性得IBS的24個病人的隨機樣本中,每一個人被隨機地指定到三個治療組 A、B3、C中的一個。治療時,解除病痛的小時數記錄在表8.18。 A 4.2 2.3 6.6 6.1 10.2 11.7 7.0 3.6 $=6.46 $=3.22 表8.18 治療時解除疼痛的小時數處理 B 4.1 10.7 14.3 10.4 15.3 11.5 19.8 12.6 =12.34 s=4.53 C 38.7 26.3 5.4 10.3 16.9 43.1 48.6 29.5 $=27.35 $=15.66 日.用a=0.05,檢驗個總體方差間的差異。 b.因為值均非零,使用變換yT=Iny(In 表示以e為底的自然對數)穩定化方差。 c•對變換後的資料,計算樣本均值和樣本標準差。 解答 2. 關於零假設 Ho:好}=吃=0二好的 Hartley Fmax檢驗是 Fmex = 15. 663/3.222 =245.24/10.37 -23.63 F mnx的計算價超過了6.94(對 &=0.05, t=3, df=7 的查表信),所以拒絕 H0,即總體的方差是不相等的。 b.變換後的資料列在表8.19。注:自然對數使用計算器或計算機程式來計算。
8.5 其他的分析方法:資料變換•443. A 1.435 0.833 1.887 1.808 2.322 2.460 1.946 1.281 表8.19表8.18 中資料的自然對數處理 B 1.411 2.370 2.660 2.342 2.728 2.442 2.986 2.534 C 3.656 3.270 1.686 2.332 2.827 3.764 3.884 3.384 c.變換後資料的樣本均侑和標準差列在表8.20。關於變換後資料方差齊性的 Hartey F max檢驗是 F mnex = 0.772/0.462= 2.80 F mox的計算值是2.80,它比查表值6.94小,所以我們接受H。,即沒有充分的證據說明總體的方差有差異,因而變換產生的資料中,三個方差接近相等。 表8.20 表8.19 中資料的樣本均值和標準差樣本均值樣本方差 A 1.75 0.54 處理 B 2.43 0.46 C 3.10 0.77 在表8.15中所列的第三種變換對以比率或分數記錄的資料是特別合適的。 在第四章,我們介紹了二項分佈,這裡»指的是1次試驗中的成功數,永=y/n是 x 的估計,這裡x表示的是總體中具有此特徵的試驗單元的比例。雖然在研究二項分佈時沒有提到元,但它的方差由x(1-)/n給出。所以,如果對應的變數是元,它是由n個觀察值組成的隨機樣本中的成功率,則元的方差將隨抽取樣本的總體的值而變化,見表8.21。
•444、 第八章兩個以上總體的中心值的推斷 *的值 0.01 0.05 0.1 0.2 表8.21 對x的幾個休及n=20時元的方差 (1)/m x 的值 0.0005 0.3 0.0024 0.4 0.0045 0.5 0.0080 (1 x)/# 0.0105 0.0120 0.0125 因為元的方券關下 =0.5是對稱的,所以對 =0.7,n=20, 的方差是 0.0105,與 =0.3時一樣。類似地,對 >0.5的值,可確定 (1)/。需注意的一件重要的事情是,如果總體中元的值在0.3~0.5附近,則元的方差有很小的差異。然而,對x的值核大或較小時,元的方差有很大的不同。對這些情形,應考慮對樣本比率進行變換以穩定方差的可能性。 我們介紹的變換是 arcsinv*,即變換樣本比率成為一個角,此角的正弦是 /7,一些試驗者用度表示這些角,而另外一些用弧度表示,為了一致,我們總是用弧度表示角。附錄中表9Q 給出了對元的不同值反正孩的計算結果。 例8.6 為了評估選民就FBI領導者是否應該有一個固定的任期(比如10年)的意見, 進行了一項全國的民意測驗。由於地理位置的不伺,意見可能有一定差異。對這個民意測驗,全國被分為四個地區(西北NW、西南SW、東北 NE、東南 SE)。在四個區域中,每個區域有6個城市統計區(SMSA),從每個統計區中抽取 100個註冊選民的隨機樣本。下列資料是24個 SMSA 的樣本比例,使用yT=2arcsin /* 變換資料。 SMSA 地區東北東南西北西南 1 0.13 0.57 0.30 0.53 2 0.20 0.47 0.10 0.72 3 0.23 0.47 0.67 0.70 4 0.05 0.51 0.13 0.63 5 0.14 0.53 0.17 0.79 6 0.31 0.20 0.23 0.87 均值 0.177 0.458 1.167 0.707 標準差 0.0903 0.1321 0.0860 0.1191 ① 附錄中的表9給出的是Zarcsin/*。
8.5 其他的分析方法:資料變換•445• 解答使用計算器、計算機或附錄中的表9,變換資料如下表: SMSA 地區均值標準差東北東南西北西南 1 0.74 1.71 1.16 1.63 2 0.93 1.51 0.64 2.03 3 1.00 1.51 0.54 1.98 4 0.45 1.59 0.74 1.83 5 0.77 1.63 0.85 2.19 6 1.18 0.93 1.00 2.40 0.845 1.480 0.822 2.010 0.2515 0.2799 0.2307 0.2693 使用方差分析的方法,可對四個區域的意見進行比較。 我們需對觀察到的樣本比例為0或1的情形進行說明。在這些情形下,建議分別用1/4n 和1-1/4n 代替在計算中對應的樣本比。 在本節,我們討論了在進行方差分析前,怎樣透過資料變換解決非常數值方差的問題。這樣做的另一個附加的好處是本節中的變換有時也減少了資料的非正念性。還有,有時用這些變換,由於嚴重偏倚或離群值所引起的非正態性也可消除。 對兩個非正態的獨立隨機樣本,可用 Wiicoxon秩和檢驗(第六章)比較兩個總體。 對多於兩個的獨立樣本的資料,可用 Kruskal-Wallis 檢驗(8.6 節)處理非正態性問題。注意這些檢驗也都是建立在樣本資料的變換(秩變換)的基礎上。 練習 8.3 參考例8.6,使用反正弦變換分析樣本資料以確定在四個地理區域是否有差異,取a=0.05。 8.4 參考例8.4,作變換分析樣本資料,確定氧含量是香與距密西西比河入海口的距離有關。 8.5 參見例8.5。在許多的方差差異不太大的情況下,變換後的資料總休均值的方差分析比較結果同由原始資料得到的結果相似。在這些情況下,研究人員傾向於忽略變換,因為變換後的資料對於研究人員來說不大好接受,從而用被換後的資料得到的變換後總體均值的置信區間也不好解釋。對這個問題,一個可能補救的辦法是利用變換後的資料構造一個置信區間,然後對於該區同的端點進行逆變換,從而得到一個其中的值與原始資料的測量值有相同意義的置信區間。 a.檢驗假設:三種治療病人病痛的平均小時數是否有差異,a=0.05,用原始資料。 b.對三種治療方案,求均值的置信度為95%的置信區間。 c.用變換後的資料重新做分析(a)和(b)。
• 446• 第八章兩個以上總體的中心值的推斷 d.評價假設檢驗的結果有何不同。 e.在(c)中,作一區同端點的逆變換,同(b)中的區間做一比較。 8.6 另一種非引數方法:Kruskal-Wallis 檢驗秩和檢驗的概念可以推廣到多於兩個總體的比較。具體說來,設n1個觀察值隨機取自總體1,72 個取自總體2,⋯,7&個取自總體。我們想要檢驗假沒: 個樣本來自相同的分佈。下列的檢驗方法是合適的,該方法有時被稱作KruskalWallis 檢驗。 兩個以上總體的秩和檢驗的推廣 Ho:& 個分佈是相同的 Ha:不是所有的分佈都相同 T.S.:H= 12 nr{nr+ 1) 二n, 位-3(n +1) 這裡 n:是樣本;的觀察值數(=1,2,••k),n 是總的樣本容量,即二mT;為樣本;在總的樣本觀察值中的秩的和。 0.15 皿 ™ 0.10 fw 0.05 0.0 0 10 20 3.隨機變數的值 30 圖8.11 形狀相同,位置不同的四個偏態的總體分佈
8.6 另一種非引數方法:Kruskal-Wallis 檢驗 • 447.: 注:當樣本觀察值的秩有大相等時,用 H'= 這裡!,是第;個相等秩組中的觀察值數。 圖8.11 列出「在 Kruskal-Wallis 檢驗的備擇假設下總體的分佈。 例8.7 參看例8.3。在那裡我們已確定筆試分數不是正態分佈,所以把 Kruskal-Wallis 檢驗用千表8.12 中的資料集。 用資料確定對於心理疾病起固的瞭解,三個測試組是否有差異,取a=0.01。 解答關於此例的研究假設和零假設如下: Ho:三組中至少有一個和其他組不同 Ho:三組沒有差異(即分數的樣本來自同一總體) 任計算 H之前,首先從低到高排列30個測試分。從表8.22可看到,最小分數是2,其聯為1,相似地,給分數3、4.6的秩分別為2、3、4,有兩個都是8分,由於這兩個分數有秩5和6,我們指定這兩個分數的秩都為5.5,也就是5和6的平均數。用相同的方法,可指定其他測試分數的秩。表8.22 列出了30個測試分數及其秩(圓括母裡的數)。 —— 職員 1 2 3 4 5 6 7 8 9 10 秩和 —— 表8.22 心理疾病知識的筆試分數衛理公會派教徒天主教徒 62(29) 62(29) 60(26.5) 62(29) 60(26.5) 24(21) 25(23) 24(21) 24(21) 22(18) 23(19) 20(16.5) 20(16.5) 19(15) 13(9) 10(7) 12(8) 8(5.5) 6(4) 8(5.5) 182.5 167.5 猶太教徒 37(25) 31(24) IS(13.5) 15(13.5) 14(11) 14(11) 14{11) 5(3) 3(2) 2(1) 115
• 448• 第八章兩個以上總體的中心值的推斷從表8.22,三組的秩和分別是182.5、167.5、115,所以H的計算值是 H- 35-1(%222+00232.4492)-330+1 -好(3330.625 + 2805.625 + 1322.5)-93=3.24 因為含有相同大小的資料,我們用 H’,並和 H相比較。為此,列出g組相同的秩, 見下表: 秩 1 2 3 4 7 5.5,5.5 8 9 11, 11, 11 13.5, 13.5 15 16.5,16.5 18 19 21,21,21 23 24 25 26.5,26.5 29,29,29 組 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1 從這些資訊,計算量
8.6 另一種非引數方法:Kruskal-Walliss 檢驗 • 449• 24-12 =(22- 2) +(3’-3)+(2°-2) +(2-2)+.(3°-3)+(23-2)+.(3-3) 30°-30 =0.0036 代入此值到 H'得 H'=H/(1-0.0036)=3.24/0.9964 =3.25 所以,即使有多幹、半的值涉及秩的相等,H和的值幾乎相等。對a=0.05、df = 1=2.x2的臨界值可由附錄中的表7查得,此值是 5.991。因此,接受H0, 即三個組的測試分數沒有顯著差異。有趣的是 Kruskal-Wallis 檢驗的p值是 0.198, 而方差分析中應用到原始資料的F檢驗的p值是0.168。因而,即使資料不服從正態分佈,方差分析中的F檢驗對於正態分佈的偏離是穩健的。只有當數據有很大的偏倚或厚尾時,Kruskal-Wallis 檢驗和方差分析中的F檢驗才是不同的。 練習 8.61園藝)•組研究人員想要比較一個果園中樹齡4年的5個不同品種 (A、B、C、D、E)的橘子樹的產量(磅),每個品種取一個容量為7的隨機樣本,這些樹的“量如下: A 13 19 39 38 22 25 B 27 31 36 29 45 32 44 40 44 37 36 38 35 D 17 28 41 45 15 13 20 E 36 34 29 25 31 30 a.用檢驗和資料圖,確定是否滿足方差分析的條件。 b.作方差分析,檢驗零假設:5個品種的平均產量相同,取&=0.01。 用Kruskal-Wallis 檢驗去檢驗零假設:5個品種有相同的產量分佈,取a= 0.01。
• 450• 第八章兩個以上總體的中心值的推斷 d. 在(b)和(c)中得到的結論是否一致? 8.7 用方差分析和 Kruskal-Wallis 檢驗檢驗的研究假設有何不同? 8.8(工程) 在柔軟的隱形眼鏡鏡片生產中,鏡片的實際強度需要十分接近消費者所適用的指標值。在文章“An ANOM-type test for variances from normal populations, "[ Technometrics(技術度量)(1997),39:274~283]裡,就鏡片強度的一致性,對用三個供應商提供的原材料生產的鏡片作了比較。下表列出的是使用三個供應商的材料生產的鏡片強度指標值的偏差。 供應商鏡片 1 2 3 4 5 6 7 8 9 A 189.9 191.9 190.9 183.8 185.5 190.9 192.8 188.4 B C 156.6 218.6 158.4 208.4 157.7 154.1 152.3 187.1 199.5 202.0 161.5 211.1 158.1 197.6 150.9 204.4 189.0 156.9 206.8 a. 對這三個供應商,偏差的分佈有顯著的差異嗎?取a=0.01。 b.用下面給出的合適的檢驗或圖,評價當對資料用方差分析以確定對於三個供應商平均偏差是否有顯著的差異時,方差分析的條件是否滿足。 c. 用a=0.05 作方差分析,然後把你的結果與(a)的結論作比較。 d. 假定如果鏡片的平均偏差之間的差別超過20個單位時,就會對於鏡片的生產造成商業上的後果,那麼這三個供應商的原材料之間的差異有實際意義嗎? 美偏 220 210200 - 190180170160150 A B 供應商 C
8.7小結 • 451• 率概 0.999 0.990.95 0.800.50 0.20 0.05 0.01 0.001 -10 Average:-0.0000000 StDev: 5.53971 N:27 10 殘差 Anderson -Darling Normality Test A-Squared:0.718 P-Value:0.054 8.7 小結在這一一章,我們提出了一些用於對:個總體均值進行比較的方法,推廣了第六章的結果。從:個總體的每一箇中取出的是獨立隨機樣本,樣本內的變異用 SSW/(nr 2)來衡量,類似地,樣本間的變異由s=SSB/(1)來衡量。 是接受還是拒絕:個總休的均值相等這一零假設,依賴於F=83/s的計算俏。任H。下, 和品都是。的估計,唔是所有:個總體的共同方差。在備擇假設下,s是唔+0的估計,這裡8是一正的,s還是o?的估計量。所以對於F 的大值就拒絕Ho,F 的臨界值可從附錄中的表8用dfy =t-1、df=nz 1 得這個檢驗方法被稱作方差分析,通常總結在一個方差分析表中。 你可能對如下問題還有疑問,假定我們拒絕了Ho,則至少有一個均值和其他的不同,是哪些與別的不同呢?本章沒有回答這個問題,在第九章將透過多重比較去討論此問題。 在這一章,對完全隨機化設計,我們討論了進行方差分析的假定。其中樣本的獨立隨機性是絕對必要的。因為我們討論的是均值,並且對適當的樣本容量中心極限定理成立,所以對於正態性的假定要求不嚴。只有當樣本容量有大的差別時, 方差相等的假定才是重要的;樣本容相等或幾乎柑等時,對該假定可以放鬆要求。檢驗方差相等用 Fmax統計量SPax/Sn或 Levine 檢驗。
• 452• 第八章兩個以上總體的中心值的推斷有時,樣本資料表明總體的方差是不同的,那麼當總體均值與總體標準差間的關係是已知的或可猜測時,可以利用表8.15中提供的變換,把樣本觀測值y轉化為一個新值yr以穩定化總體方差。這些變換包括方根、對數、反正弦以及許多其他變換。 本章中的討論還有很多細緻的內容沒有包括進來。但這些材料對於訓練初級研究人員,以使他們認識到研究專案中的假定以及如何選擇一種合適的分析方法 (諸如非引數統計方法、Kruskal-Wallis 檢驗等)或應用一個變換到樣本資料來說是足夠的。 重要公式 1.完全隨機化設計的方差分析 SSW = ≥ 2. 完全隨機化設計的模型 Yi M+Q+E 3. 模型應滿足的條件 a.1個總體都服從正態分佈。 這裡p= +a: c.資料由t個獨立隨機樣本構成。 4. 檢查是否滿足條件 a、正態性:畫殘差e i 的圖。 b.方差的齊性:Hartley 檢驗或 Levine 檢驗。 c.獨立性:仔細回顧試驗或研究是怎樣進行的。 5. 關手總體均值 p:的置信度為100(1-a)%的置信區間 6. Kruskal-Wallis 檢驗(總體分佈是非正態的) Hy:R個總體的分佈相同 Ha: 個總體的分佈不全相同 T.S.= - 3(nr +1)
8.7 小結 • 453• 補充練習 8.91製造業)公司的研究人員作了一個試驗,以比較正在改造中的五條生產線中的每一條有重要缺陷的產品數目。他們在改造期間連續監視生產,記錄下每條生產線每天有重要陷的數日,資料如下: 生產線 1 2 3 比 54 44 41 32 38 62 45 36 32 51 56 68 4 44 43 30 32 55 s 80 —— 41 35 58 a.對每一個樣本計算和s,有非常數方差問題出現嗎?使用 Hartley 檢驗, 取∞=0.05。 b.作平方根變換,並對變換後的資料作一分析。 c。對生產線間的差異,寫出你的結論。 8.10 對練習8.9中的資料作 Kruskal-Wallis 檢驗,此檢驗支援練習8.9中的結論嗎?若結果不同,你相信哪一個分析呢?取a=0.05。 8.11(農業)一個大學的衣業試驗站測試了兩種不同的除草劑及它們對農作物產量的影響。他們選擇了90英畝做試驗,除草劑1用於30英畝的一隨機樣本, 除草劑2用於第二個30英畝的隨機樣本,餘下的30英畝作為對照。在生長期結束後,產量(蒲式耳/英畝)如下表。 除草劑1 除草劑2 對照3 櫸本均值 90.2 89.3 85.0 樣本標準差 6.5 7.8 7.4 樣本容量 30 30 30 z。用這些資料作一個單問分類方差分析,以檢驗是否在平均產量上有差異, 取a=0.05。 b.求平均產量p,的置信度為95%的置信區間。 c.哪些平均產量看起來是不同的?
• 454• 第八章兩個以上總體的中心值的推斷 8.12(園藝)一個大學的果類農作物系的研究人員比較『用於草莓保鮮的四種不同的防腐劑。研究人員準備了一定量的用於保鮮的草莓,並隨機地分成相同的四組。在每一組裡,用適當的防腐劑對草莓進行處理,並裝在8個塑膠袋中在 0七下冷凍起來。把組I中的袋子作為對照組,而組醜、匪、N的袋子分別用三種新生產的防腐劑。32個草莓袋準備好後,在0C下儲藏6個月。到時間後,去掉每個袋子的包裝,按變色程度從1到10打分(低分意味著變色度小),等級如下: 組1 組I 組瓜組™ 10 6 3 2 8 7.5 5.5 1 7.5 8 4 2.5 8 7 4.5 3 9.5 6.5 3 4 9 7.5 5 7 6 3.5 3.5 4 2 5.5 4.5 2 8.使用下列殘差圖以及方差齊性的檢驗,檢查是否滿足對資料進行方差分析的條件。 b.取 a=0.05,檢驗平均等級是否有差異。 c.對每一組,求置信度為95%的平均等級的置信區間。 d.用給出的計算機輸出結果驗證你的結論。 練習日.12 中的方差分析 Analys is of Var iance for Ratings Source DF SS Group 3 159.187 Error 28 26.687 Total 31 185.875 Group I II III ™V N 8 B 8 8 Mean B. 3125 6.4375 4.0000 2.5000 Pooled StDev= 0.9763 MS F 53.062 55.67 0.953 P 0.000 Individual 95 & CIs for Nean Based on Pooled StDev Stbev --+ 1.0670 1.0155 0.8452 0.9636 {--+---) (---*--) --+ 2.0 4.0 6.0 8.0
8.7小結 •455• 等級 0IzStS9L8 60 I I I 組練習8.12中按組的等級盒形圖率概 0.999 0.99 0.95 0.80 0.50 0.20 0.05 0.01 0.001 -I 0 殘差 Average:0 StDev:0.927840 N:32 Anderson -Darling Normality Test A-Squared:0.503 P-Value:0.191 練習8.12.中殘差的正態機率圖 8.13 同練習8.12,許多情形下,給出的是一個等級而不是實際的觀察值,此時推薦使用 Kruskal-Wallis 檢驗。 a.用 Kruskal-Wallis 檢驗確定四個組的等級分佈是否有變化。 b. 用 Kruskal-Wallis 檢驗得到的結論與練習8.12用方差分析得到的結論一致嗎?
• 456.