AI 新聞與投資
統計學方法與資料分析引論

第六章 兩總體中心值的比較

12 / 34

60 50 發病次數 40 U 20 10 0 安慰劑氟柳雙胺安慰劑和藥品的盒形圖(均值以實心圓點表示) 女性男性樣本容量 26 24 均值 5.26 7.02 標準差 3.2 3.9 6.82(醫學)某臨床試驗旨在研究藥品 A 對於治療有關戒酒症狀的療效。 隨機抽取 30位病人,在其不知曉的情況下服用此藥物,另外30位病人服用外表看起來和該藥物一樣的安慰劑。經過1周的治療以後,兩組的平均症狀分數分別為 1.5和6.3。(注意:高分表示更多的戒酒“問題”)。相應的標準差為3.1和 4.2。 a.比較兩組的平均總症狀分數。求雙樣本t檢驗 Ho:M1- 42=0 H: K1-42<0的p值。並給出結論。 b.假定治療之前的平均總症狀分數是6.8和 12.2,這會影響你的結論嗎?你怎樣防止可能存在的(處理前)基準分數的差? 6.83(環境)兩個分析員,假定能力相同,分別對飲用水中某種化學物質的含量(ppm)進行測量。有人認為分析員1給出的測量值往往高於分析員2。為了檢驗這種說法,將六個水樣每個分成兩份,然後請兩個分析員對它們進行測量,所得結果如下。 水樣 1 4 5 分析員 1 31.4 37.0 44.0 28.8 59.9 37.6 分析員2 28.1 37.1 40.6 27.3 58.4 38.9

6.7 小結•365. …⋯……… -: a.有無理由認為分析員1測得的平均結果商小分析員2?給出檢驗的顯著性水平。 b.若用Wilcoxon檢驗,結論是什麼?將你的結果與(a)作比較。 6.841農業)從11種不同菸草中各取下-片葉子,每片時子分成兩半,隨機抽取一半用第I種製品處理,另一半用第日I 種製品進行處理。試驗日的是比較、 段固定的時間後兩種馬賽克病毒製品對葉子裂痕個數的影響。試驗資料在下找列出。在水平a=0.05 下用Wilcoxon 符號秩檢驗,以評價研究假設:兩個總體裂痕數日分佈不同。 半片葉予上裂痕數日菸草製品I 製品T 1 2 18 20 14 15 3 9 4 14 5 38 6 26 6 12 32 30 7 15 9 8 9 10 11 10 25 7 13 2 18 3 6 6.85(環境)某調查人員欲比較取自了一水處理廠兩個不同地點排出的水樣中微粒的平均個數。如果在每個地點取出的水樣中微粒個數的標準差約為6,那麼,若微粒均值差的99%置信區間估計的寬度為1,則所需樣本容為多少? 6.86(商業)許多人買跑車是因為他們認為跑車(SUV)更為結實,從而比普通車更安全。但是以前的資料顯示同一事放中,跑車的修理費用要高於中型 (Midsize)車。隨機抽取8輛新跑車和8輛中型車,對它們進行車頭碰撞抵抗力的測試,這些車以 20rph的速度撞在一個固定的障礙物上。下表列出了車的毀損程度的測值(單位:百美元)。

•366• 第六章兩總體中心值的比較汽車跑車中型車 1 2 3 4 5 6 7 8 14.23 11.97 12.47 11.42 14.00 13.27 13.17 9.87 27.48 10.12 12.42 10.36 32.59 12.65 12.98 25.23 a.將資料繪成圖以確定t檢驗的條件是否滿足。 b.資料是否支援這樣的猜想,即,跑車的平均毀損程度大於中型車?在a= 0.05下進行:和 Wilcoxon 兩種檢驗。 c.哪種方法更適合於分析該資料? d. 兩種方法所得的結論相同嗎?為什麼? 30 損毀程度 (百美元) * 2010 中型車跑車中型車和跑車毀損程度盒形圖(均值以實心圓點表示) Two- Sample T-Test and Confidence Interval Two-sample T for Midsize vs SUV N Mean StDev SE Mean Midsize 8 13.11 5.05 1.8 SUV 8 17.42 7.93 2.8 95 % CI for mu Midsize-mu SUV: (-11.4,2.8) T-Test mu Midsize = mu SUV (vs<):T=-1.30 Both use Pooled StDev = 6.65 Mann-Whitney Confidence Interval and Test Midsize N= 8 Median= 11.69 SUV N= 8 Median = 13.59 Point estimate for ETA1-ETA2 is -2.32 95.9 Percent CI for ETA1-ETA2 is(-14.83,- 0.33) W=48.0 P=0.11 DF = 14 Test of ETA1 = ETA2 vS ETA1< ETA2 is significant at 0.0203

6.7小結•367• 6.87 參見練習6.86。這個研究因所測試的車輛太少而受到批評。為此需要在大樣本基礎上重新研究。假定毀損程度總體均服從正態分佈,具有共同的標準差 =700美元。 a.確定樣本容量,以便我們能夠以95%的把握相信平均修理費用差的估計值與真正值相差不到500美元。 b.對於研究假設 Ha:#suv> MID,確定樣本容量,使得當 PSUv - HMID≥500 時,檢驗具有 a =0.05,B(pd)<0.05。 6.88(法律)在一個涉及許多科學問題的案件中,法官釋出了關於以下統計顯著性的見解備忘錄,這些見解中沒有使用法律術語,且脫離了上下文。但它仍然可幫助我們理解他人怎樣處理關於確定統計顯著性意義的問題。閱讀該備忘錄並對統計顯著性引出的問題作一評論。 見解備忘錄在審判之前法庭要處理的事情是能預期到的在審判中會出現的兩個與證據相關的問題。第一,必須確定法庭在接受科學證據時,其合理的統計顯著性水平應是多少。 關於統計顯著性,在審判過程中,只有當統計證據的置信水平達到95%時,才可被法庭接受。 法庭上的每個相關研究使用的置信水平至少為95%。而且原告承認社會科學家一般使用95%置信水平。最後,所有法律權威達成一致,即,統計證據除非達到統計人員所要求的95%置信水平,否則,不被接受。所以,由於原告不能提出合理的根據來改變數學家對統計顯著性檢驗的現有態度,因此,除非達到95%置信水平,否則,對任何統計證據法庭不予接受。 6.89(醫學)在一個生存研究中,觀察 182 位患充血性心臟衰竭的男性病人,得到他們的基線測定值。在對這些資料進行總結時,其中88位病人已死亡。 下表列出了生存者和死亡者的基線資料。在“心率”下面列出的變數表示心臟衰竭的嚴重程度,每個變數左邊的箭頭表示症狀變化的方向。 a.財這些基線資料進行討論。 b.進行:檢驗時,作者作了哪些假定? 年齡(歲) 由於心肌症造成的嚴重慢性左心室衰竭忠者的基線特徵資料死亡者生存者 (n=88) (n=94) 57土10 56+8:檢驗 NS

•368• 第六章兩總體中心值的比較續表變數症狀持續期(月) 心率(次/分鐘) 平均血壓(毫米汞柱) •左心室填充壓(毫米汞柱) 心臟指數[升/(分米) 個心搏量(毫升/搏動) 系統血液阻力(單位) 搏動功(克•米) 表中所列的值為均值士標準差由於心肌症造成的嚴重慢性左心室衰竭患者的基線特徵資料死亡者 (n=88) 45士43 87‡15 87士13 29士7 2.0 0.7 45士16 25‡10 35‡19 生存者 (n=94) 39土27 83士16 94士13 24土9 2.5‡0.8 59‡5 21‡8 56‡33 t檢驗 NS NS ≤0.001 <0.001 <0.001 <0.001、 <0.01 ≤0.001 6.90(商業) 醫院管理人員對擁有健康維護組織(HMO)費用來源的特護病人和那些擁有非健康維護組織(non-HMO)費用來源的特護病人的住院時間情況進行了研究。樣本資料如下圖表示。 0 1 2 3 4 5 6 7 8 9 10 圍生期情況受傷皮膚先天性異常不確定情況感染的/寄生的泌尿生殖器的神經方面的檢查/其他的所有診斷 HMO 費用來源 non-HMO 費用來源來源:American Hospital Assn.; Twin Cities Metropolitan Health Board

6.7 小結•369 a.你能從圖中得出什麼樣的一般性結論?若要作出更明確的結論,你還需要哪些資訊? b.假定表中列出了所有診斷的樣本統計量。用這些資料檢驗 Ho:M1—#2 =0 He:隊1 —p2 0,並給出檢驗的p值。 HMO Non-HMO 樣本均值 5.0 8.1 樣本容量 120 130 樣本標準差 1.3 1.9 6.91 題目見練習6.90。進行:檢驗並比較所得結果,哪一種檢驗(如果有) 更適合下分析這些資料? 6.92(醫學) 下面是一份對10個充血性心臟衰竭病人研究結果的摘要。閱讀此摘要並試著解釋這些結果。 摘要將10 位患有充血性心臟衰竭的病人作為研究物件,以研究某種試驗性藥物的療效。分別測量「某些變數的基線資料和靜脈注射此藥物四小時後的資料,資料顯示此藥物使心臟指數從基線平均水平 2.41士0.49L/min/m? 11.90%~ 34.3%(p<0.01),心率從72 12次/分鐘提高了6%~10%(<0.02)。使脈搏毛細血管楔壓從18.7降低了15.3% 24.2%(p 0.001)。 6.93(醫學)曾經對幾種抗抑鬱症藥物進行研究,以考察其在治療可卡因吸食者方面的效果。最近一個研究顯示作為門診病人的20個可卡因吸食者在服用抗抑鬱症藥物的兩個星期後對可卡因的渴望程度降低了日對可卡因的實際吸食量有所減少。試對此結果進行評論,它們可信嗎?為什麼? 6.94(教育)1986年4月 Australian Journal of Stutistics(30:1,23-44)公布了S. R. Butler 和 H. W. Maisd對來自非英語家庭掌生的閱讀和數學成績的研究成果。原始樣本為澳大利亞悉尼市七個公立學校的所有392個幼兒園學生。分別在試驗開始的幼兒園階段利小學 1,2,3和6年級時期對他(她)們進行閱讀和數學測驗。 下表列出了最初的392個學生中參加了小學第六年測驗的286個學生(n= 226個來自英語家庭,n=60個來白非英語家庭)的一些特徵資料。 a.你能給出一個概括這些基線資料的更好的方法嗎? b. 可能用了哪種檢驗對這些特徵進行比較? c.為了直接比較閱讀和數學能力,還有哪些特徵可以或應該測定? d. 樣本的損耗率對研究結果可能會有什麼影響(如果有)?記住最初392個 x

•370• 第六章兩總體中心值的比較學生中有106個(27%)未能參加6年級的測驗。 組特徵英語家庭 (n =226) 非英語家庭 (1=60) 年齡(肖) 性別(1=男,2=女〉 家庭中孩子數在家庭中的排位 《1=最小的孩子,等〉 父親的職業 《1=技術性最強, 17=技術性最差) 詞彙量智商 *統計顯善、 <0.0] 67.17 1.50 2.54 1.89 67.15 I.Ss 2.62 1.82 8.26 * 11.50 99.26* 74.45 6.95 參考資料盤中的臨床試驗資料庫。根據 HAM-D 總分數資料檢驗假設Ho:AD-PA=0 H:KD-KA≥0;即,我們想知道在研究結束之時,安慰劑組 (D)的平均抑鬱分數是否高於 A治療組,給定a=0.05。你的結論是什麼? 6.96 題目見練習6.95,重複地將安慰劑紐和B治療組,C治療組進行比較。給出每個檢驗的值。三個治療組(A,B 或C)中,哪一組的 HAM-D 總分數最低? 6.97 根據 HAM-D 焦慮分數資料構造pD一KA 的95%置信區間。由此區間你可得出關於 (D-FA的什麼結論? 6.98 參考資料盤中的臨床試驗資料庫。用雙側統計檢驗比較B治療組與 C治療組的平均年齡。對於所有檢驗,檢驗水平=0.05,試給出結論。當研究不同藥品對抑鬱症的療效時,為什麼不同治療組的病人年齡相仿這一點很重要? 6.99 題目見練習6.98,為了對用於治療抑鬱症的藥物的療效作出結論,還應該在幾個處理組間比較其他哪些變數?

第七章 7.1 引言和紫例 7.2 單個總體方差的估計和檢驗 7.3 比較兩個總體方差時的估計和檢驗 7.4 比較多個總體方差時的檢驗 7.5 小結關於總體方差的推斷 7.1 引言和案例當人們考慮統計推斷時,他們通常想到的是總體均值的推斷。但是,針對試驗者的實際問題的總體引數可能隨情況而不同。在許多情況下,總體值的變異性和總體均值同樣重要。在涉及產品改進問題的案例中,產品質量被定義為產品均值等於目標值且圍繞均值的變異較小。比如說,藥品的生產者肯定要關心如何控制藥片的平均藥效,但他或她一定也擔心藥片之間在藥效上的變異。過量的效和藥效不足對病人來說可能都是有害的。因此,廠商願意生產的藥片具有期望的平均藥效並且藥片之同藥效的差異(用。或。來度量)儘可能地小。另外一個例子來自投資策略領域。投資者要尋找具有較低風險的股票,證券,不動產和其他投資的資產組合。投資者通常用一定時期內投資價值的方差來度量某一特定投資組合的不確定性。具有高平均值和較大標準差的投資組合獲得的收益往往比平均值低很多。因此投資在決定投資組合的風險度時,需要考察投資價值國繞其平均俏的變化情況。 案例:關於檢測大腸桿菌方法的評估最近幾年由於消費被感染的肉產品而引起的細菌疾病的爆發要求在肉類食品監管程式上使用更新更快捷的病原體檢測方法。文章“Repeatabjlity of the petrifilm HEC test and agreement with a hydrophobic grid membrane filtration method for the enumeration of Escherichia coli 0157; H7 on beef carcasses, " [ Journal of Food Protection(1998)61:402-408]將—種新的大腸杆蘭細菌檢測法—HEC 法和 HGMF法進行對比。相對於傳統方法,HEC檢測法更易於接種,更便於培養,且操作起來更安全。但是,研究人員必須比較 HEC法和 HGMF法的效用以決定HEC 是否是一種用於檢測大腸桿菌的可行的方法。 資料收集的設計 HEC 方法的開發者尋找以下問題的答案:

•372• 第七章關於總體方差的推斷 1.與HEC和HGMF 讀數有關的什麼引數必須要進行對比? 2. 為了有效地比較 HEC 和HGMF 法,必須要多少個觀察值? 3. 進行什麼樣的試驗設計可最有效地比較 HEC 和HGMF法? 4.什麼是用於比較的有效的統計方法? 5.在關下 HEC 和 HGMF的最終評價報告中應包括什麼型別的資訊? 對研究來說,大腸桿菌計數的哪些方面是有趣的?僅僅對比平均濃度就會知道兩種方法在大量檢測的滅均讀數上是否⋯致。但是,我們並不知道在大腸杆菌檢測過程中 HEC法的讀數是否比 HGMF 法更易變化。例如,考慮圖7.1的兩個分佈。假定它們分別代表利用HEC和 HGMF 法檢測大腸桿菌濃度所得的測量值的分佈,而真正的大腸桿菌濃度為 7log10CFU/ml。分佈表明:對於給定的肉類樣本,HEC:法的檢測值與大腸桿菌的真實值相差較大,而HGMF 法的檢測值可能更接近真實值。在這種情況下,關鍵是既要比較兩種方法的均值又要比較它們的標準差。書實上,為了評價這兩種方法,我們需要考察 HEC.和 HIGMF 檢測俏之間關係的其他方面。我們將在關於建立模型和進行方差分析的章節中討論這一思想。 試驗設計分為兩個階段,階段1將兩種方法應用於純培養出的大腸桿菌,標明濃度為10°CFU/ml的E318N品種。基十估計大腸桿菌水平(見練習7.4)的給定 4.0 3.5 3.0 HGMFF 2.5 2.0 1.5 1.0 HEC 0.5 0.0 6.5 6.6 6.7 6.8 6.9 7.0 7.1 大腸桿菌濃度 7.2 7.3 7.4 7.5 圖7.1 假設的根據 HEC 和 HGMF 法大腸桿菌濃度的分佈

7.1 引言和案例•373• 精度,決定將 HEC.和 HGMF方法應用於24個純培養細菌。將大腸桿菌濃度資料進行變換(Log 0CFU/ml),表7.1 列出了變換後的檢測值(表中的值是利用文章中給出的概括統計量得出的模擬值)。 樣本 2 3 4 5 6 7 8 HGMF 6.65 6.62 6.68 6.71 6.77 6.79 6.79 6.81 表1.1 HEC和 HGMK 的大腸桿菌讀數(logICFU/ml) HEC 6.67 6.75 6.83 6.87 6.95 6.98 7.03 7.05 樣本 9 10 11 12 13 14 15 16 HGMF 6.89 6.90 6.92 6.93 6.94 7.03 7.05 7.06 HEC 7.08 7.09 7.09 7.11 7.11 7.14 7.14 7.23 樣本 17 19 20 21 22 23 24 HGMF 7.07 7.09 7.11 7.12 7.16 7.28 7.29 7.30 HEC 7.25 7.28 7.34 7.37 7.39 7.45 7.58 7.54 階段2將兩種方法應用於人工汙染的個肉上。部分牛肉塊取自於三頭經過檢驗為大腸桿菌陰性的 Holstein 母牛。從這些牛身上共取出18份牛肉塊,然後將它們感染上大腸桿菌。分別將 HEC 和 HGMF方法應用於這18份梯本牛肉中的每一份。對兩種方法得到的大腸桿菌濃度資料進行變換(10g10CFU/ml)。本例中共得到 18對樣本資料。研究人員欲建立模型將兩種方法得到的大腸桿菌濃度檢測倩聯絡起來。本章我們只討論階段1,階段2將在十一章討論。 資料輕理下一步,研究人員要按照第2.5節介紹的步驟準備資料,以便進行統計分析。 資料分析研究人員感興趣的是兩種方法得到的大腸桿菌濃度檢測值是否一致。圖7.2給出了試驗資料的盒形圖。就盒形圖的寬度和須的長度而言,兩種方法所得的結果非常相似,但HEC的中位數比 HGMF 大。樣本概括統計量如下。 Descriptive Statistics Variable N HEC 24 HGHF 24 Variable Minimum HEC 6.6700 HGHF 6.5600 Mean Median 7.1346 7.1100 6.9529 6.9350 Naximum Q1 7.5400 6.9925 7.3000 $.7900 TrMean 7.1373 $.9550 Q3 7.3250 7.1050 Stlev SE Hean 0.2291 0.0468 0.2096 0.0428

• 374• 第七章關於總體方差的推斷 7.5 7.06.5 HEC HGMF 圖7.2 HEC 和 HGMF 盒形圖 (均值以實心圓點表示) 從概括統計量中,我們可以看到利用 HEC法得到的平均濃度比 HGMF 法大。並且,在濃度讀數的變異性上HEC 比 HGMF稍大。我們初步認為兩種方法得到的大腸桿菌濃度讀數的分佈不同。但是我們需要決定是否可以根據樣本均值和標準差的不同來推斷總體相應值之間也存在差異。在介紹了用以比較總體方差的適當方法以後,我們將給出相應的結果。 總體方差的推斷問題類似於總體均值的推斷。首先,我們必須根據隨機樣本資料構造點估計、置信區間和檢驗統計量以對總體值的變異性進行推斷。然後,我們就能說我們能夠以多大的把握相信觀察到的樣本資料之間的差異就代表了相應總體引數之間的差異。 7.2 單個總體方差的估計和檢驗樣本方差 s2 二(-) n-1 可以用來推斷總體方差。’。對於來自均值為 p,方差為。總體的一個容量為, 的隨機樣本,s是。?的無偏估計量。如果總體分佈為正態,那麼了?的抽樣分佈可以確定如下。根據容量為n且取自於方差為。2的正態總體的重複樣本資料,我們可以計算統計量(n-1)s2/02,並畫出直方圖。直方圖的形狀與圖7.3相似,因為可以證明統計量(n-1)s2/。2服從自由度df=n-1 的卡方分佈。卡方(x,其中 x 是希臘字母 chi)機率分佈的數學表示式很複雜,因此我們並不將它寫出來。但

7.2 單個總體方差的估計和檢驗•375• 是,我們將卡方分佈的有關性質列出如下: 1•x 分佈為正的偏態分佈,其取值在:0到∞之間(見圖7.3)。 2.x分佈很多,分佈的引數為自由度(df)。圖7.3給出了自由度分別為S, 15和30 的三種x分佈。 3.x’分佈的均值和方差分別為 p =df,a2=(2)df。例如,如果x”分佈的自由度 d=30,那麼分佈的均值和方差為 =30,82=60。 0.16 0.14 0.12 df =5 0.10 0.08 0.06 df= 15 0.04 df= 30 0.02 0.0 0 10 20 30 40 50 60 70 的俏圖7.3 x(df=5,15,30)分佈的機率密度曲線在附表7中可查到 x分佈的上分位數。表中的每一個數均表示x”值,其值右側曲線下方的面積為a。表左欄為自由度,頂部為a值。因此,當df=14時,對應於曲線下方右邊面積為a=0.025的x 值是26.12。(見圖7.4)。為了確定曲線下方左側面積為0.025對應的x 值,我們計算 a=1 0.025,從附表7查得 x 值等 5.629。利用這兩個值,我們得到曲線下方介於5.629和26.12之間的面積是1-0.025-0.025=0.95(見圖7.4)。根據這⋯•點,我們就能構造。”的信區間。因為x分佈不對稱,所以基十這一分佈的信區同也不具有通常的形式, 即沒有我們看到的p和p1-442 置信區間所具有的形式:估計俏士誤差,。”的 100<1-a)%置信區間可透過用。2的估計量。’除以下a/2分位數和上a/2

• 376. 第七章關於總體方差的推斷 f(23) 0.95 0.025 0 5.629 0.025 26.12 閣7.4 自由度df=14的x分佈臨界值分位數x 而得到。 (或)的置信係數1-a的置信區間分佈的左側面積等於 a/2的下尾值(見圖7.5)。對於給定的自由度df,我們可以透過查附表7中對應下a=a/2和 a=1-a/2 的臨界值得到x和x。《注意: 透過開平方根可得到。的置信區間。) f(X) 炫 -% 籠圖7.5x分佈的上尾值和下尾偵例7.1 某大型食品廠的質量控制部門對其咖啡裝填機器進行監控,該機器欲將每個

7.2 單個總體方差的估計和檢驗•377• 容器裝滿500克咖啡。理想情況下,每個容器內的咖啡量應該圍繞著額定值 500 克略有波動。如果波動很大,那麼大部分的容器可能因沒有裝滿而欺騙了顧客,或老因裝得過量而導致公司的經濟損失。設計機器使得容量$00克的容器內所裝咖啡的重量服從均值為506.6克,標準差為4克的正態分佈。這將產生一個容器總體,使之最多有5%的容器內咖啡的重量少十500克。為「保證至多有S%的容器分量不足,每小時抽取30個容器作為隨機樣本。根據這些資料來確定均值和標準差是否維持在額定值上。其中的一個一小時樣本資料如下。 501.4 498.0 498.6 499.2 495.2 501.4 509.5 494.9 498.6 497.6 505.5 $05.1 499.8 502.4 497.0 504.3 499.7 497.9 496.5 498.9 504.9 503.2 S03.0 502.6 496.8 498.2 500.1 497.9 502.2 503.2 試估計對下該小時內裝填的所有容器,其咖啡重量均值和標準差的99%置倍區間。 解答由樣本資料得: -500.453,S=3.433 為了利用我們的方法建立,和。的置信區間,首先,我們必須檢查資料是否是來自正態總體的一個隨機樣本。圖7.6為30個重量資料的正態機率圖。這30 個值幾乎落在一條直線上。因此正態性條件得到滿足。本例的置信係數1-&= 0.99。對於 df= -1=29,a=a/2=0.005 查附表7得到上尾x’值,同樣地,對於a=1-a/2=0.995 查附表7得到下尾x’值。因此 x=13.12,X =52.340 那麼,的99%覺信區間為 29(3.433) 52.34 <d< 29(3.433)2 13.12 或 2.56 <a <5.10 因此,我們有99%的把握相信咖啡重量的標準差落在2.56與5.10克之間。從而,。的設計值,4克,落在我們的置信區間以內。根據第五章的結果,的99%買信區間為 500.453 土2.756 3.432 /30 500.4531.73 或 498.7 <H< 502.2 因此,這臺機器似乎使得容器裝填不足,因為506.6 克並沒有落在置信區同以內。 除了估計總體方差以外,我們還能對。’等於給定值好的零假設進行統計檢驗。檢驗步驟如下。

• 378• 第七意關於總體方差的推斷 0.999 0.99 0.95 0.80 0.50 0.20 0.05 0.01 0.001 495 500 重量 505 圖7.6 容器內重量的正態機率圖 S10 (或)的統計檢驗: Ha:1.o≤品 2.02≥03 3.82=0 Ha:1.82>0 2. o2<品 3. 8千0 T.S. R. R.:對於給定的值a, 1.如果 x’大於x,則拒絕Ho,其中x 為對應十a=a,df=n-1 的上尾x2值。 2. 如果x 小丁,則拒絕Ho,其中x?為對應於a=1 a,df=n -1的下尾x’值。 3.如果x 大於 (對應於a a/2,df= 1)、或小手x(對應下 a=1-a/2,df=8-1),則拒絕 Ho。 例7.2 某種控制屋內臭蟲的殺蟲劑的生產商聲稱他的產品能將其大部分藥效至少保持6個月,並且聲稱從0到6個月,其產品的藥效下降幅度在0%到8%之間。為了檢驗這一聲稱,一消費者組織從生產商那裡獲得了20 罐殺蟲劑隨機樣本。先檢驗每一罐的藥效,然後在室溫下儲存6個月。儲存期過後,再檢驗每一罐的效。 記錄每罐藥效下降的百分比,資料如下。 0.5 3.5 4.4 6.0 6.6 5.4 7.9 4.6 5.4 5.7

7.2 單個總體方差的估計和檢驗 •379• 2.5 1.1 5.9 2.7 2.3 1.4 1.8 5.8 0.2 7.1 利用這些資料確定是否有充足的證據表明藥效下降百分比總體比生產商聲稱的有更大的變異性。給定 =0.05。 解答生產商聲稱藥效下降百分比總體的極差為&。將極差除以4,我們便得到總體標準差的近似值。=2(或。 =4)。 零假設和備擇假設為: Ho:。’≤4(即,假設生產商的聲稱正確) Hw:。2>4(即,比生產商聲稱的有更大的變異性) 0.999 0.99 0.95 0.80 辦0.S0 0.05 0.01 0.001 0 1 2 3 4 藥效 5 6? 8 圖7.7 葯效資料的正態機率圖為「利用我們關於方差的推斷方法,首先,我們必須檢查資料的正態性。從圖7.7 我們看到,描的點大致落在一條直線上,因此正態性條件似乎滿足。根據這 20個資料,我們得到。?=5.45。檢驗統計量和拒絕域如下: 19(5.45)-25.88 R.R.(拒絕域):對於a=0.05.如果x的計算值大於30.14,則拒絕Ho,其中34.14 為附表7中對應於 a =0.05,df=19的x2臨界值。 結論:因為x’的計算值25.88小於臨界值30.14,所以在a =0.05水平下,我們並沒有充足的證據拒絕生產商的聲稱。利用計算機程式可以得出值=P(x >25.88)= 0.14。利用附表7,我們僅能得出 >0.10,因值=P(xig> 25.88)>P(xi,>27.20)=0.10。由於樣本容量相對較小,且中值也不是很大,因此消費者並不準備接受 Ho:。2≤4。更為明智的選擇就是在作出明確的結論之前

• 380• 第七章關於總體方差的推斷利用大樣本再作一次補充的檢驗。 關於。的推斷方法是基於這樣一個條件,即,隨機樣本來自下一個正態總體, 這與基1分佈的推斷方法相類似。但是,當樣本容量適當大時(n≥30),即使正態性條件不滿足,也可利用基於!分佈的方法來對,進行統計推斷,因為對於相對大的樣本容量來說,由中心極限定理可知樣本均值近似服從正態分佈。不幸的是, 在用基子x2分佈的方法對。進行推斷時,同樣的緒論並不能成立:也就是說,如果總體分佈明顯偏離止態,那麼,即使樣本容量很大,用這些方法對。進行推斷也是不合適的。總體的非正態性,或是偏態,或是厚尾,對名義顯著性水平和。的置信機率都有嚴重影響。如果樣本資料的盒形圖和止態機率圖顯示嚴重偏態或者發現大量異常值,那麼就不能應用基於x2分佈的推斷方法。此時可利用另外一些推斷方法,這些方法在計算上進行了精心的設計。其中一種方法就是自助(bootsirap)法。自助為估計像樣本方差這樣的樣本統計量的不確定性提供了一種簡單、實用的方法。我們可以利用自助方法估計樣本方差的抽樣分佈。然後,根據估計出的抽樣分佈產生。的置信區間和關於。假設檢驗的拒絕域。關於自助法的有關內容可參看兩本書,即,An Inttroluction to the BSoozstrap,Chapman and Hfail, New York,1993 和 Randonization,Bootstrap and Monte Carlo Methods in Biolo8,Chapman and Hall New Yotk,1998, 前者由 Efron 和 Tibshirani 撰寫,後者由 Manly 所著。 例7.3 為了解當樣本來自於厚尾分佈或偏態分佈而不是來自於所需的正態分佈時 x“檢驗水平所受到的影響,進行了一項模擬研究。研究中使用了五種分佈,即正態分佈,均勻分佈(短尾分佈),自由度為5的:分佈的(厚尾分佈),兩個伽馬(F, Gamma)分佈,其中一個輕度偏態,另一個嚴重偏態。表7.2列出了以上分佈的一些統計量。 統計量均值方差偏度蟬度正態 0 100 0 3 表7.2 模擬中各個分佈的概括統計量分布均勾 17.32 100 0 1.8 1(d=5) 伽馬(形狀=1) 0 10 100 100 0 2 9 伽馬(形狀=0.1) 3.162 100 6.32 63 注意到每一個分佈都具有同樣的方差。=100,但是分佈的偏度和峰度不同。從

7.2 單個總體方差的估計和檢驗•38t• 每一個分佈中,選擇樣本容量分別為10.20和50的2500 個隨機樣本。給定。= 0.05 吋,檢驗 Ho:0≤100 H:02>100和Ho:d≥100 H: ’<100。對於來自5個分佈中的每一個分佈的不同樣本容量的每2500個樣本均進行方差的卡方檢驗。結果列丁表7.3,這些結果顯示了非正態性樣本對檢驗的靈敏性嗎? 樣本容量 11=10 n=20 ×-50 正態 0.047 0.052 0.049 樣本容量 n = 10 =20 7 =50 正態 0.046 0.050 0.051 表1.3 H。被拒絕次數的比例(a=0.05) H:G≥100 分布均勻 0.004 0.006 0.004 F(i) 0.083 0.103 0.122 0.134 0.139 0.156 Hu:'<100 分佈均勻 0.018 0.011 0.018: 0.119 0.140 0.157 伽馬(1) 0.202 0.213 0.220 r(0.1) 0.139 0.175 0.226 伽馬(0.1) 0.213 0.578 0.528 解答表7.3的值是關於方差的卡方檢驗的犯第1類錯誤機率 a的估計。當樣本來自於正態總體時,犯第1類錯誤的實際機率非常接近於名義機率a=0.05。 當總體分佈為對稱但比正態分佈更短尾時,實際機率比0.05 要小,但是對於對稱厚尾分佈,犯第1類錯誤的實際機率比0.05要大很多。並且,對於兩個偏態分佈, 實際 a值比0.05要大很多。而且總體分佈越偏態,實際a值與 0.05 的偏差越大。從上面這些結果中可以看出,有很強證據表明總體方差的卡方檢驗的a值對於非止態性是很敏感的。這就更加使得我們推薦:在進行總體方差的卡方檢驗之前要檢驗資料的正態性。 練習基本技能 7.1 假設Y服從自由度為27的x2分佈 a.求P(Y≥46.96)。 b.求 (Y>18.81)。 c.求P(Y<12.88)。

•382• 第七章關予總體方差的推斷 d. P(12.88<Y<46.96)等幹多少? 7.2 對於自由度為11的x分佈, a.求x3.0250 b.求x.975。 7.3 對於很多自由度df,利用附表7我們可以查到x”分佈的分位數。但是,當所需自由度沒有列在表中且自由度大於40時,我們可以用下面的公式求出相應分位數的近似值。 其中x是df= 的分佈的上分位數,。是標準正態分佈的上分位數。 .對自由度為80 的x 分佈,將表7中 23.02s和 x3.97s的實際值與其近似進行對比。 b.假定 Y服從自由度為277的x 分佈,求x6.028和x品.97s的近似俏。 應用 7.4(生物) 在關於評估用於檢出大腸桿菌的方法的案例分析中,使用了24 個培養細菌作為隨機樣本。證明這是一個合適的樣本容量,它滿足如下條件:即, 研究老需要一個樣本容基,使其能以95%置信度相信樣本均值在實際 HGMIF 均值的0.1個單位以內。根據過去對HGMF 方法的經驗,標準差近似等於0.25個單位。 7.5(工程)包裝線上放著名義上為32 盎司番茄汁的罐子,這些罐子內果汁數量滿足均值為32.30盎司的正態分佈,工序的標準差應該小於0.15 盎司。(標準差大會導致太多罐子內的番茄汁不足且有太多罐子過滿。)為了評價該工序,每小時隨機抽取 50罐。對其中一個樣本的資料概括分析如下,且畫出圖7.8。 Descriptive Statistics for Juice Data Variable Juice Jars 50 Variable Hinimum Juice Jars 31.674 Hean 32.267 Maximu 32.515 Median 32.248 91 32.177 Trfean 32.270 03 32.376 StDev 0.135 SE Mean 0.019 a.如果工序加工出的每罐番茄汁服從滿足均值為32.30盎司,標準差為0.15 盎司的正態分佈,那麼在包裝線上不滿的罐子比例是多少? b. 圖7.8 是否表明利用卡方方法構造。的置信區間和對。進行假設檢驗所需的條件被違反了?

7.2 單個總體方差的估計和檢驗 •383• 0.999 0.99 0.95 0.80 畔0.s0 0.20 0.05 0.01 0.00! 31.9 7.8 32.0 32.1 32.2 32.3 每罐番茄汁的盎司數番茄汁資料的正態機率圖 32.4 32.5 c. 構造T序標準差的95%置信區間。 d. 資料是否表呀工序標準差人於0.15?取a=0.05。 e.求檢驗的p值的界限。 7.6(工程)一位研究人員在研究州際高速公路上發生的交通事故時指出州際高速公路上發生的許多撞車事故,其主要原因並不是汽車的速度和汽車速度之間的差別。當一些愾車速度很慢而另一些汽車以極限速度快速行駛時,快行的汽車必須迅速改變車道,這就增加「事故發生的可能性。因此,在州際高速公路上的某個地點,與行駛速度更一致時相比,當汔車行駛速度差別很大時,事故發生的次數會更多。研究人員相信當汽車速度標準差超過10mph(英里/小時)時,事故發生率會大大增加。在個小時的時間段內,從一段事故發生率較高的州際公路上隨機選擇了100輛汽車,用雷達槍記錄它們的速度。將資料總結如下,並面出盒形 100 * 90 . 80 70 60 50 40、 •384• 第七章關於總體方差的椎斷圖。 Descriptive Statistics for Vehicle Speeds Variable N Mean Speed(mph) 100 64.48 Variable Minimum Haximum Speed(nph) 37.85 96.51 Median 64.20 Q1 57.42 TTMean 64.46 03 71.05 Stev 11.35 SE Nean 1.13 2.盒形圖是否表明利用卡方方法構造。的置信區間和對。進行假設檢驗所需的條件被違反了? b.用95%世信區間估計冷車速度的標準差。 c.資料是否以5%的水平表明汽車行駛速度的標準差超過10mpl? 7.7(工程)一小型裝置上某零件的直徑應該為4.000mm,且說明書允許最大標準差為0.011mm。26 個零件直徑的隨機樣本資料如下: 3.952 3.978 3.979 3.984 4.000 4.000 4.000 4.001 4.010 4.012 4.023 4.041 3.987 4.001 3.991 3.995 3.997 3.999 3.999 3.999 4.002 4.002 4.003 4.004 4.006 4.009 自.計算樣本均值秤標準差。 b.研究假設a≥0.011能夠在a=0.05的水平上被資料支援嗎?敘述統計假設檢驗的所有部分。 7.8 利用練習7.7的資料,分別計算實際方差和實際標準差的90%置信區間。 7.9 對練習7.7的資料作圖。圖是否表明你在練習7.7 和7.8 中答案所基於的假設被違背了嗎?這樣的違背對於答案的有效性有嚴重影響嗎? 7.10(教青)某一大型公眾教育系統正在評估它的小學閱讀計劃。特別地, 教育工作者對學生參加面向州內所有三年級學生的標準化閱讀考試所取得的分數感興趣。將他們的平均分數與州的平均分數進行對比可確定該教育系統的等級。 同時,教育工作者也關心分數之間的差異。如果平均分數可以接受,但分數之間的差異較大,這表明有很大一部分學生將需要糾正閱讀計劃。同時,分數差異這樣大也表明需要設計能滿足有才華學生需要的閱讀計劃。如果沒有加速的閱讀計劃, 這些學生會對閱讀課失去興趣。為了獲得學生在學年早期的資訊(在學年的最後一個月進行全州範圍的考試),隨機抽取150名三年級學生參加考試,試卷為上學年的考試試卷。考試分數在0到100之間,將資料描述如下。

7.2 單個總體方差的估計和檢驗•385• Descriptive Statistics for Reading Scores Variable Reading Variable Reading N 150 Minimum 44.509 Hean Median 70.571 71.226 Haximum 21 94.570 TrHean 70.514 03 65.085 76.144 stDer 9.537 SE Nean 0.779 a.資料圖是否表明利用卡方方法構造。的置信區同和對。進行假設檢驗所需的條件被違反了? b.用99%置信區間估計閱讀分數的方差。 c.資料是否表明閱讀分數的方差大於90,其中90為所有參加上學年考試學生的閱讀分數的方差? 95 85數分75 讀密6s 55 * # 7.11 給出練習7.10中檢驗值的界限。 7.12(工程)棒球之間的反彈係數往往有所差別。當用同樣的力作用於棒球時,反彈係數較大的棒球比反彈係數較小的棒球飛得遠。為了獲得一場比賽,其中每一個擊球手都有同樣的機會擊中本條打,球應該具有同樣的反彈係數。現已設計出一種標準檢測來測址棒球的反彈係數。一買主欲購買很多棒球,他要求平均反彈係數為85單位且標準差小於比2單位。從批次較大的一批棒球中隨機選取81 個球進行檢測,檢測資料的概話統計量如下。 Descriptive Stat istics for Rebound Coefficient Data Variable Rebound Variable Rebound N 81 Minimum 80.934 Hean 65.296 Maximum 89.687 Median TrHean 85.387 85.285 21 03 84.174 86.352 StDev 1.771 SE Hean 0.197

• 386• 第七章關於總體方差的推斷 a. 下圖是否表明利用卡方方法構造。的置信區間和對。進行假設檢驗所需的條件被違反了? b.是否有充分證據表明該批棒球反彈係數的標準差小2? c.用95%置倍區間估計反彈係數標準差。 90 * 89 88穢87. 8】 848382810.999 0.99 0.95 0.80 0.50 概 0.20 0.05 0.01 0.001 81 82 83 84 85 86 87 反彈係數 88 -j 七 89 90 7.3 比較兩個總體方差時的估計和檢驗在關於大腸桿菌檢測方法的案例研究中,我們關心如何比較兩總體的標準差。 在很多情況下,比如比較兩道工序,或比較產品的兩個供應商,我們都需要比較與工序測量相關的總體的標準差。兩總體方差的齊性檢驗的另一個主要應用就是對於兩樣本的:檢驗要評價方差相等這一條件的正確性(即好=唔)。本節所介紹的檢驗要求兩總體的分佈為正態。我們欲將總體1的方差好?和總體2的方差品

7.3 比按兩個總體力差時的估計和檢驗•387• 進行對比。 當容量分別為71和*2兩個隨機樣本獨立地取自於兩個正態分佈總體時,比率 310 s/ -囂具有『分佈。這裡略去其機率分佈的公式,但是我們將列出它的性質。 F 分佈的性質 1. 不像t或z,但像x’一樣,F僅能取到正值。 2. 不像正態分佈或:分佈,但像x分佈那樣,F分佈是非對稱的。(見圖 7.9)。 3.有許多F分佈,每一個都有不同的形狀。我們規定每一個特定的F分佈的自由度為相應的和8的自由度,分別記為 df和dhzo(見圖7.9)。 4. F 分佈的尾部值被編製成表,見附表8。 附表8列出了對應於面積 c =0.25, 0.10,0.05, 0.025,0.01.0.005 和 0.001 的F分佈的上尾值;將s予的自由度df,列於表的頂部,8的自由度d列於表左側的第一列,a的值被列在下一列。因此當 df =5,dfz=10時,對應子面積a= 0.25,0.10,0.05. 0.025,0.01,0.005 和0.001 的F 分佈臨界值分別為 1.59, 0.8 0.7 0.6 0.5 d, =10. df2=20 度密 0.4 0.3 0.2 0.1 0.0 dfi=5,df= 10 0 2 3 4 5 F的值 6 7 圖 7.9 兩個 F分佈的密度函式 8 9 10

•388• 第七章關於總體方差的推斷 2.52, 3.33.4.24, 5.64.6.78 和10.48。於是,在重複抽中,來自於自由度 df = 5,dt =10的F分佈的觀測值中只有5%的觀測值超過3.33(見圖7.10)。同樣, 在當 df,=24,d=10時,對應於尾部面積a=0.01 和0.001 的F 臨界值分別為 4.33 和7.64。 0.7 0.6 0.5 0.4 度 $ 0.3 0.2 0.1 0.0 $的分佈面積=0.05 0 1 2 3 4 5 6 7 8 F的值圖7.10 F分佈的臨界值(df,=5,df=10) 9 10 利用檢驗統計量s3/8可進行關於比較 0和的統計檢驗。當好=品時, 0/略=1且s/s服從自由度dfy=n1-1,df=#2-1的F分佈,附表8給出了 F分佈的上尾值。下尾值可以透過下面的關係求出:分別令Fo.d,d,F•.d,郵為自由度為df,dfz的F分佈的上a分位數和下 a分位數。則, Fl-a.d,d= 1 Fo.d.d, 注意等式兩邊 F 分位數的自由度正好相反。 例7.4 給出自由度為df =4,df=9 的F分佈的下0.025分位數。 解答從附表8可以查到,自由度df =9,df=4 的F分佈的下0.025分位數

7.3 比較兩個總體方差時的估計和檢驗•389• 為8.90。因此, F0.975.9.4 = I I Fo.uz5.9,4 或F0.975.4.9 =8.90 = 0.11 對於單側備擇假設,記兩總體為總體1和總體2,這樣 H。的形式為:0>0,拒絕域落在分佈的上尾區域。 我們將檢驗方法總結如下。 比較和的統計檢驗 Hn:1.a≤o Ha:1.0>0 2.0=0 2.0 0 T. S.(檢驗統訃量):F=3/3 R. R.(拒絕域):對於給定的a值,且df=n--1.df =n2-1, 1•如果F≥Fa,t,d,則拒總Ho。 2. 如果F≤E1-C/2.d,旺,或F≥K0/2.dd,則拒絕Ho。 例7.$ 以前,我們討論了一項試驗,其中公司職員所關心的是一種特定藥品的約效維持的時間。為此,從生產線上隨機抽取 10 瓶藥品作為隨機樣本且對每一瓶進行分析以確定它們的藥效。同時抽取另外10瓶作為第二個樣本,並在規定的環境下將其儲存一年。年底再觀測這些藥品的藥效。然後,根據這些祥本資料構造兩個時期平均藥效差 I—42 的置信區間。 我們在第六章提到,在構造pI—p2的置信區間或在作關子pI-#2 的統計檢驗時為了使用:方法,我們要求兩個樣本分別來自於兩個正態總體,其均值可以不同,但方差應該相同。利用下面根據樣本資料算得的結果檢驗總體方差是否相等。 給定=0.05。樣本1的資料是剛下生產線的藥品的葯效讀數,樣本2的資料是儲存一年以後的藥品的藥效讀數,試給出結論。 樣本1: 1=10.37,8=0.105。 樣木2:32=9.83,$=0.058。 解答關於 Hu:好=唔統計檢驗的四個部分如下。 Ho:0=0 H:0頭齡檢驗統計量:F=$1/s=0.105/0.058=1.81 在確定拒絕域之前,我們必須檢查兩個樣本是否均來自於正態總體。在這一條件能夠滿足之後,我們才能確定下面的拒絕域。

• 390• 第七章關幹總體方差的推斷拒絕域:對於a=0.05 的雙側檢驗,如果 F≥F0.025.99=4.03或F≤F.975.9.8 =1/ 025.9.0=1/4.03=0.25,我們將拒絕Ho。因為1.81沒有落在拒絕域中,所以,我們並不能拒絕Ho:0=磅。對於:方法所需要的方差齊性,從這些資料看來是成立的。 現在我們能求比率 83/63的置信區間。 1/m的置信係數為1- 的置信區間 FL≤ q s $2 72 1。(注意:a1/02的置信區間可以透過將o/唔的置信區間端點值開平方得到。) 應該注意到,儘管我們對o3/0的估計方法適用於任何置信係數(1-a),但表8只允許我們使用常用的置信係數如 0.90.0.95, 0.98, 0.99 等去構造 0/的置信區間。更詳細的 F分佈分位數表可參見 Pearson and Hartley(1966)。 例7.6 為研究一種電子元件在110和220伏兩種電壓下工作的壽命,取10只不同的電子元件隨機安排在110伏電壓下工作,而另外16 只不同元件被隨機安排在220 伏電壓下工作。記錄26 只元件失效的時間(以百小時計),並得到如下統計量和正態機率圖。 電壓 110 220 樣本容量 10 16 均值 20.04 9.99 標準差 0.474 0.233 研究人員欲估計110 和220伏電壓下使用壽命變異程度的相對大小,利用樣本資料構造兩種工作電壓下元件使用壽命標準差比率 a/02的90%置信區間。 解答在構造置信區問之前,有必要檢查一下兩個使用壽命總體是否服從正態分佈。從正態機率圖來看,兩個樣本資料似乎均來自於正態總體。接下來,我們需要查 df,=10-1=9,d=16-1=15的F分佈的上和下a/2.=0.10/2=0.05分位數。從附表8我們可以查得: Fu=Fo.0s.15.9=3.01 和 Fl.=Fo.Ss.15.9=1/Fo.05.9.15=1/2.59 =0.386

7.3 比較兩個總體方差時的估計秤檢驗 •391• 率概 0.999 0.99 0.95 0.80 0.50 0.20 0.05 0.01 0.001 19.5 20.0 20.5 元件失效的時間 110 伏電壓下使用壽命的正態機率圖 21.0 0.999 0.99 0.95 0.80 0.50 0.20 0.05 0.01 0.001 9.70 9.95 10.20 元件失效的時間 220伏電壓下使用壽命的正態機率圖代入置信區間公式,我們得到好/唔的90%置信區間: (0.23330.386≤d≤ (0.474)” 70.233)23.01 1.5975≤9 ≤12.4569 於是,a/o2的90%置信區同為: /1.5975≤ 旦1 ^ V12.4569 或 10.45 1.26≤21≤3.53

• 392• 第七章關於總體方差的推斷醫此,我們有90%把握相信o1在o2的1.26倍到3.53倍之間。 例7.7 現在我們來完成大腸桿菌案例研究的第一階段的分析。 0.999 0.99 0.95 0.80 率概 0.50 0.20 0.05 0.01 0.001 6.54 6.64 6.74 6.84 6.94 7.04 7.14 (a) HGMF測得的大腸桿菌濃度 7.24 7.34 0.999 0.99 0.95 0.80 0.50 0.20 0.05 0.01 - 0.001 6.65 6.75 6.85 6.95 7.05 7.15 7.25 7.35 7.45 7.55 (b)HEC測得的大腸桿菌濃度圖 7.11 HEC 和 EGME 的正態機率圖案例中資料的分析由於研究的日的是要評價 HEC 方法在檢測大腸桿菌方面的效果,因此,有必要將 HEC 方法和一種已經被接受了的方法—HGMF 法進行比較,以評價其可重複性和一致性。因此我們需要比較這兩種方法檢測大腸桿菌濃度的水平和變異性,即我們需要檢驗關於 HEC 和 HGMF 的大腸桿菌濃度均值和標準差的假設。對於一個具有特定水平71og10CFU/ml 的腸桿菌純培養細菌, 曾利用 HEC 和 HGMF 方法進行檢測分別得到24個獨立觀察值。在構造置信區

7.3 比較兩個總體方差時的估計和檢驗 •393• 間和進行檢驗假設之前,我們必須首先檢查樣本資料是否來自正態總體。從盒形圖7.2和正態機率圖7.11 中可以看出,兩種方法的樣本資料均來自於正態總體。 下面我們檢驗假設: Ho:c=哈 Ha:好大品其中,記 HEC 為總體1,HGMF 為總體2。有關統計量如下。 方法 HEC: HGMF 樣本容量 -- 24 24 均值 7.1346 6.9529 標準差 0.2291 0.2096 R.R.(拒絕域):對於 a =0.05 的雙側檢驗,如果 Fu= si/s≤ Fo.975.23,23 = 1/F0.025,23.23 = 1/2.31 = 0.43 或F≥ F0.025.23,23 = 2.31 則我們將拒絕Ho。 由於 (0.2291)2/(0.2096) =1.19既不比0.43 小也不比2.31大,因此我們不能拒絕 Ho。利用計算機軟體,我們可以得出該統計檢驗的值為0.672。因此我們認為在檢測大腸桿菌濃度時,HEC.和 HGMF法有相似的變異程度。為了獲得 HEC 和 HGMF 檢測值變異程度的估計,它們的標準差 aHC和OHGMI的95%置信區間分別為(0.17,0.23)和(0.16,0.21)。 HEC 和 HGMF 兩種大腸桿菌檢驗濃度讀數是兩個獨立隨機樣本,分別來自有著公共標準差的兩個正態總體,因此我們利用混合:檢驗來檢驗假設: Ho:KI = K2 H:AI M2 R.R.(拒絕域):對於 a =0.05 的雙尾檢驗,如果 It「L-32≥10.0235.06 =2.01 Sp 771 12 則我們拒絕 Hoo 因為士=2.87比2.01大,所以我們拒絕Ho。戶值等於 0.0062。因此有充分證據表明 HEC法檢測大腸桿菌濃度的讀數均信與 HGMF 法不同。為了估計平均讀數,可得 pTEc:和 HGSMF的95%置信區間分別為(7.04,7.23)和(6.86,7.04)。 HEC法的平均讀數比 HGMF的高。這些結果為研究的第二階段做好了準備。在這一階段中,HEC和 HGMF 法被應用於實地研究中同樣的肉類樣本,這種實地研究類似於我們將要遇到的對肉類質量的監控。兩種方法具有同樣的變異水平,但 HEC 產生的大腸桿菌濃度讀數比 HGMF的高。因此階段2的日的是參照 HGME 讀數校準 HEC的讀數。在本章的後面部分,我們將討論這一階段的分析。

•394• 第七章關於總體方差的推斷報告結論我們需要寫一份報告,總結我們關於階段1的研究結果。報告應包括以下幾部分: 1.介紹研究目的。 2..敘述研究設計和資料收集方案。 3. 用數字和圖表對資料集合進行概括。 4. 敘述所有的推斷方法。 ••檢驗和F檢驗。 •基子:方法的均值的置信區間。 •基於卡方方法的標準差的置信區間。 •證實所用推斷技術的所有必要條件能夠滿足。 5.對結論和結果的討論。 6.相對於以前的研究,對新發現的研究結果進行解釋。 7. 對下未來研究的建議。 8.將資料列表。 透過模擬研究考察了當樣本來自於厚尾分佈和偏態分佈而不是來自於需要的正態分佈時 F檢驗的水半所受到的影響。模擬中所用到的五種分佈在例7.3中已經介紹過了。 對於每一對樣本容量(n1 2)=(10,10),(10,20)或(20,20)。從每一個分佈總體中抽取了給定樣本容量的隨機樣本。在a =0.05 水平下,對假設H0:0=03 H:d略進行F檢驗。對於五種分佈中的每一個分佈和三對樣本容量都重複進行2500次這種檢驗,結果列丁表7.4中。 表7.4 Ho: =0 被拒絕次數的比例(a=0.05) 分樣本容量一正態 (10.10) (10,20) (20,20) 0.054 0.056 0.050 均勻 0.010 0.0068 0.0044 1(df=s) 0.121 0.140 0.150 布伽馬(形狀=1) 0.225 0.236 0.264 伽馬(形狀-0.1) 0.693 0.671 0.673 表7.4中給出的值是兩總體方差齊性F檢驗的犯第1類錯誤機率的估計值。 對於三對樣本容量來說,當樣本來自於正態總體時,a值都幾乎等於其名義值 0.05,這是預料之中的。因為F檢驗就是在總體分佈為正態時被構造用來檢驗假設。但是當總體分佈是類似於均勻分佈的對稱短尾分佈時,a值比給定的值 0.05 小很多。因此,此時F檢驗犯第I類錯誤的機率很可能比當樣本來自於正態總體

7.3 比較兩個總體方差時的估計和檢驗 •395• 時要大很多。當總體分佈是對稱厚尾分佈時,如自由度df=5的:分佈,a值比給定的值0.05大兩到三倍。因此當總體分佈具有這種形式時,F檢驗犯第I類錯誤的機率比預料的更大。同樣的問題也發生在樣本來自於偏態分佈總體,如兩個伽馬分佈。事實上,在這些情況下犯第1類錯誤的機率非常大,因此致使對於這些類型分佈的F檢驗無效。 練習基本技能 7.13 任下列條件下,求分佈上尾面積為a的F 臨界值。 日. 8 =0.05,df=7,dfa =120 b.a=0.05, df=3, df=10。 c.a=0.05, df =10, dfz=20。 d. a =0.01, df =8, dfz =150 e.a=0.01, d = 12, df =25。 《注意:你的答案可能與書後面的答案不一致,只要你的答案接近於書中的答案,就可以認為是止確的。) 7.14 求出下列條件下 F。的近似值 a. a=0.05, dfy=11, dfz =24c b.a =0.05, dfy =14, df =14。 c. a=0.05, dl, =35, dfz=22。 d.a =0.01, d=22, dfz =24。 e. a=0.01, df=17, dfz=25。 7.15 分別從總體1和總體2中抽取 1=8,72=10的隨機樣本。相應的樣本方差是:=7.4,s=12.7。資料是否提供充分的證據表明c與之間存在差異?給定a =0.10,試檢驗之。你做了什麼樣的假設? 7.16 透過做試驗以確定是否有充分的證據表明一個總體(記為總體A)內資料的變異程度,超過了另一個總體(記為總體B)內資料的變異程度。從兩個總體中分別抽取 *A=*B=8的隨機樣本,且計算樣本方差如下: $=2.87 S= 0.91 資料是否提供了充分的證據表明。大於品?試在a=0.05水平下進行檢驗。 應用 7.17(工程)一-家軟飲料公司正在評估一項購買新型罐裝機器的投資。該公司已經瞭解到如果安裝了新機器,那麼花費同樣的成本每天能生產更多罐飲料。 但是,公司也必須搞清楚使用新機器進行罐裝時各罐飲料重量之間的變異性,並且

• 396• 第七章關於總體方差的推斷希望新機器罐裝的飲料重量變異性小於或等於舊機器罐裝的飲料重量變異性。他們設計了一個研究方案,就是從兩種機器生產的產品中各抽取61 罐作為隨機樣本,並且規定了每罐飲料的重量(以盎司為單位)。將資料用表和盒形圖描述如下。 罐裝試驗的資料機器型別舊新樣本容量 61 61 均值標準差 12.284 12.197 0.231 0.162 12.812.311.8舊機器新機器舊機器和新機器的盒形圖 (均值以實心圓點表示) 2.用95%置信區間估計新舊兩種機器罐裝飲料重量的標準差。 b. 資料是否提供了充分的證據表明新機器比舊機器罐裝飲料重量的變異性更小? c.進行(a)和(b)的統計推斷所需的條件是否滿足?試證明你的答案。 7.18(教育)SAT(Scholastic Assessment Test)考試作為大學入學條件的一部分是大多數高中生都要參加的一種考試。有人建議想改變這項考試的方式,讓學生在計算機上進行考試。考試題目由學生按下面的方式進行選擇。對於給定的一部分試題,如果學生把最初的問題答對了,後面的題就會更難;如果學生把最初的問題答錯了,後面的題難度不會增加。根據每個考試的難度水平給出考試的最終標準分數。考試機構欲比較採用新方法和當前使用的舊方法之間考試分數的差異。隨機選擇了182名學生參與研究。其中隨機安排91名採用新方法參加考試,

7.4 比較多個總體方差時的檢驗 • 397• 另91 名學生採用舊方法參加考試。數學考試的分數以表和盒形圖表述如下。 考試方式計算機傳統 SAT 數學考試分數資料樣本容量 91 91 均值 484.45 487.38 標準差 53.77 36.94 600 500400- * 300傳統方式計算機方式傳統方式和計算機方式的盒形圖 (均值以實心圓點表示) 試評估兩種 SAT考試方式,進行假設檢驗並構造置信區間。兩種方式下考試分數的均值和標準差皆相等嗎?並證實你的結論,取 a=0.05。 7.19 利用表7.3和7.4 回答下列問題: a. 偏態和厚尾對卡方檢驗和 F 檢驗的影響相同嗎? b. 對於給定的總體分佈,增加樣本容量會使得 a值與其名義值 0.05 更接近嗎?並解釋之。 c. 對於短尾分佈,犯第1類錯誤的真實機率比給定值0.05確實小嗎?如果a 值的減小對F檢驗有負面影響的話,那麼有什麼負面影響? 7.4 比較多個總體方差時的檢驗在前面的部分,我們討論了根據獨立地取自於兩個正態分佈總體的隨機樣本來比較兩總體方差的方法。在許多情況中,我們需要比較兩個以上的總體。例如, 我們欲比較5個不同的供應商所供應食品的營養水平的變異性或比較使用三個主

•398,