AI 新聞與投資
統計學方法與資料分析引論

第七章 第八章

9 / 34

關於總體中心值的推斷兩總體中心值的比較關於總體方差的推斷兩個以上總體的中心值的推斷多重比較型別資料第五章 5.1 引言和業例 5.2 的傳計 5.3 估計 p時樣本容量的選取 5.4 關於p 的統計檢驗 5.5 對於從進行檢驗時樣本容量的選取 5.6 統計檢驗的顯著性水平 5.7 正態總體均值p的統計推斷,G未知 5.8 關於中位數的推斷 5.9 小結關於總體中心值的推斷 5.1 引言和案例推斷,具體來說就是決策和預測,已有數百年的歷史,且在我們的生活中起著非常重要的作用。我們每個人都面臨著日常的個人決策,面臨著對未來的預測。 美國政府要考慮保持與歐洲和亞洲國家的貿易平衡問題。一個投資顧同想知道未來的6個月是否要發生通貨膨脹。冶金學家意欲根據一個實驗的結果來決定一種新型的輕合金是否具有製造汽車所必需的強度。獸醫欲瞭解一種新的化學藥物的效力,以殺死狗身上的犬惡絲蟲。這些單位或個人都是根據相關的事實來作出各自的推斷,我們稱這些事實為觀察值或資料。 在很多實際問題中,這些相關事實往往是大量的,似乎還是不自一致的,並且在許多方面,人們對這些事實顯得無能為力。結果,往往一個花很大心思作出的決策或預測並不比一個直接的猜測好多少。你只要看一-下華爾街雜誌(Wall Street Journal)中的市場瞭望部分或有線電視上的某一金融訊息,你就會發現專家對未來股票市場行為的觀點是幹差萬別的。同樣地,由科學家和工程師根據對資料直觀分析所得出的觀點往往與實驗的結論相互矛盾。 許多人覺得他們自己天生地具有相當好的推斷才能。然而,經驗告訴我們,人多數人不能利用大量的資料資料,理智地權衡每一點相關資訊,得出一個好的推斷。(你可以利用第五至第十章的練習檢驗自己的推斷能力。在使用適當的統計方法之前瀏覽一下資料,作出推斷,然後比較所得結果。)統計學家並不是憑藉於他或她的直覺,而是根據統計結果作推斷。雖然,在前幾章中,我們接觸到一些有關統計推斷的概念,但是現在我們仍需集中思路介紹有關統計推斷的基本思想。 統計的目的就是根據包含在樣本中的資訊對總體進行推斷。總體的特徵是用

• 216• 第五章關於總體中心值的推斷數字進行描述的,稱這種特徵為引數。典型的總體引數有均值 p、中位數M、標準差。和某—比例x。大多數推斷問題可以歸結為對總體的一個或多個引數進行推斷。例如,由Wisconsin(威斯康星)教育部門做的一項研究,欲評估小學階段孩子的閱讀能力。總體是由威斯康星州所有小學各年級孩子參加標準閱讀考試的分數所構成的一個整體。我們欲估計總體平均分數p和在總體中分數低於某一標準的學生所佔的比例x,若某一學生的分數低於該標準,則表明這個學生需要一些幫助措施。 引數推斷無外乎就是下面兩種情況之一,要麼估計(預測)總體引數的值,要麼對引數值進行檢驗。這兩種統計推斷——估計和檢驗—的方法步驟不同。更重要的是,它們回答了引數的兩個不同問題。估計總體引數實際上就是回答這樣• 個問題,即“總體引數的值是多少”,而檢驗一個假設就是回答“總體引數是否等於這個特定的值?” 考慮下面一項研究,研究者希望檢驗一種藥物在減輕焦慮病人焦慮程度方面的效力。研究者用篩選(screeing procedure)的方法挑選出一組焦慮的病人,在病人被接受參加這項研究之後,測量每個人的焦慮等級,緊接著讓其服第一劑藥,經一周藥物治療後,再測量他們焦慮的等級。這些資料可用來對樣本所來自的總體進行估計或統計檢驗: 估計:樣本中的資訊可以用來估計(或預測)所有可以被認可使用這種藥物的焦慮患者焦慮程度下降的平均值。 統計檢驗:樣本中的資訊可以用來確定焦慮程度下降的總體平均值是否大於 0 注意,與估訃相聯絡的推斷目的在於回答這樣的問題:“患者焦慮程度下降的總體平均值是什麼?”與此不同,統計檢驗卻是要回答這樣的問題,“焦慮程度下降的總體平均值大於0嗎?” 案例:從脂肪中所攝取的卡路里的百分比對於飲食和許多疾病之間的關係已經有許多研究。例如,從飲食的脂肪中攝取的熱量所佔的百分比可能與某種型別的癌症和心臟病的發病率有關。要探索飲食與疾病之間的關係,對一個人的日常飲食的評估和量化是很關鍵的。這是一項很困難的工作,但在監測人們的日常飲食行為的努力中,這是很重要的。Rosner, Willett 和 Spiegelman 在發表的論文"Correction of logistic regression relative risk estimates and confidence intervals for systematic within-persons measurement error” (“在有系統的個人測量誤差的情況下,Logistic 迴歸模型中相對風險的估計和置信區間的修正”,刊登在 Statistics in Medicine(1989),8:1051-1070)中,描述了稱為 “護士健康的研究”的一項研究,其中考察了由很多婦女組成的樣本的飲食。 設計如何收集資料研究目的之一就是確定一群婦女從日常飲食的脂肪中所

5.1 引言和案例•217• 攝取的卡路里的百分數。有許多飲食評定方法。在很多關於營養的流行病學的研究中,最常用的方法是飲食情況同卷調查法(food frequency questionnaire, FHQ),即透過精心設計的一系列問題來確定被研究者的飲食情況。在護士健康的研究中, 從一群女性護士中隨機地抽取168 名護士,進行了一次問卷調查。根據問卷所收集的資訊計算出脂肪中所含卡路里的百分數(PCF)。人們感興趣的是對於由護士組成的這一總體,其PCF 的平均值 p、標準差,PCF 值大於50%的護士所佔的比例以及其他一些引數。資料軟盤中有包含護士年齡和其他變數的完整的資料。 被調查的樣本人數是由估計、a和x的估計精度所確定的。下一節,我們將討論確定樣本容址的幾種方法。據此,我們知道:上述容量為168 的樣本將是足夠的。 資料的整理研究者需要仔細地稽核來自調查問卷的資料,以確定被調查者的響應是否被正確地記錄,然後,在分析之前,將資料按照第2.5 節中的方法轉換成計算機檔案以備分析之用。 15 2 004 4 2 5566667788899999999 3000001111111222222233333333333444444444 3 5555555555555566666667777777777888888888888899999999 400000001111111111111122222233344444 4 5555566677899 5 034 57 圖 5.1 168名護士的 PCF 資料圖 Variable PCF Variable ECF Desor iptive Statistics for Percentoge Caloriea from Bat Data N 168 Minipun 15.925 Mean Nedian TMean 36.919 36.473 36.847 StDev 6.728 Maxcimu Q1 93 57.847 32.766 41.2$5 脂肪中的卡路里百分比資料的描述性統計量 SE Hean 0.519 資料分析研究中的下一步是透過圖和概括統計量來概括資料。168 名護士的PCF 值用莖葉圖表示出來如圖5.1所示。隨後的表則給出了概括統計量。 從基葉圖來看,資料似乎近似服從正態分佈,且 PCF 值落在15%到57%之間。PCF 值大於50%的護士所佔的比例為 =4/168=2.4%。根據概括統計的表,樣本均值 =36.919,樣本標準差s=6.728。研究者欲根據168名護士這 •

• 218• 第五章關丁總體中心值的推斷一隨機樣本推斷其所屬的總體。因此,我們需要將點估計附以邊界,以反映總體參數估計的豐信度。同時,研究者或許對關於總體 PCF 的平均值pA和方差。”的假設檢驗感興趣。例如,很多營養學家建議人們每天的飲食所攝取的卡路里中,來自於脂肪的卡路里不應超過30%。因此,我們要檢驗>30這一假設以確定總體的 PCF平均值是否超過營養學家建議的值。本章,我們將建立總體均值 x的區間估和統計檢驗。第七章和第十章將分別討論引數。和x的估計和檢驗問題。 練習基本技能 5.1(政治學)一名研究人員欲估計在她所在的州中,已登記的、在過去兩年中至少參加過一次選舉投票的選舉人所佔的百分比。 2.指出研究人員感興趣的總體。 b.你如何選擇一個樣本以收集所要的資訊? 5.2 在關於脂肪中所含卡路里的百分數的案例中 a.什麼是總體? b.除了變數PCF 外,還有哪些變數影響一個人的健康? c在護士的健康狀況研究中,除了飲食以外,護士還有哪些重要的特徵? d.試敘述一種隨機選擇護士參加試驗的方法。 e.給出研究人員可能感興趣的幾種假設。 5.3(工程)一家廠商聲稱某一保險絲的平均壽命是1,500小時。根據容量為35的保險絲樣本得到的資訊表明:平均壽命是1,380 小時。對廠商的斷言作何評價? a.指出我們感興趣的總體。 b.對所提問題解決辦法是一個估計問題,還是假設檢驗問題? $.4,經看習題5.3,你如何從保險絲廠抽取一組樣本,以檢驗廠商的斷言? 5.2 的估計統計推斷的第一步就是點估計,即根據樣本資料計算出一個值(統計量)作為總體引數的估計。假設我們欲估計一個總體的均值,且認為該總體是正態的。自然地,樣本均值可被用來估計總體均值,但我們也可以用樣本中位數和截尾均值。 那麼,究竟使用哪一個樣本統計量呢? 數理統計學的一個完整的分支涉及到對各種不同總體的引數建立相應的點估計量(即根據樣本資料計算具體點估計的計算公式),以及一個特定的點估計量是否具有某些合意的性質。幸運的是,我們不必推導這些點估計量—每一個引數

5.2 的估計•219• 的點估計都會被給出。對於所給的引數,我們一旦知道使用那一個點估計(公式), 就能建立這些引數的置信區間,即區間估計。 在本節中,我們將討論總體均值w的點估計和區間估計。第5.4節將討論關於p的假設檢驗問題。 在本書中,大多數情況下,我們都將用樣本均值估計總體均值p;同樣也用它構造x的區間估計。根據第四章給出的樣本均值的中心極限定理,當樣本容量 n充分大時(粗略地, ≥30,), 近似於均值為,標準差為a;的正態分佈。根據經驗準則和正態曲線下面積的有關結論,我們知道:在重複抽樣時,所有了中 f⑦ 95%的落入該區間 K-1.960g H 1+ 1.960p 圖 5.2 的抽樣分佈從圖5.2可以看出,樣本均值可能並不非常接近於其所要估計的總體均值從。因此,當得到值時,我們也應該提供作為的估計的精度。為此,考慮的可能值的區間,而不是僅僅使用單個值。考慮區間士1.96ag。一旦間 1.96a 的機率是0.95,所以,我們說區間士1.96ag是p的置信水平為 0.95 的區間估計。 為了評價區間估計的好壞,我們在重複抽樣的情況下,考察所有區間中那些包含所估計引數的區間的比例,稱其為置信係數。區間士1.96ag的置信係數為 0.95,即在重複抽樣時,用士1.96cy計算出的區間中有95%包含均值 A。 這種思想可用圖5.4表示。假設我們考察從蝦的生產到銷售給飯館這一商業過程。為監測蝦的大小,從池裡隨機撈出40只蝦,並測量其長度。我們考慮一次模擬監測。假設池中蝦的長度服從均值 =27cm、標準差。=10cm 的正態分佈。 從蝦的總體中選出容量為40的50個樣本。由於o = /Vn(見表5.1),對於每一個樣本,我們計算其區間估計 1.960g= 士1.96(10/、40。可以看出,雖然區間的位置不同,但是50個區間中只有2個區間沒有覆蓋均值x。有兩個樣本得到的區間不包括/這一事實並不表示這種區間估計的方法是失敗的。因為置

• 220. 第五章關於總體中心值的推斷 f) H- 1.960 一1.960 M 觀察到的 14+ 1,96as $+1.96ds 34 32 30 28 界間區 26 24 22 20 0 10 20 S0 樣本圖5.4 總體均值(27)的50個區間估計信水平為95%,所以,可以預見:在大量的置信水平為95%的置信區間中,差不多有5%的區間不包含。因此在50個區間中,有兩個或三個(即50中的5%)區間不包含A。關鍵要理解即使試驗按規操作,但仍然有一些試驗所得的結果在某種意義上是有誤差的。之所以如此,是因為我們只做了少量的試驗或抽取了容量較小的樣本。在我們的例子中,我們從總體中隨機地作了40次觀測,然後構造總體均值p的95%置信區間。如果大量重複這•過程——例如,重複 10,000次而不是50 次—那麼,不包含的區間將大約是5%。

1 2 3 4 5 6 7 5.2 的估計•221• 樣本均值 25.0080 28.8373 26.1587 30.1301 26.9420 28.5148 26.6456 27.6168 26.1866 27.6062 24.6580 27.6427 25.71.36 29.2075 26.0411 27.1937 27.2848 24.7320 28.8036 28.0333 28.1065 25.1701 26.7039 25.7587 27.4835 28.5009 25.7142 表S.1 總體均值(27)的50個95%的置信區間下限 21.9089 25.7382 23.0597 27.0310 23.8430 25.4158 23.5465 24.5178 23.8297 25.2348 23.8017 21.9988 23.1875 24.5072 21.5590 24.5437 22.6146 26.1084 22.9421 24.0947 24.1858 21.6330 25.7046 24.9343 25.0075 22.0711 23.6049 22.6597 24.3844 25.4019 22.6152 上限 28.1070 31.9363 29.2578 33.2291 30.0411 31.6139 29.7446 30.7158 30.0278 31.4329 29.9998 28.1969 29.2856 30.7053 27.7570 30.7418 28.8127 32.3065 31.2055 28.2691 29.8029 28.8577 30.5825 31.5999 28.8133 區間包含樣本均值是是是是是是是是是是是是是是是是是是是是是是是是是是是是是是

•222• 第五章關於總體中心值的推斷 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 樣本均值 24.05S7 25.5259 27.5036 29.3654 29.9348 25.9826 29.0128 25.1266 23.2452 25.3202 25.0905 28.9345 26.4079 24.9458 26.5274 29.1770 26.7114 27.6640 28.5054 下限 20.9567 22.4269 24.4046 26.2664 26.8358 22.8835 25.9138 22. 0276 20.1462 22.2212 21.9914 25.8354 23.3089 21.8467 23.4284 26.0780. 23.6123 24.5650 25.4063 L限 27.1547 28.6249 30.6026 32-4645 33.0338 29.0816 32.1118 28.2256 26.3442 28.4192 28.1895 32.0335 29.5069 28.0448 29.6265 32.2760 29.8104 30.7631 31.6044 續表區間包含梯本均值是是是是是是是是否是是是是是是是是是是例5.1 假設我們考察前面例子中關於脂肪中所含卡路里百分數的資料。為了梅造p4 的置信區間,需要樣本容基足夠大,或者總體服從正態分佈。從莖葉圖來看,資料好像服從正態分佈。為了進一步證實我們的看法,我們利用正態機率圖(見第四章練習 4.107)來判斷總體分佈曲線是否真正具有正態的形狀。從圖5.5可見,所描的點非常接近於一條直線。因此我們相信資料服從正態分佈。由於樣本容量較大,我們利用樣本標準差;以代替。計算均值x的95%的置信區間。 解答由資料得 36.92 $ = 6.73 利用士1.960s= 士1.96a/Vn計算均值pe的95%的置信區間,同時以。以代替a,得信區間為 36.92 1.96 6.03 /168 或36.92 1.02,

5.2 p 的估計•223• 即區間(35.90,37.94)形成『以的95%置信區間。換句話說,我們有95%的把握相信來自脂肪中的平均卡路里含的百分數位於35.90到37.94之間。下一步, 研究人員將這些值和其他總體的 PCF 均值或PCF建議值進行比較以考察它們的相對火小。 0.999 0.99 0.95 0.80 率 0.50 0.20 0.05 0.01 0.001 15 25 35 45 脂肪中卡路里含量百分數 $5 圖5.S 脂肪中卡路里含量百分數(PCF)的正態機率圖在第5.7節,我們將給出當。未知時構造p的置信區間的方法。然而,如果樣本容量充分大——比如n大於30—我們就能在計算置信區間的公式中用樣本標準差;估計總體標準差d。另外,根據中心極限定理,如果總體分佈不是太偏離正態分佈,並且樣本容量很大,那麼,所得區間的置信水平近似等於根據來自正態總體的樣本而得到的置信水平。 依據所選置信係數的不同,有很多關於,的置信區間。例如,在重複抽樣情況下,區間土2.58d 包含99%的值,因此區間 2.58o;是y!的99%置信區間。 我們可以給出p的置信係數為1-a的置信區間的通用計算公式,其中在0 1之間。對於給定的1-a,從的100(1-a)%的置信區間由下式給出,這裡假設。已知或樣本容量充分大以至於可以用s代替a。 其中as=d/ n 2a/是有側尾部面積為 a/2所對應的。值。換言之,正態曲線下方, 離p 2ar2倍標準差處的右側面積是a/2。在附表1中,查對應面積為1-(a/2)的z值可得到xa/值(見圖5.6)。表5.2給出了常用的置信係數1—a 和za/2值。

•224• 第五章關於總體中心值的推斷面積=1 fG) 2 面二號 H 置信係數(1 a) 0.90 0.95 0.98 0.99 —2a/20y圖5.6 置信區間公式中的20/2的圖釋表5.2 常用置信係數 1-0 和相應的x值xa/2 a/2 的值 0.05 表1中的面積1-a/2 0.95 0.025 0.975 0.01 0.99 0.005 0.995 相應的z值2a/2 1.645 1.96 2.33 2.58 例5.2 林業員希望估計2,000英畝的某一林場中每英畝的“可計入的樹”(大於特定尺寸的樹)的平均數量。然後,她能利用這一資訊算出林場總的木材蓄積量。隨機選擇50塊1英畝的林地,並數出“可計入的樹”的數量。經計算得每英畝林地可計入樹的平均數量為27.3,標準差為12.1。根據此資訊構造整個林場平均每英畝可計入樹數x的99%的置信區間。 解答我們利用通用的置信區間公式,其中置信係數等於 0.99,2a/2等於 2.58 12,即 27.3士4.41——也就是說,區間從 22.89 到31.71。因此,我們有 99%的把握相信每英畝可計入樹的平均數量位於22.89 和31.71之間。 在本節的討論中,我們作了一個相當不現實的假定—即總體標準差已知。 實際上,很難找到一種情況,其總體的均值未知,但標準差已知。通常情況下,均值和標準差都要根據樣本進行估計。因為用樣本標準差:估計。,所以均值的實際

5.2 的估計 225• 標準誤差,a/n,自然用s/、n進行估計。這一估計又產生另一隨機誤差源(s圍繞著a從一個樣本到另一個樣本隨機地變化),而且,嚴格來說,使得我們的置信區間公式變得無效。幸運的是,對於大樣本來說,前面的區間估計公式仍是一個很好的近似。大體說來,當*大於30時,我們能夠利用這一公式;第5.7節將介紹一種更好的處理這一問題的方法。 統計決策方法不同於普通的決策方法,因為它不僅進行推斷,而且還告知推斷的好壞情況。對於區間估計,胃信區同的寬度和置信係數表明了其估計的優劣。 對於給定的置信係數,區間寬度越窄,推斷越精確。另一方面,置信係數是由試驗人員給定的,以體現他或她要以多大的把握保證區間估計包含所感興趣的引數。 當樣本容量一定時,提高置信水平將導致區間變寬。因此,試驗人員一般要求一個合意的暨信水平和區間寬度。下面我們將討論如何確定樣本容量以滿足這些要求。 練習基本技巧 5.5(工程)一經營穀物的公司每10分鐘隨機選擇25箱裝玉米片的12盎司盒子,並稱其重。假設重服從。=0.2 盎司的正態分佈。根據某一樣本得到 =12.3盎司。 a.計算在抽取樣本期間所生產的包裝箱的平均重量y的95%置信區間。 b.不用統計術語,對置信區間作出小心的解釋。 5.6 穀物公司從事加工的工程人員關心,的置信區間不要太寬而失去了實用價值。 a.如果樣本容量從 25加倍到50,那麼對95%置信區間的寬度有何影響! b.如果將置信水平從95%提高到99%,那麼對置信區間的寬度有何影響? 5.7 公司正在每10分鐘收集包含25箱的樣本,那麼,5天時間就得到 720 個置信區間。 a.如果720 個置信區間中每個區間的置信水平都是95%,那麼,你預計有多少區間是錯誤的—一即不包含p? b.如果樣本容量從25 增加到 50,且仍然每10分鐘抽取一個樣本,那麼,你預計5天中有多少個99%置信區間是錯誤的? c.如果每個樣本的樣本容量仍保持為25,但置信水平隊95%增加到99%,那麼,你預計5天中有多少個95%登信區間是錯誤的? 應用 5.8(工程)現有一臺新機器分發黑咖啡,從中隨機選取50 杯黑咖啡(單位: mg),測量它們的咖啡因含量。均值和標準差分別是110mg和7.1mg。試用這些

• 226• 第五章關於總體中心值的推斷資料構造由該機器分發的平均每杯咖啡的咖啡因含量p的98%的置信區伺。 5.9(商業) 某城市的商會飲估計他們城市小公司(銷售額在 500,000美元以下)的毛利潤。根據10個小公司組成的隨機樣本所得的年終報告表明:銷售的平均毛利潤是5.2%,標準差為7.5%。 a. 構造該城市所存小公司平均毛利潤p的99%置信區間。 b.在使用(a)中構造的置信區間時有哪些限制?例如,由於樣本容量較小,你認為資料來自於正態分佈總體嗎?用s代替。有效嗎? 5.10(工程) 隨著大量充氣站從全方位服務向自我服務的轉移,某消費者組織擔心許多汽車在充氣不足的狀態下行駛。這樣會導致大量的輪胎磨損,汽車轉向和剎車的安全隱患。如果•個輪胎壓力低於推薦水平 10psi以上,那麼就被認為是嚴重充氣不足。隨機抽取400部汽車,其平均充氣不足量是 =10.4psi,標準差s=4.2psi。 8.構造平均充氣不足。的99%置信區間。 b.基於你的置信區間,你是否推薦該消費老組織發表一份報告,宣稱平均輪胎壓力嚴重不足?解釋你的答案。 c.如果決策是用90%置信區間,那麼,你在(b)中的答案改變嗎? 5.11(社會學) 某社會工作者欲估計那些初犯從監獄釋放出來後到第二次犯罪並重新被投入監獄的犯人在獄外的平均時間。隨機從縣法院抽取* =150份監獄記錄,表明第一、第二次犯罪之間監外生活的平均時間為3.2年,標準差為1.1 年。用該樣本資訊估計縣法院所有記錄在冊的犯人在第一、第二次犯罪之間監外生活的平均時間p,構造p的95%的置信區間。假設能夠用;代替。。 5.12(商業)紐約市某快遞公司聲稱它投遞到該城市任何一個地方的投遞時間不足3小時。為了評價其說法,質量控制人員隨機選取了S0伴投遞業務,算得其平均投遞時間為 =2.8小時,標準差s=0.6小時。 a.用95%的置信區間估計平均投遞時間 p。 b.根據95%的置信區間,公司的說法聽起來合理嗎? .如果利用的99%的置信區間,你在(b)中的答案改變嗎? 5.13(農業) 赤褐色蟎蟲(rust mite)是佛羅里達州危害柑橘的主要害蟲,它刺穿樹葉和果實的細胞。由受害柑橘,呈褐色,並且隨著受害程度而相應變小, 因此,人們很容易知道柑橘是否受到損害。如果這種蟎蟲得不到控制,那麼受侵害果園的柑橘產量和質量都會大大地下降。無論哪種情況發生,柑橘種植者都會遭受經濟損失,因為這種柑橘的等級較低,在新鮮水果市場上只能低價出售。今年, 越來越多的柑橘種植者給柑橘噴酒農藥,養護柑橘,以防蟎蟲的侵害。為了評價這項措施,從60個果園的每一個果園中隨機地選取一塊10英畝的果園地作為樣本。 樣本資料顯示平均每10英畝果園地的產量為850箱,標準差為100箱。對於所有

5.2 p的估計•227• 噴過藥的果園,試給出平均每10英畝果園的產量,的95%的置信區間。假定可以用s代替。 5.14(農業)對於種類繁多的檸檬樹,現做一個實驗,以檢驗其根莖對某種幼蟲的易感染性。現有40棵檸檬樹遭受這種幼蟲的侵害,經過一段時間以後,檢驗它們的易感染性。我們感興趣的是每克根基所含幼蟲數目的對數。對於這40棵樹,樣本均值為9.02,樣本標準差為1.12。試用這些資料構造x的90%的置信區間,其中,表示樣本所來自的檸檬樹根莖總體對幼蟲的平均易感染性。假定可以用s代替の; 5.15(教育)從某一州過去10年畢業的高中生中隨機抽取900名作為樣本, 研究高中生的流動性。對於抽取的每一名學生,記錄其高中學校與其目前的水久居住地之間的距離。由這些資料得 =430英里,=262英里。利用95%置信區間,估計該州過去10年高中畢業生每個學生的高中學校與其目前的永久居住地的平均英里數。假定可以用、代替。。 5.16(政府)美國、其他政府機構以及關心世界範圍內食品嚴重短缺的一些世界理事會,他們感興趣的問題就是尋找一種方法以估計在某一特定年份世界範圍內所生產的穀物的總產量。 一種方法就是根據地球表面的衛星照片預測穀物的總收成。由於掃描裝置讀出的某種穀物的總種植面積具有一定的誤,因此,有必要對種植某種穀物且具有相同面積的多塊土地,記錄下其用這種掃描裝置測出的產量,以校正這種掃描器的誤差。用掃描器讀出100塊50英的小麥地的衛星照片,得到樣本平均值和標準差為 =3.27 $ =0.23 對於所有50英畝小麥地構成的總體,求平均每塊地收成的95%的置信區間。解釋所得區間的含義。 5.17(農業)另一個農業問題就是關於蛋白質的產量,蛋白質是人類積動物飲食的重要成分之一。雖然眾所周知,穀物和豆類中蛋白含埵較高,但是少有人知道某些草還提供豐富的蛋白質資源。例如,以重址計,百嘉大(Bermuda)草中蛋白含量約佔 20%。為驗證這些結果,現進行一項研究,分析100根重1磅的小草中蛋白含。樣本均值和標準差為 =0.18磅 S=0.08磅利用95%置信區間,估計百慕人草總體平均每磅的蛋白質含量,並解釋所得區間的含義。

• 228• 第五章關於總體中心值的推斷 5.3 估計p時樣本容量的選取我們如何確定樣本中觀察的個數?這一問題的意義是顯而易見的。收集資料需要成本。樣本過大會浪費時間和才智。相反,如果樣本過小,由於花費時間和精力而得到的是不充分的資訊,因此這也是一種浪費,並且有時不可能在後來再增加樣本容址。所以,樣本容量的確定既要考慮作為總體引數的樣本估計統計量的期望精度又要兼顧為了得到這一精度所花費的時間和成本。 在第5.1 節介紹的飲食研究中,研究人員必須確定調查多少名護士才能得到切實可行的結論。為了確定抽取多少名護士,我們必須確定研究人員究競要以多高的精確度來估計脂肪中卡路里含量百分數(PCF)的平均。如果研究人員規定樣本估計值和總體均值y的偏離應在1.5以內,那麼我們就是要y的置信區間為士1.5。或者說,如果研究人員規定估計的容許誤差是3,那麼我們得到的區間同樣為 +1.5,因為容許誤差就是置信區間的寬度。 為了估計x的暨信區間,確定合適的樣本容量時需要考慮兩個方面。首先, 容許誤差決定了區同寬度:其次就是置信水平。在選擇區間的範圍時,我們需要考慮是否置信區間太寬,以至於,的估計不精確,不能提供很多的資訊。同樣地,在一個很低的置信水平(如50%)下所得到置信區間很可能是錯誤的,即區同不包含 F。然而,為丫獲得一個寬度較窄、置信水平較高的置信區間,樣本的容量就要足夠人,因此,就時間或成本來講,這是不合理的。 什麼是合理的可信度呢?大多數情況下,買信水平被設定為90%或95%,部分是因為傳統習慣,部分是因為對某些人來講,這些水平代表了一個合理的可信度水平。從長期來看,95%(或90%)說明20次中有1次(或10次中有1次)置信區間可能不包含總體引數。這似乎是合理的,也是可理解的,而1,000次中有1次或 10.000 次中有1次這樣的機率太小了。 容許誤差與所考慮的問題密切相關,只有那些對問題非常熱悉的人才能對容許誤差的大小作出合理的判斷。 當考慮總體均值的置信區間時,其置信區間的加減項為 /20,其中 = Vn。決定加減項的有三個量:期望的置信水平(決定了,值),標準差(d),以及樣本容量(和。共同決定標準誤差o)。通常情況下需要對總體的標準差進行估測。 《有時,需要根據初始樣本估計標準差;這種估計為進一步確定所需另外的樣本容量奠定基礎。)給定了容許誤差和置信水平,以及。的估計,則樣本容量可透過下面的公式進行計算。 假定我們欲用容許誤差為W的100(1-a)%置信區間來估計x,則置信區間形如y士E,其中E=W/2,W是置信區間的寬度。為了確定樣本容量3,關於*

5.3 估計p時梯本容量的選取•229• 解方程 E =2a/205 =20/20/# 得到的形如y士E的100(1-8)%置信區間所需要的樣本容量為 -(當o/2)。? E2 為了估計 p,確定樣本容量需要知道總體方差。”(或標準差。)。用下面兩種方法之一,透過估計。2可得到樣本容量的近似值: 1.根據以前的試驗資料計算樣本方差。。可以用它作為。的近似估計值。 2. 利用觀測值的極差得到。的估計。 仕樣本容量的等式中,將。?用其估計值代替,可得到n的近似值。下面我們舉兩個例子來說明如何選擇樣本容量。 例 5.3 在飲食的營養攝取量例子中,研究者要估計容許誤差為3的平均PCF的95% 置信區間。由以往的研究得知,PCF 值在10%到50%之間。研究者究競要抽取多少名護士才能達到他們的要求? 解答由於95%置信區間的寬度為3,因此E=3/2=1.5,且 2a/2=20.02s= 1.96。8估計為極差/4=(50-10)/4=10。代入n的公式中,得 (2o/2)”g2 =(1.96)”(10)2 E2 (1.5)2 -= 170.7 因此,若10是。的一個合理估計,那麼,171名護士的隨機樣本應該給出寬度為3 的的95%置信區間。 例$.4 一聯邦機構決定調查標明在某品牌穀物包裝箱上穀物的重量。涉及到的公司定期從生產線上抽取裝有穀物的紙板箱,該聯邦機構總共得到 1,500個重量資料, 據此算得平均每箱重11.80盎司,標準差為0.75盎司。根據這一資訊,為了估計現在生產的平均每箱的重量,聯邦機構必須檢查多少箱穀物,已知99%置信區間的寬度為0.50。 解客聯邦機構規定置信區間的寬度為0.50,所以E=0.25。假定公司提供的重量是精確的,於是可取。=0.75。由於2a/2=2.58,因此樣本容為 n = 12.58)2(0.75)2 0.2$3 -= 59.91

• 230.第五章關於總體中心值的推撕‘ 由此,聯邦機構必須抽取60箱穀物所構成的一個隨機樣本,才能使得估計平均重量的誤差在 0.25之內。 練習基本技能 5.18 參見例5.3,假設我們繼續估計c,得a=10。 2.如果置信水平仍然是95%,但容許寬度為2,那麼需要多大的樣本? b.如果覺信水平增加到99%,但規定的寬度仍為3,那麼需要多大的樣本? •.如果置信水平減少到90%,但規定的寬度仍是3,那麼樣本容需要多大? 5.19 根據你在5.18(a),(b)和(c)中所得到的結果。 a. 若減少置信水平,區間寬度不變,那麼樣本容量如何? B. 若增加置信水平,區間寬度不變,那麼樣本容量如何? c.若減少區間寬度,置信水平不變,那麼樣本容量如何? 5.20 一般地,如果保持暨信水平不變,那麼樣本容量增加多少,才能將區間寬度縮短一半? 應用 5.21(生物)生物學家欲估計抗生素對某種特殊細菌生長的影響,為此將固定量的抗生素塗於細菌培養片上,然後觀察平均每個培養片上出現的細菌量。以前的試驗表明所出現的細菌量的標準差近似為13cm’。利用這一息確定所要觀察值(即進行培養然後檢測)的數量,以便用99%的置信區間估計平均細菌量,且區同半長為3cm’。 5.22(社會)市房管部門想估計其管理的公寓的平均租金。為了用95%置信區間估計平均租金,且偏差在50美元之內,他們必須確定其調查所需抽取租戶的數量。根據過去的結果,其管理的公寓的租金平均每月在200 美元到1500 美元之同。需要調查多少戶才能滿足其要求? 5.23 參見練習5.22。假定市長重新考忠所提議的調查,然後決定進行如下變動: a.如果置信水平增加到99%,平均租金估計偏差在25 美元之內,則樣本容量為多少? b.假定專案預算並不支援置信水平的提高和區同寬度的減少。你如何向市長解釋不把置信水平由95%提高到99%對平均租金估計所造成的影響? 5.24(商業)保險公司關心由於食品雜貨店裝袋工後背受傷所造成的工人索賠的數量。為此,他們想估計向他們投保的雜貨店中裝袋工的工作能力,即:考察工人在不產生後背重壓下所能提起的貨物重量。根據其他保險公司的研究,。公

5.4 關於 p的統計檢驗 •231• 25磅。 z.需要調查多少名工人才能使得工人提起的平均重量估計的置倍水平達到 99%,偏差在8磅之內? b.如果•未知,試提出保險公司能夠獲得。值的幾種方法。 5.4 關於的統計檢驗統計決策方法的第二種形式就是統計檢驗(或假設檢驗)。正如估計一樣,我們要對總體的引數進行推斷,但這裡的推斷不盡相同。就點估計和區間估計而言, 在收集資料之前,並不對引數的真值進行假定。利用來自總體的樣本資料,我們就可簡單地確定引數值。在假設檢驗中,對總體引數有一個先驗的思想。例如,為了研究某試驗性複方藥中安定藥的特性,我們也許會問:服過特定劑量複方藥的老鼠的平均避免休克反應(shock-avoidance response)值是否大於60,即 y≥60,其中60 為使用合適的標準藥進行廣泛試驗所觀察到的值。因此,包含在統計研究中的有兩種理論或假設。第一種就是進行試驗的人員所提出的假設,稱之為研究假設 (research hypothesis),在上述例子中即>60。第二種就是研究假設的的反面,稱之為零假設,在上述例子中即p≤60。研究的目的就是要確定資料是否支援研究假設。 統計檢驗建立在反證法基礎之上,由下面5個部分組成。 1.研究假設(也稱備擇假設),記為H。。 2.零假設,記為Ho。 3.檢驗統計鰍,記為 T.S.。 4.拒絕域,記為 R.R.。 5.核對假定,並得出結論。 例如,德克薩斯的A&M農業服務部門想確定今年某一特定品種大豆的平均每英畝產量(單位:蒲式耳)是否比前兩年有所增加,其中前兩年平均每英宙產量p= 520蒲式耳。建立統計檢驗的第一步就是要確立適當的假設Ho和Ha。下面的原則將是有益的: 1. 等於某一特定值這一假定總是包含在H。之中。 所取的特定值被稱之為零值,記為 100 2.研究人員根據觀測資料企圖支援或探察的關於x的假設是研究假設H。。 3.H。的對立假設是零假設Ho。 4.零假設被認為是正確的,除非資料中有足夠充分的證據支援研究假設。 在我們的例子中,10為520。研究假設就是今年產量大於 520:即p≥520。(注意:520包含在零假設中。)因此,零假設,即H。的對立假設為H0: ≤$20。

•,232• 第五章關於總體中心值的推斷為了評價研究假設,我們從樣本中挖掘資訊,試圖確定資料是支援研究假設還是支援零假設,當我們沒有充分證據否定零假設時,就承認零設是正確的。 在建立了零假設和研究假設之後,我們從分佈在全州的農田中得到1英畝產量的樣本資料。判定資料是否支援研究假設要根據透過樣本資料所算得的某個量而定,稱這個量為檢驗統計量。如果總體分佈是丘形分佈,則關於,的一個合理的檢驗統計量應是或的函式。 如果我們選擇了作為檢驗統計量,那麼我們知道:在總體服從正態分佈或者樣本容量充分大的情況下, 近似服從均值為,標準差o =g//T的正態分佈。 我們試圖在Ha:p>520 和 Ho:4≤520之間作出選擇,要麼拒絕假設日,要麼不拒絕假設 Ho。在作出判決的過程中,我們假設 p =520,其中520為x的零值。現在我們要決定, 的哪些值在4=520(或如果/取H。中其他值)時不太可能觀測到,這些值的全體稱為拒絕域。拒絕域包含支援研究假設,並和零假設相牴觸的那些值,因此,一旦值落在這一區域,則拒絕零假設。拒絕域就是的零分布(=520)的右側尾部區域,見圖5.7。 fG) 相牴觸的 -可 =$20 -接受域 -拒純域 —艹圖5.7 假設H。為真,相牴觸的;值在右側尾部正如任何雙向判決過程一樣,我們也可能犯錯誤,即錯誤地拒絕零假設,或錯誤地接受零假設。我們特別地稱它們為第一類錯誤和第二類錯誤。 定義s.1第一類錯誤指當零假設為真時拒絕零假設所犯的錯誤。犯第一類錯誤的機率用a表示。 定義5.2第二類錯誤是指當零假設不成立時接受零假設所犯的錯誤。犯第二類錯誤的機率用8(希臘字母 Beta)表示。 表5.3列出了這個雙向判決過程及相應的機率。

5.4 關於&的統計檢驗•233• 表s.3 雙向判決過程零假設判決拒絕 Ho 接受 Ho 真第一類錯誤 a 正確 1-8 假正確 1-8 第二類錯誤雖然希望確定接受域和拒絕域使得 a和8同時達到最小,但這是不可能的。 犯第一類錯誤的機率和犯第二類錯誤的機率之間存在負問關係。樣本容量一定時,當我們改變拒絕域以增加。時,8值減小,反之亦然。 為了減緩這種難受的處境,試驗者事先給定統計檢驗犯第一類錯誤的機率。 因此,試驗者選擇a為0.01,0.05,0.10等。根據給定的。值,然後確定拒絕域。 計算犯第二類錯誤的機率相當複雜,本章後面部分將作介紹。 現在我們來看看如何根據。的選擇確定拒絕域。回到大豆的例子中,當樣本均值較大時,拒絕零假設。假定我們取n=36的一個1英畝農田樣本,並據此算得了=573,s=124。我們能夠得出結論,認為平均每畝農田產量超過520嗎? 在回答這一同題之前,我們必須給定a的值。如果我們願意在40次中有1次冒險錯誤地拒絕零假設的話,那麼a =1/40=0.025。對於a的這一取值,根據的樣本分佈即可確定相應的拒絕域。假設 =520,5可用s代替,那麼服從!4 =520,8y =124//36=20.67的正態分佈。因為,圖5.8中標出的區域面積相當於c,所以確定拒絕域使之落在分佈右側尾部,且面積等於0.025就相當於確定2值使之側面積等於0.025。查附錄中表1,得z為1.96。因此,本例中拒絕 fG) 面積 o等於.025 =$20 1- 1.96¢」-— 圖5.8 當 a=0.025時大豆例子中的拒絕域拒絕域—艹

• 234• 第五章關於總體中心值的推斷域就是均值p=520加1.96 倍標準差(1.96gs)處的右側區域。如果的觀測值大於均值 y =520加1.96倍標準差,則拒絕零假設,如圖5.8所示。 例$.5 寫出關於大豆的統計檢驗的各部分內容,並根據樣本資料判斷接受還是拒絕假設。令 =0.025,並假設可用s估計。 解答檢驗的5部分內容奶下: Ho: ≤520 H:#≥520 T.S.:5 假設。 R.R.:對於 a=0.025,若大於均值(p=520)加1.96 倍標準差,則拒絕零經計算,得等於573。為了計算可位於p=520 右側多少個標準差,我們用下面公式計算的2記分值 *=豆一些, 6y 其中 a/ m,把各值代入公式得 x-五-期0 -$73-920-2.56 124/136 檢查假定,得出結論:當樣本容量:=36時,可以利用中心極限定理,知的分佈近似於正態。因為觀測值位於零假設均值(p =520)加1.96 倍標準差處的右側,所以我們拒絕零假設而接受研究假設,從而得出結論:平均每畝大豆產量大於 520。 例5.5所作的統計檢驗稱之為單側檢驗,因為拒絕域僅位於的分佈的一個尾部。如果我們的研究假設是H:<520,那麼當較小時拒絕等假設。這種檢驗也叫單側檢驗,但拒絕域位於分佈的左側尾部。圖5.9顯示了當a= 0.025 時備擇假設 H:p<520的拒絕域。 我們簡要介紹雙側檢驗,其研究假設為 Hu:從 520,其中我們感興趣的是平均每畝大豆產量是大於520或小於520。顯然, 較大和較小都與零假設相牴觸, 因此我們的拒絕域位於分佈的兩側尾部。關於 Ha:p 520, a=0.05 的雙側拒絕域奶圖5.10所示。 例s.6 某公司為其銷售人員供養了一支龐大的車隊。為了檢測平均每月每輛車的行

5.4 關於的統計檢驗•235• 0 =0.025 ¥=520 —拒絕城圖 5.9 f0) 1.96dg 大豆例子中,當∞=0.025,備擇假設為: $20時的拒域面積=0.025 面積=0.025 ¥=$20 — 拒絕域一1.960g 拒綣域一園5.10 大豆例子中,當a=0.05時,備擇假設為H:p 520時的雙側拒絕域駛里程,隨機抽取 *=40輛車的樣本進行檢測。樣本均值和祥本標準差分別為 2,752和 350英里。前幾年的記錄表明平均每月每輛車的行駛里程是2,600英里。 利用樣本資料檢驗研究假設,即現在的均值不等於2,600。令a=0.05,並假設可用s估計。 解答該統計檢驗的研究假設是 H。: 2,600,零假設是 Ho:k =2,600。給定a=0.05,則該檢驗的雙側拒絕域如圖5.11所示。 當樣本容址3=40時,對於,中心極限定理應該成立。為了確定檢驗統計量距離 =2,600多少個標準差。我們計算 *-些=27$2-2.600 =2.75 a/Vm 350/ /40 的觀測值大於均值加上1.96個標準差的值,所以,拒絕零假設而接受備擇假設

•236• 第五章關於總體中心值的推斷 fG) 面積 =0.025 面積=0.025 J =2600 — 拒絕域 -1.960 一 1.960y 拒絕域— 圖 5.11 當a=0.05 時關於 H。:《2600的拒絕域 Fha:從 2,600。從而得出結論:平均行駛里程數不等於2,600。 如果用z而不是用作為檢驗統計量,那麼關於總體均值統計檢驗的步驟就能大大簡化。對於 Ho:K ≤ Ao(其中 o為某一特定值) He:k>Ko 檢驗統計量 4=4-K a/Vn 那麼對於 a=0.025,若×≥1.96,即若位於均值右側1.96個標準差之外,則拒絕零假設。同樣地,對於a =0.05,He:K Ko,如果z≥1.96或x≤-1.96,則拒絕零假設。這等價於當|z|≥1.96時,拒絕零假設。 關於總體均值x的統計檢驗可概括如下。給出了三組不同的假設以及它們相應的拒絕域。對於給定的情形,你只能從三組中選擇一組假設以及相應的拒絕域。所給出的檢驗只適用於正態總體且。已知。如果樣本容量較大,那麼即使總體為非正態分佈,拒絕域也近似於正確。火多數情況下,n≥30就足夠了,此時我們可以使用中心極限定理的結果,即用樣本標準差s代替o,2=(4o)/(s/ Jn)近似服從正態分佈。 正態總體分佈或樣本容量,很大時均值的統計檢驗小結假設: 情形1. 情形 2. 情形 3. Ho:K<AO Ha:A>AO(右側檢驗) Ho:從≥AO He:K<Ao(左側檢驗) Ho:從=MO Ha:從 o(雙側檢驗) T.S.:2 = 2一K0 a/Vn

5.4 關於*的統計檢驗•237• R.R.:對於犯第一類錯誤的機率 a, 情形1. 若z≥z,則拒絕Ho。 情形2. 若:≤-24,則拒絕Ho。 情形3. 若/2|≥2a/2,則拒絕 Hoa 注:這些方法適用於正態總體耳。已知、大多數情況下,如果*2230,根據中心極限定理,當總體為非證態分布時,這些方法也可以使用。井且,若*≥30,我們也可用樣本標準差:代替d。*<30的情根將在本章的後面進行討論。 例5.7 作為市政管理人員對市政僱員進行評價的一部分,市政管理人員要審查停車場管理員開據的違章停車罰款通知單以確定那些受到車主的質疑且被發現罰款不當的罰款通知單的數量。在過去幾年,每人開據不當罰款通知單的數服從, = 380,0 =35.2的正態分佈。由於最近對城市停車規章制度作了一些改動,因此市政管理人員懷疑平均每人開據的不當罰款通知單的數量會增加。隨機審套50名停車場管理員以檢驗不當罰款通知單的數量是否增加。利用所給樣本資料及&= 0.01 檢驗研究假設:平均每人開據的不當罰款通知單的數量大於380。根據審查得到下面資料:n=50, =390。 解答利用樣本資料及a=0.01,統計檢驗的5個部分如下: Ho: ≤380 Ha:4>380 T.S.::=》-些=390-380 a/n 35.2//50 35.2/7.07=2.01 R.R.:給定a=0.01,對於有側檢驗,若z≥20.01,則拒絕零假設,其中20.01= 2.33。 結論:由×的觀察值2.01 並沒有超過2.33,因此,我們打算接受零假設p ≤380。該結論存在的惟一問題就是我們並不知道錯誤地接受零假設的機率B。 為避免正面回答,當x沒有落在拒絕域中,且不能算出8值時,我們建議這樣下結論,即沒有充分證據拒絕零假設。要想得出究竟是否接受Ho,試驗者不得不計算出及值。如果對於備擇假設的某些x值,及值較小,那麼接受Ho。否則,試驗者所下的結論應為:尚沒有充分證據拒絕零假設。 利用例5.7中的資料,我們畫圖說明如何計算犯第二類錯誤的機率B。如果零假設是 Ho: ≤380,那麼不正確地接受H。所犯錯誤的機率依賴於均值的真值接近於380 的程度。例如,若平均每人開據不當罰款單的真正數是400,我們可以期望當真值為387時,日值更小。均值的真值離p40 越近,則我們越有可能得到數

• 238• 第五章關於總體中心值的推斷據使得落在接受域。確定B的整個過程就是一個“如果⋯就會⋯”的過程。實際上,我們要針對備擇假設 H。中的很多值計算B,並畫出及對p的曲線圖,稱之為OC曲線。我們也可以透過計算當零假設不成立時拒絕零假設的機率(稱為檢驗的功效)來評價檢驗的好壞。我們注意到功效=1—B。稱功效對y的曲線圖為功效曲線。我們希望設計一種檢驗使得功效較大,從而B值較小。 假設平均每位管理員開據不當罰款單的真正數是395,那麼B值等於多少? 零假設和研究假設同前? fG) 在K。下的分佈接受域在K。下的分佈 fG) 380 K 2.330g (a) 4。-395時的B 395 接受域在K。下的分佈在。下的分佈 380 387 2:330g (b)。=387時的B fG) 在。下的分佈接受域在K。下的分佈 380 400 圖 5.12 2:330g (c) 4。-400時的B 第二類錯誤的機率B

5.4 關於的統計檢驗•239• Hu: ≤380 Ha:p≥380 給定a =0.01,網5.12(a)顯示了8值。圖5.12(a)中的陰影部分代表B,這就是當岑假設不成立,且:的真值等於395時落在接受域的機率。檢出p的真值為 395的檢驗功效等於1-B,即拒絕域面積。 考慮,的兩個其他值,即387 和400。相應的日值分別如圖5.12(b)和圖 5.12(c)中的陰影部分所示;功效指圖5.12(b)和圖 5.12(c)中拒絕域的非陰影部分。圖5.12 所示的三種情形均證實了我們早先提及的,即!!距離H。假設下的均值越遠,第二類錯誤的機率越小(因此功效增加)。 下面的符號將有助於計算B。記x0為以的零值,pa 為H。假設下均值的真值。當均值的真值為p。時,P(pa)表示第二類錯誤的機率,PWR(pa)表示1a處的功效。顯然PWR(Aa)等於1-B(pa)。雖然我們從來也不知道均值的真值究竟是多少,但是我們選擇p所可能取到的值,然後計算相應的8值。這樣,一旦p 的其中一個值正好等於真值,那麼我們就能確定第二類錯誤的機率。對於一個或一個以上Ka的值,是否接受H。與8的大小有關。同樣,研究者也可以計算假設檢驗的功效曲線。回顧一下,K。處的檢驗功效PWR(pa)就是當p的真值為Pa時拒絕 H。的機率。因此,我們希望A。距離/越遠時,假設檢驗的功效 PWR(Aw)越大。 對於單側檢驗 Ho:p≤A0或Ho:4≥ 0,8等於小幹20-半一隊一的機率, 寫作 B(ya)= B(xa)的值可透過查附錄中的表1與2a 1 0-Hal/o 對應的機率得到。 下面給出單側和雙側檢驗下8的計算公式。應用這些公式的例子在後面給出。 L.單側檢驗: 2. 雙側檢驗 B(pa) -DIz≤x-LH-Ke!) B(pa)NPI≤ 20/2-H0-N!] 例5.8 PWR(pa)=1-B(Ma) PWR(pa) = 1-B(Ma) 若平均每人開據不當罰款單數的真值是395,試計算例5.7中的8及檢驗功效。

•240• 第五章關於總體中心值的推斷解答例5.7的研究假設為Ha: >380。給定 a=0.01,當4o=380,Aa = 395時,根據8的計算公式,我們有 B(395)= P×< z0.01LE.ML)- P(2 <2.38-1380-39|) 35.2/J50 = P(x<2.33-3.01)=P(<-0.68) 查附錄中的表1,對應十2=-0.68 的面積是 0.2483。於是,8(395)= 0.2483,PWR(395)=1-0.2483=0.7517。 以前,當未落在拒絕域,我們認為沒有充分證據拒絕 Ho,因為阝未知。現在,當落入接受域時,對於在該試驗中看上去合理的對立假設值下p的一個 (或多個)值,我們可以計算其對應的8值。假如我們願意容忍錯誤地接受零假設的機率等於與這個對立假設下的,值相對應的B,那麼我們就接受零假設。因此, 在例5.8中,如果平均每人開據不當罰款單數的真值是395,那麼大約有 0.25(4 次有1次機會)的可能性接受小於或等於380 這一假設,而實際上等於395。 市政管理人員必須分析作出這一決定的後果。如果這樣的風險可以接受,那麼她可能會得出這樣的結論,即審查的結果是平均每人開據的不當罰款單數沒有增加。 如果風險太大,那麼市政管理人員必須擴大審查範圍,抽取50個以上的停車場管理員。下一節,我們將討論如何選取適當的*。 例5.9 百科全書公司未來的銷售人員正在參加一個銷售培訓計劃。以前的資料表明那些沒有參加該培訓的人員平均每月的銷售是33。為了確定培訓計劃是否有效,隨機選擇35名新僱員進行銷售培訓,然後讓他們從事銷售。一個月後,百科全書銷售量的均值和標準差分別為35套和8.4套。資料是否提供了充分證據顯示培訓計劃增加了銷售量?給定a=0.05。 解筶統計檢驗的5個部分如下: Ho:p≤33 Ha:k>33 T.S.:2 = 立二些~ 35為=1.41 8.4/ V35 R.R.:給定a=.05,若2≥z.0s=1.645,則拒絕零假設。 核對假定並作出結論:n =35時,中心極限定理成立。因為&沒有落入拒絕域,所以在算出日以前,我們暫不作出接受H。的判斷。換句話說,我們尚沒有充分證據拒絕零假設:參加銷售培訓計劃的人員平均每月的銷售量不大於那些未參

5.4 關於的統計檢驗 •241• 加培訓計劃的人員平均每月的銷售量。 例5.10 見例5.9。假定百科全書公司認為:如果參加培訓的人員平均每月銷售量是為38,那麼培訓計劃的財務成本將被抵消。計算對應於A。=38的8值,然後根據 P(38)的值,決定你是否接受零假設。 解答 An =33,M。 =38, a =0.05,利用及的計算公式,得 B(38)=P 4≤20.0s-LE0-H.=PY≤1.645-L38-3 8.4/ V35」 = P[:≤-1.88] 查附錄中表1,對應於z=-1.88 的面積是 0.0301。因此, B(38) = 0.0301 PWR(38) =1-0.0301 = 0.9699 因為日相對較小,於是我們接受零假設,認為培訓計劃增加的平均每月銷售量尚不能抵消培訓成本。 對應於 H。假設下,的其他幾個值,百科全書公司欲計算其第二類錯誤的機會,這樣,根據新僱員的隨機樣本資料,他們就能大致地知道犯第二類錯誤的機率。 重新計算,得p(38)如表5.4所示。 表5.4 對應於H。假設下的值,第二類銷誤的機率及功效 33 34 35 36 37 38 39 40 41 B(p) 0.9500 0.8266 0.5935 0.3200 0.12060.0301 0.0049 0,0005 0.0000 PWR(p) 0.0500 0.1734 0.4065 0.6800 0.8794 0.9699 0.9951 0.9995 0.9999 圖5.13的曲線是根據表5.4中B(p)的值進行描點,然後用光滑的曲線連線而成的。可見,隨著p值的增加,第二類錯誤的機率減少到O,相應的功效增加到 1.0。公司想透過考察曲線來決定,對應於 H。假設下的對公司至關重要的p值, 第二類錯誤的機率是否合理。從表5.4或圖5.13得知,8(38)=0.0301 是一個相對小的值。從例5.10的結果,我們發現檢驗統計量並沒有落入拒絕域。由於 B(38)較小,因此我們接受零假設,從而得出結論:培訓計劃增加的平均每月銷售量尚不能抵消培訓成本。 在5.2節中,我們討論瞭如何評價區同估計的有效性。統計檢驗的有效性可透過第一類錯誤和第二類錯誤的大小,即 a和B(k)來衡量。女是事先給定的試驗者的容忍水平,而對於固定的 Pa,B(pa)是樣本容量的函式。樣本容量越大,我們

• 242 第五章關於總體申心值的推斷 1.0. 0.9• 0.8、 點0.7 0.6 顯os0.3 第 0.2. 0.1 0.07 33 34 3⑤ 36 37 均值 38 39 40 T 41 圖5.13 第二類錯誤的機率所關心的p的資訊越多,我們越不太可能犯第二類錯誤,從而B(pa)越小。為了用圖來說明這種思想,假定我們正在檢驗假設 Ho: ≤84 對 H:M>84,其中以是 =1.4的正態分佈總體的均值,若取~=0.05,則圖5.14(a)畫出了針對三種祥本容量7.=10,18,25,第二類錯誤機率的曲線。可見,隨著: 從10增加到25, B(84.6)變得越來越小。另一個有趣的關係就是。和B(p.)之間的關係。對於固定的樣本容量n,如果我們改變拒絕域以增加a值,則B(Ma)將滅小。這種關係可從圖5.14(b)中看出。固定樣本容量為25,針對a的三個不同值a=0.05,0.01, 0.001,畫出 A(p)曲線。我們看到,隨著從0.001 增加到 0.05,B(84.6)變得越來越小。對於檢驗功效可畫出同樣的曲線圖,只要簡單地將PWR()=1-A(k) 對:畫出即可。對於功效曲線,上面的關係正好顛倒過來;也就是說,對於固定的 a 增加樣本容量將增加PWR(p)值,對於固定的樣本容量,a值增加 PWR(p)值也將增加。現在,我們考慮當a給定,對於Pa:P(p。)也事先給定時,如何設計一個試驗對y進行檢驗。這個問題可簡化為如何確定樣本容量以達到固定的c種 P(pa)。值得注意的是,對於初始給定的。和p,若,值太大,則我們透過增加a的值,用較小的樣本容量達到期望的 B(pa)值。 5.5 對於p進行檢驗時樣本容量的選取我們可根據第一類和第二類錯誤的大小,即。和B(p)來衡量從p的很設檢驗中獲取的資訊的質量,其中8(p)是對應於備擇假設 H。下各個4的8值。假定我們欲檢驗假設Ho:KSSHO H&: >4D。首先,我們必須給定 c。其次,確定一

S.5 對於p進行檢驗時樣本容量的選取•243• (a) OC 曲線 a=0.05, n = 10, 18,25. (b) OC曲線n=25,a=0.05,0.01,0.001 1.9 09 0. 0.7 04 0.3 第 0.30.0• 1.0 0.9 蘭品概.: 的% 誤as 錯o4人類第" 0.0 84.0 842 B4.4848 BA8 83:0 852 854 65.6 B58 MD 均值 (a) TFT 841 84.2 B4.4B4.6 B4.8 83.0 85.2 B5.4 89.6 83.6 86.0 均值 (b) 圖5.14 個備擇假設中的x億,記為41.如果均值的真值大於x1,則犯第二類錯誤的後果將是嚴重的。最後,我們必須為B(pi)選擇一個8值。對於大於A1 的任何p,其第二類錯誤的機率小於 B(pa);即, B(p) B(p) 對於所有的12 > I 令A=11—400為滿足這些要求,需要的樣本容量為 2= 02 lzg+ &a)’ A2 注:若。’未,則可以用從以前的研究中所得到的估計值代替,或者透過一個試採性的研究得到樣本容的近似值。 同樣的公式也適用於檢驗 Ho:4≥40 Ho:p<KO,只不過此時當 p的真值小子H。中的某個均值p1時,我們期望第二類錯誤的機率不大於B,即, B(p) <B(pi) 對於所有的 pA <A-1 且A=HI HOO 例5.11 穀物加工廠商生產一種食品,並將其裝入標有16 盎司的盒子。用機器進行裝填,機器被設定為平均每盒裝16.37盎司。因為這些機器所裝盒子的真正重量服從標準差為0.225 盎司的正態分佈,重量不足16 盎司的盒子佔 5%。廠商關心是否其中有一臺機器裝填不足,於是從這臺機器裝填的成品中抽取幾盒,以檢查平均重量:是否小於 16.37,也就是說,給定a=0.05,檢驗 Ho:k ≥16.37

• 244• 第五章關於總體中心值的推斷 Ha:A< 16.37 如果平均重的真值是16.27 或更小,那麼廠商要求未能發現裝填不足的機率最多為0.01,或者說招致民事賠償的風險不超過0.01。因此,我們需要選取樣本容量,使得對於任何小於 16.37 盎司的p值,H。對H。的檢驗滿足a=0.05,B()小於0.01。 解箸由於a=0.05,B=0.01,4=16.37-16.27=0.1,a=0.225,將 20.0s =1.645,z0.01 =2.33代入公式得 n - L0.225) (1.645 +2.33)2 (0.1)2 = 79.99 ~80 因此,在給定條件下,廠商必須抽取n=80盒的隨機樣本進行檢驗。 假定根據樣本資料算得 =16.35。檢驗統計量的值為 *-¥10.37-16.38-16.37-- 0.795 0.225//80 由於拒絕域是z<-1.645,因此2未落入拒絕域。如何下結論呢?前幾節中在同樣情況下,我們的結論是:尚沒有充分證據拒絕Ho。然而,現在當 ≤16.27時, 我們知道B(p)≤0.01,因此我們可以更放心地作出結論:接受Ho:4≥16.37。這樣,廠商也可放心地作出結論:機器的平均裝填量至少為16.37盎司。 對單側檢驗下樣本容量的計算公式進行稍微修正,對於給定的a,8,4 我們就能檢驗 Fn: =10 其中8,A滿足只要| 401≥A,都有B(x)<B。因此,當均值的真值距離40 至少』時,第二類錯誤的機率最多為B。檢驗關於!的雙側假設時,樣本容量的近似公式為 2i(aon + o8 花:若。未知,則用其估計億代替以得到梯本容量的近似值。 絛習善本技能 5.25 參見例 5.11 中的資料,假定我們要檢驗均值是否不等於16.37。 a.選取樣本容量以檢驗 Ho: =16.37 Ha:k 16.37,使得當y的真值距 40 16.37 有0.1個單位以上的距離時a=0.05,B(x)小於0.01。 b.和例S.11 中單側檢驗相比,該樣本容量如何?

5.5 對於進行檢驗時樣本容量的選取•245• 5.26 給定a=0.05.某研究人員要檢驗 Ho: ≤38 H:從>38。從總體隨機抽取容鼠為50 的樣本,得到 =40.1,s=5.6。 2.根據樣本資料,你能對假設得出什麼結論? b.這種情況下,你會犯第二類錯誤嗎?試解釋之。 c.若x的真值至少為 39,試計算第二類錯誤的機率。 5.27 根據練習5.26中的資料,畫出透過確定 PWR(Aa) 而拒絕 Ho:p≤38 的功效曲線圖,其中PWR(Aa)中的p。取備擇假設中的k值:39,40,41,42.43,44。 a. 解釋曲線上的值。 b.不必真正計算 PWR(M),畫出=0.025,n =50 的功效曲線草圖。 c.不必真正計算PWR(M),畫出 a=0.05,n =20 的功效曲線草圖。 5.28 利用計算機軟體程式,模擬100 個容量為16的來自於 =40,0=8的正態總體的樣本。給定a =0.01,我們希望檢驗假設 Ho: =40 H: 40。用 100 個樣本中的每-個樣本資料分別進行檢驗時,均假定。=8,且總體服從正態分佈。 a. 100次檢驗中有多少次你不正確地拒絕 Hoo b.平均來說,給定a=0.01,如果你作了100次檢驗,那麼你預料有多少次得出拒絕H。這樣的結論? c.如果你不正確地拒絕 Ho,那麼你犯了哪一類錯誤? 5.29 參看練習5.28,假定總體均值是41.5,而不是40。模擬100個容為 16 的來自於p =41.5,=8的正態總體的樣本。在檢驗假設 Ho:4=40 H:M 40時,針對每個樣本,均設定a=0.10。 a.100次檢驗中,決策正確,即拒絕H。的次數所佔的比例是多少?易見,你正在計算檢驗功效,即檢驗方法發現原假設不戒立的能力。 加.當 =41.5時,計算檢驗的理論功效。 c.基於(b)中結論,你預期100次檢驗中有多少次正確地拒絕了 Ho: =40。 d. 當 =38和 =43時,重複模擬,並回答問題(a)〜(c)。 5.30 參看練習5.28和5.29。 a. 給定a=0.01,而不是a=0.10,回答這些習題中提出的問題。你也可以使用習題 5.28 和5.29所模擬的資料集,但精確的功效還需重新計算。 b.將&從0.10減少到0.01,檢驗功效是增加還是減少?並解釋為什麼會發生這樣的變化。 應用 5.31(商業)療養院的管理人員希望做一項工時效率研究,以便了解職工每天花費在非緊急任務上的時間。在沒有采用有效方法之前,平均每天花費在這些

• 246、 第五章關幹總體中心值的推斷任務上的工時為p=16。管理人員欲檢驗有效方法的實施是否減小了值。當均值的真值不超過12 小時(即有效方法的實施至少降低工時25%)時,她希望其檢驗使得 a=0.05,第二類錯誤的機率最多為0.10,為此需要選取多少天?給定。 =7.64. 5.32 某項研究需要對90位成年男性病人實施一項新的治療充血性心力衰竭的方法。對病人進行測量的變數之一就是經過4周的一個療程,病人鍛鍊能力 (以分鐘計)的增加。以前的治療方法使得鍛鍊能力增加=2分鐘。研究人員想評價⋯下,和以前的治療方法相比,新方法是否增加了值。由樣本資料得 = 2.17,s=1.05。 a. 給定a=0.05,稱如何對研究假設作出結論? b. 如果:的真值等子2.1,那麼犯第…類錯誤的機率是多少? 5.33 蔡春練習 5.32。就 Ha=2.1,2.2,2.3,2.4,2.5,計算檢驗功效 PWR(Aw)。用一條光滑的曲線連線點(Ka、PWR(Ma))。 H.a從0.05減小到0.01 將對功效曲線產生什麼樣的影響? b.樣本容量從 90減小到50會對功效曲線產生什麼樣的影響? 5.34 某個1年期的試驗計劃旨在提高貧困的中學畢業班學生的數學成績。 為了評價該計劃的成果,從參加該計劃的學生中隨機抽取一部分學生,然後將他們的數學成績與前一年州貧困學生的平均成績525進行對比。研究人員想搞清是否該試驗計劃使得平均成績比前一年州平均成績有所提高。給定a=0.05,如果均值的真值增加到 550,樣本容量取多少才能使得第二類錯誤的機率不超過0.025? 由以前的結果知。~80。 5.35 參看練習5.34。假定選取100名學生作為隨機樣本得到 =542, s=76。是否有充分證據表明平均數學成績得到了提高?試解釋之。 5.36 為了研究減肥劑的效用,進行一次臨床試驗,固定35位超重男性的食譜。兩週以後,稱一下每位的體重,然後給他們提供減肥劑。飲食不變;另外,每天服用一劑減肥劑。又過了兩間,再稱一次體重。根據以前的研究,僅僅固定飲食, 平均體重就會減少5磅。研究人員欲檢驗當 =0.05時服用減肥劑平均體重減少會超過5磅。進一步地,他們需要其檢驗至少有90%的可能觀察到平均體重減少不少於8磅。 a. 進入研究之前,35 位男性的體重在195至415磅之間。他們之間的體重差別如此之大會影響研究所得出的結論嗎?試解釋之。你如何設計一個不同的研究方法? b. 由以前的研究知。~6.8磅。樣本容量是否大到足以滿足研究人員對a和功效的要求?如果不是,樣本容量需要多大? 5.37 參看練習5.36。

5.5 襯於進行檢驗時樣本容量的選取•247• a.在第個兩週期間,35位男性的平均體重減少為妥=7.3磅,且s=4.6 磅:給定 a=0.05,是否有充分證據表明減肥劑是有效的? b.基於你在(a)中的結論,犯第一類錯誤的機率有多大?第二類錯誤呢? 5.38(工程) 在論文“Metals, petroleum hydrocarbons and organochlorines in inshore sediments and waters on Mombasa, Kenya" (Marine Pollution Bulletin, 1997,pp.570~577)中,作者討論了在蒙巴薩(Mombasa)地區,由於城市的擴張和工業化造成的汙染使得近海岸的環境變得很脆弱。在1995年9月至1996年1月期間,對肯亞的蒙巴薩近海水域進行了一次地質化學和海洋學的調查。在調查中,從位於蒙巴薩河口地區的48個觀測站收集了懸浮的顆粒物和沉澱物。在每個觀測站不同數量的活性區測量了主要氧化物和13種微量元素的濃度。特別地,在 37個觀測站測量了懸浮的微粒物中鉛的濃度(mg kg'千重)。研究人員想知道平均鉛濃度是否大於30mgkg'千重。下表列出了收集的資料,並且給出了概括統計量及正態機率圖。 48 41 3 77 53 37 13 210 44 41 10 38 肯亞 37個觀測站鉛的濃度 55 +6 11 112 52 32 5 $2 39 17 30 10 62 32 11 6 38 41 9 23 23 7 27 12 0.999 0.99 0.95 0.80審稅 0.50 0.20 0.05. 0.01 0.001 0 100 鏘㳖度 200 a.資料中是否有充分證據顯示平均鉛濃度超過 30mg kg1下重? b.如果平均鉛濃度的真值是50,那麼第二類錯誤的機率等於多少?

• 248• 第五章關於總體中心值的推斷 c.資料看上去具有正態分佈嗎? d.基於(c)中的答案,樣本容是否大到使得檢驗方法有效?試解釋之。 5.39(醫學)一般來說,首先是那些不規則形狀的牙齒(常稱之為白齒)發生腐蝕。這些牙上最容易感染的牙面是咀嚼面。這些表面的釉質通常含有徽小的空洞,他們容易蔽有食物的微粒。細菌開始吃這些食物微粒,從而創造一個牙面腐蝕的環境。 除了牙齒的自然硬化以外,影響牙齒腐蝕速度的特別重要的因素就是每個人所吃食物的種類。一些碳水化合物對牙齒的健康特別有害。人們做了很多研究來證實這些發現,我們可以想象如何進行這樣的研究。從某一地區選取60名男性作為隨機樣本。每人都接受了牙齒檢查,並且按照指定的食譜進餐,每餐中有一杯糖水。一年以後,該組平均每人新腐蝕的牙齒數為0.70,標準差為0.4。 2.給定a=0.05,這些資料是否提供了充分的證據表明那些每餐喝糖水的人平均每人新腐蝕的牙齒數超過0.30?0.30是一個感興趣的值,因為它被證明是那些每餐不喝糖水的人平均每人新腐蝕的牙齒數。 b.為什麼雙側檢驗不適合? 5.6 統計檢驗的顯著性水平在5.4節,我們按照相當傳統的方法介紹了假設檢驗:確定假設檢驗的5個步驟以及兩類錯誤和相應的機率a,B(pa)。問題是如果其他人應用你的研究結果時使用不同的a值,那麼在作出有關H。和H。的結論之前,他們必須計算新的拒絕域。假設檢驗還有另一種方法,其步驟如下:確立等假設和備擇假設,給定a值, 收集樣本資料,最後,求出拒絕零假設的證據的權重。權重通常用機率的形式來表示,稱之為統計檢驗的顯著性水平(或p值)。顯著性水平的更正式的定義如下: 顯著性水平是指在假定零假設為真的條件下,“檢驗統計量的取值與已經觀測到的檢驗統計量的值相比同樣或更傾向於拒絕 H。”這樣一個事件發生的機率。因此, 如果是著性水平較小,那麼樣本資料不能支援假設 Ho,從而我們拒絕Ho。另一方面,如果顯著性水平較大,那麼我們不能拒絕Ho。接下來,我們必須界定顯著性水平究竟等於多少才稱之為“大”或“小”。下面的判決規則所得出的結果總是和 5.5 節介紹的檢驗方法一致。 用p值進行假設檢驗的判決規則 1.若+值≤a,那麼拒絕 Ho。 2.若p值>a,那麼不能拒絕Ho。 我們舉幾個例子來說明如何計算顯著性水平。

5.6 統計檢驗的顯著性水平•249• 例$.12 見例 5.7。 a.求統計檢驗的顯著性水平(p值)。給定=0.01,作出關於研究假設的結論。 b.如果先確定a為0.05而不是0.01,那麼你關於H。的結論改變嗎? 解答 a.零假設和備擇假設為 Ho: ≤380 Ha:從≥ 380 根據樣本資料,檢驗統計量的值為 M-4-280 = 390-380 s/ Jn =2.01 35.2/ V50 該檢驗的顯著性水平(即拒絕Ho的權重)就是在假定零假設為真(即 = 380)的條件下,得到一個大於或等於390的觀測值的機率。此機率可藉助於檢驗統計望的z值2.01來計算,因為查附錄中的表1,P(x≥2.01)=1 P(<2.01)=1-0.9778=0.0222。如圖5.15陰影部分所示。因為值大於a(0.0222>0.01),所以我們拒絕Ho,從而我們得出結論:樣本資料不支援研究假設。 f(z) P=0.0222 ×=0 2.01 圖5.15 例5.12 中的顯著性水平 b.另一個人分析同樣的資料,但事先確定a=0.05。這個人願意冒更大的風險犯第一類錯誤,因此他的結論是拒絕 Ho,因為值小於 a(0.0222 <0.01)。重要的是在判決規則中的a是事先確定的,而不是計算p值之後再選擇。 正如我們從例5.12所看到的,顯著性水平表示觀測到比已觀測到的樣本更 •

• 250、 第五章關於總體中心值的推斷不利於H。的樣本的機率。這個機率越小,拒絕H。的證據越充分。例如,和另一個顯著性水平 =0.20的統計檢驗相比,顯著性水平 p=0.01 的統計檢驗具有更充分的證據拒絕Hno 例5.13 見例 5.11。若事先給定a=0.05,樣本資料有充分的證據支援研究假設嗎? 解答零假設和備擇假設為 Ho:A ≥ 16.37 Ha: <16.37 根據樣本資料,檢驗統計量的計算值為 H -16.38-10.32--0.795 S/Vn 0.225/ ¥80 計算顯著性水平就是求觀測到比已有的觀測值 =16.35更不利於H。的可值的機率。因為H。假設y小於16.37,所以更不利於Ho的值就是那些小於已有的值16.35 的那些值。因此, 值 P(≤16.35,假設 =16.37)= P(≤-0.795)= 0.2119 從而有可觀的證據支援Ho。更精確地說, 值=0.2119>0.05=c,因此我們不能拒絕Ha。故我們的結論是:沒有充分證據(值=0.2119)支援研究假設。可見這恰和用傳統方法得出的結論一樣。 對於雙側檢驗,H:從 KO,為了求顯著性水平,我們仍然要計算觀測到比已有的檢驗統計量的值更不利於H。的樣本的機率。然而,對於雙側假設檢驗,我們要根據到p的零值的距離來計算這個機率,因為無論比po 小得太多還是比 0大得太多,都與p=140相對立。因此,顯著性水平為 =p(I |≥1 的計算值1)=2p(≥12的計算值I) 將顯著性水平(值)的計算概括如下: 情形1 情形2 Ho:A≤HO Ho:從≥K He:從≥AO Ha:p<Mo 值: (≥ 的計算值) p(的計算值) 情形3 Ho:¥=40 Ha:p頭 o l ≥Ix的計算 •

5.6 統計檢驗的顯著性水平•251• —- 例 5.14 見例5.6。若先給定a=0.01,樣本資料有充分的證據支援研究假設嗎? 解答零假設和備擇假設為 Ho: = 2,600 Ha: 2,600 根據樣本資料,檢驗統計量的計算值為 -名-2732-2:600 = 2.75 s/JT 350/V40 檢驗統計量的顯著性水平可根據前面的公式進行計算。 值=2 (≥1 的計算值|) =2p(:≥12.75|)=2p(:≥2.75)=201-0.9970) = 0.006 因為值很小,所以沒有什麼證據支援 Hu。更精確地說, 價=0.006≤0.05= a,從而我們拒絕Ho。因此,有充分證據(值=0.006)支援研究假設,從而我們得出結論:平均行駛里程不等於2,600。可見這恰與用傳統方法得出的結論一樣。 這種假設檢驗方法的好處很多。統計學家(或從事統計檢驗的人)給學試驗者拒絕零假設證據的權重,而不是直接得出結論。然後,試驗者可據此得出他或她自已的結論。一些試驗者當p≤0.10時就拒絕零假設,而其他一些試驗者拒絕零假設時需要p≤0.05或 ≤0.01。試驗者在他或她認為有充分證據拒絕零假設時, 作出自己的決策。 許名專業期刊已經用顯著性水平報告統計檢驗的結果。因此,我們也許會讀到:某檢驗在 =0.05或 ≤0.01的水平下是顯著的。按照這種方法報告結果後,讀著可以得出自己的結論。 需要警告的是,0.05的值已經是一個具有魔力的水平。很多人都覺得除非檢驗達到了0.05水平或更低,否則等假設不應該被拒絕。之所以奶此,部分是由於基判決的方法通常事先給定。為0.05。當你在期刊雜誌上讀到這類文章或報告你自己的統計檢驗時,不要落入這樣的圈套。畢競,在某一水平下的統計顯著性並不表明其實際的顯著性。相反地,它意味著在特別低的風險下拒絕零假設。 例如,假設某公司想知道平均每月每輛車的行駛里程是否增加到 2,600英里。400 輛車的樣本資料表明 =2,640,s=35。根據這些資料及。=35,我們得到關於 Hn: =2,600的統計量為 =22.86;顯著性水平為 =0.0000000001。因此即使平均每月每輛車的行駛里程只增加1.5%,從統計上來說,其結果也是高度顯著的。但這種增長具有實際意義嗎?可能不。我們檢驗的結果表明,稍微增加了一點。 以後我們在做統計檢驗時,即使用基於判的方法,也使用顯著性水平的方

• 252• 第五章關於總體中心值的推斷法,以使你熟悉這兩種思路。無論使用哪種方法,都應考慮在你根據統計檢驗得出結論之後,該結論的實際意義。 練習基本技能 5.40 由關於x的統計檢驗的樣本資料得 =50, =48.2,=12.57。求檢驗 Ho: ≤45 H:4>45時的顯著性水平。資料中是否有明顯的證據支援假設:從大子 45?給定 a=0.05。 5.41 參看練習 5.40。如果研究人員用 =0.025,而不是 a=0.05,關的結論有變化嗎?試解釋同樣的資料如何得出一個關於的不同結論。 5.42 由關於的統計檢驗的樣本資料得3 =30, =5.8,s=4.11。求檢驗Ho:=4 Ha:A 4時的顯著性水平。資料中是否有明顯的證據支援研究假設: 不等於4? 給定a=0.01。 5.43 參看練習5.42,如果研究假設是單側假設Ho: ≤4 H:424,而不是雙側假設,你關於,的結論有變化嗎? 5.44 研究人員想知道,是否小於14。由樣本資料得 =40, =13.5,s =3.62。求檢驗Ho:/≥14 H:<14 時的顯著性水平。資料中是否有明顯的證據支援假設: 小下14?給定a=0.05。 5.45 假定練習5.44中的假設被錯誤地表述為 Ho:A≤14 H。:A≥14,求這一假設檢驗的顯著性水平,並證明所得關於,的結論與習題5.44 中的結論相反。 應用 S.46(醫學) 某菸草公司廣告聲稱其香菸中平均尼古丁含量最多為14毫克。 消費者保護組織欲瞭解他們的平均尼古丁含量是否實際上多於14毫克。隨機抽取300支該公司品牌的香菸,算得平均尼古丁含量為14.6,標準差為3.8毫克。 求檢驗該組織的斷言:“ 大於14”時統計檢驗的顯著性水平。如果a=0.01,資料中是否有明顯的證據支援該組織的斷言? 5.47(心理學)為了進行一項心理學實驗,需要調查從實施刺激至觀察到某個特定的反應所經過的時間(時間遲淋)。隨機抽取36人,對其實施刺激,然後記錄下時間遲滯。樣本均值和樣本標準差分別為2.2秒和 0.57秒。是否有明顯的證據顯示,對於那些可能被實施刺激的人所構成的假定總體,其平均時間遲滯不等於1.6秒嗎?給定a=0.05。檢驗的顯著性水平是多少?

5.7 止態總體均值p的統計推斷,。未知 • 253• 5.7 正態總體均值p的統計推斷,a未知早先本章所介紹的關於,的估計和檢驗方法都是建立在這樣一個基礎上,即假定總體方差已知或者我們能夠觀測到足夠的樣本使得。可作為。的一個很好的估計。在本節中,我們要介紹在總體近似服從正態總體分佈的條件下,當。未知時的-種檢驗方法,而不管樣本容量的大小。在第5.8節,我們將提供總體分佈非正態時的一種檢驗方法。考慮下面的例子。研究人員想知道患有某種罕見疾病的病人服藥1小時之後血液中約物的平均濃度。對於這種情況,在給定時間內,我們不可能得到30個或更多的觀測。用什麼樣的檢驗方法對y作出推斷呢? 上世紀初,W.S.Gosset 遇到了同樣的問題。作為 Guinness 釀酒廠的一名化學家,他要判斷各種啤酒的平均質量,但是他無法得到大樣本來作出結論。 Gosset 認為,當他在小樣本情況下使用檢驗統計量 a/ Vn 並用;代替a時,他錯誤地拒絕零假設 Ho: =xo的比率比給定的 a略高一些。 這一問題激起「他的興趣,他開始推導檢驗統計進x=2一些的分佈及n<30時的分位數。 例如,假設試驗者規定。為標準的水平,比如0.05,那麼他或她預料錯誤地拒絕零假設的機率接近於1:20。然而,Gosset 證明該檢驗犯第一類錯誤的機率略高下標準水平a。他以筆名 Student 發表了他的研究成果,因為在當時以真實姓名發表自己的成果違反了公司的政策。檢驗統計量 S/ /* 被稱為:統計量,其分佈被稱為學生:分佈,或者簡稱為學生:(見圖5.16)。 雖然統計量一些僅在樣本來自於正態總體時才服從:分佈,但是當樣本來自丁服從丘形分佈的總體時,1分佈提供了統計量乏一些分佈的一個合理近似。 我們將:分佈的性質概括如下。 分佈的性質 1.1分佈有很多,每一個:分佈對應一個引數,稱該引數為自由度(df)(見圖 5.16)。 2.和≥分佈一樣, 分佈關於0點對稱,因此均值等幹0。

• 254. 第五章關於總體中心值的推斷 0.45 0.40 0.35 0.30 臺025 0.20 0.15 - 0.10 0.05 - 0.0 1分佈,df=5正態分佈一1分佈、 =2 -6 -4 T -2 0 2 4 6 圖$.16 1 分佈和標準正態分佈的機率密度函式(PDF) 3.1分佈的方差等於df/(df-2),因此比方差為1的×分佈離散程度更大。 (見圖5.16) 4.隨著自由度df 的增加,t分佈將邁近於z分佈。(易見隨著自由度df 的增加、方差 d/(df-2)接近於1。) s/Vm 分佈過近2分佈。 “自由度”一詞現在聽起來好像難以理解,但其中的思想是很有用的。“自由度”一詞的嚴格定義需要高深的數學知識,我們予以迴避;從不太嚴格的意義上來講,自由度表示用:估計。時使用了多少條資訊。對於容量為n的樣本,其標準差 s是根據離差3 計算的。由於2(y:)=0總是成立,因此,如果n-1 個離差已知,那麼可以根據總和等於0直接求出第n個離差,這樣第n個離差就沒有提供任何資訊。因此,容量為?的樣本包含了n-1條關於。的資訊。對自由度的第二種解釋就是。度量了總體關於p的離散程度,所以在估計。之前,我們必須首先估計。因此樣本資料中關於估計。的資訊有1-1條。這相當於原始資料的個數減去在估計。之前所要估計的引數的個數。

5.7 正態總體均值,的統計推斷,a未知 •255• 由於:分佈的對稱性,附錄中表2只列出了t分佈的上分位數。自由度列於表的左側,表中的數為:值,記為ta,它表示其右側面積等於a,見圖5.17。各種各樣的a值列於附錄中的表2的頂部。因此,例如當 df=7,右側面積為 0.05的值是1.895(查表中a=0.05列,df=7行)。由於當 df 近似於∞時, 分佈近似於 2分佈,因此,表2的最後一行數等於za。這樣,利用表2的最後一行值,我們可以很快地求出 2ao f() a 0 圖5.17 附錄表2中的t分佈的面積示意圖我們可以用:分佈對總體均值x進行統計推斷。下面對關於x的樣本檢驗進行簡單總結。本章早先討論的z檢驗和這裡的:檢驗惟一不同在於,這裡用s 代替了a。任何時候,只要。未知,並且y值的分佈是丘形的,就應該用:檢驗而不是x檢驗。 a未知時,正態總體均值x的統計檢驗假設: 情形1.Ho:A≤ AO 情形2.Ho:K≥HO 情形 3. Ho:K= KO Ha:K>KO Ha :K< KO Ha:從 KO T.S.:t= 1-40 s/Vn R.R.:第一類錯誤的機率為a,df=n-1 情形 1. 如果t≥t,則拒絕 Ho。 情形 2. 如果t≤-ta,則拒絕 Ho。 情形 3.如果 | t1≥t/2,則拒絕 Ho。 (右側檢驗) (左側檢驗) (雙側檢驗) 顯著性水平(p值) 情形1. 值 (≥ 的計算值) 情形2.p值=p(t≤t的計算值) 情形3. 值=2p(t≥1t的計算值I)

• 256• 第五章關於總體中心值的推斷注意a表示:分佈尾部的面積。對於第一類錯誤機率等於a的單側檢驗,我們用附錄表2中對應於a=a,df=n-1的:值確定拒絕域。然而,對於雙側檢驗, 我們應利用表2中對應於a=a/2,df=n 1的:值。 因此,對於右側檢驗,如果,的計算值大於表2中對應於a=a,df=n-1的: 值,那麼就拒絕零假議。同樣地,對於雙側檢驗,如果||大於表2 中對應於a= a/2,df=1-1的t值,就拒絕零假設。 例5.15 一種經食物傳播的疾病之所以在好幾個州大規模發作,其原因被歸咎於腸炎沙門氏菌。流行病學專家認為疾病的根源在於冰淇淋。他們從生產冰淇淋的公司抽取9條生產線檢測冰淇淋中沙門氏菌的水平。水平資料如下(單位:MPN/g)。 0.593 0.142 0.329 0.691 0.231 0.793 0.519 0.392 0.418 利用這些資料確定冰淇淋中沙門氏菌的平均水平是否大子0.3 MPN/g,而這一水平被認為是很危險的。令a=0.01。 解答本例中的零假設和研究假設為 Ho:k≤0.3 Hk:k≥0.3 因為樣本容量較小,我們需要驗證資料是否隨機抽自丁正態總體。圖5.18 是該數據的正態機率圖。所有9個點幾乎在一條直線上。我們認為正態性條件看起來是 0.999 0.99 0.950.80 汁0.50 0.200.050.01 0.001 0.12 0.22 0.32 0.42 0.52 沙門氏菌水平圖5.18 沙門氏菌資料的正態機率圖 0.62 0.72 0.82

5.7 正態總體均值的統計推晰,a未知•257• 滿足的。在確定拒絕域,計算檢驗統計量之前,我們首先必須討算梯本均倩和標準差。經計算得: =0.456 s=0.2128 對應於a =0.01 的拒絕域為 R.R.:若t>2.896,則拒絕 Hoo 其中,根據附錄表2,當自由度 df=9-1=8時,10.01值為2.896。t的計算值為 1=五-些=2.456-023 $/ J7 0.2128//9 = 2.21 的觀察值並不大於2.896,所以我們沒有充分的證據顯示冰淇淋中沙門氏菌的平均水平大於0.3 MPN/g。檢驗的顯著性水平為值=p(> 的計算值)= (>2.21) 由於對於每個 df,t表只列出少數幾個面積a,所以我們至多隻能給出中值的一個界限。從表2得,當女f=8時,t0.0s=1.860,20.025 =2.306。出於:的計算值= 2.21,因此0.025 值<0.05。然而,a=0.01<0.025 值。我們仍然能得出結論: 值>a,因此我們不能拒絕Ho。下面給出的用 Minitab 軟體算得的結果表明 =0.029。 T-Tast of the Mean Test of mu=0.3000 vs mu>0.3000 Yariable H Mean Sal.Lev 9 0.4564 r Confidence Intervals Variable N Sal.Lev 9 Mean 0.4564 StDev 0.2128 SE Hean 0.0709 2.21 P 0.029 StDev 0.2128 SE Hean 0-0709 95.0% CI (0.2928,0.6201) 正如我們以前所說,為了作出沙門氏菌的水平小於或等於0.3的結論,我們必須計算對應十 H。中某些關鍵的p值的第二類錯誤機率。這些計算比x檢驗的計算更複雜一些,我們將用一組圖來確定B(M)。A(Ma》依賴於三個量,即df 1,2 以及以a為單位的 p5a至p0的距離d, d= LHa-A! a 因此,為了確定B(pa),我們必須給定 a,Me,並提供。的估計。然後計算 d和df= 一1,據此在圖上確定B(pw)。無論是單側假設還是雙側假設,對於 df=8, a= 0.01 和0.05,以及不同的d 和df 值,附錄表3均列出了B(pa)的曲線圖。

• 258• 第五章關於總體中心值的推斷例5.16 見例5.15。我們有n=9,a=0.01 並作一個單側檢驗:因此 df=8,如果我們估計a~0.25,那麼我們能夠計算對應於某些Aw的距離d:然後根據附錄表 3中的曲線圖求出B(M)。圖5.19 即是本例中所需要的曲線圖。為了說明用函計算的過程,令Ha=0.45,那麼 d= LHa-P0L = 10.4550.31=0.6 0.25 第 1.0 0.90.8元 B (0.45)~ 0.70.6 - 0.5 [0.55)—- 0.4 0.3 - 0.20.1 0.0 4 18 0.0 0.2 0.4 0.6 0.8 1.01.2 1.416 1.8 2.0 2.2 2.4 2.6 2.8 3.0 3.2 3.4 3.6 K=0.45 時的d A-0.55 時的d距離() 圖5.19 a=0.01,單側檢驗時第二類錯誤的機率從水平軸上d=0.6開始畫一條垂直線至標有自由度等於8的這條線。然後以交點的高度在垂直軸上確定B(Ma)值,於是B(0.45) =0.79。同樣地,為了求 B(0.55),首先計算出d=1.0,從d=1.0處畫一條垂直線至標有8的這條線,在垂直軸上找到0.43這點,因此p(0.55)=0.43。表5.5列出了一些B(Ma)值。因為對於顯著地大於 po=0.3的某些Pa,B(pa)的值較大,例如B(0.6)=0.26,因此,我們不能說, 小於或等於0.3,但是我們可以說資料不支援大於0.3這一論點。 當。未知時,除了能夠對,進行統計檢驗外,我們還能利用:構造置信區間。

5.7 正態總體均值 p的統計推斷,。未知 • 259• a未知時x的置信區間和。已知時相應的p置信區間是同樣的,只要將其中的。 用代替,將。用s代替即可。a未知時p的置信區間為表5.5 第二類錯誤的機率 Ha d B(Ka) 0.35 0.2 0.97 0.4 0.4 0.91 0.45 0.6 0.79 0.5 0.8 0.63 0.55 1.0 0.43 0.6 1.2 0.26 0.65 1.4 0.13 可士holes 注:df=1-1,置信係數為(1 a)。 0.7 1.6 0.05 0.75 1.8 0.02 0.8 2.0 0.00 例5.17 某航空公司欲評價 50歲以上的飛行員的判斷能力。隨機抽取 =14名50 歲以上的飛行員,要求他們判斷兩個放置在實驗室兩端相距20英尺的標記之間的距離。下面列出的樣本資料是指飛行員的判斷誤差(以英尺計)。 2.7 2.4 1.9 2.6 2.4 1.9 2.3 2.2 2.5 2.3 1.8 2.5 2.0 2.2 利用樣本資料求的95%置信區間,其中表示50歲以上飛行員對距離的平均判斷誤差。 解答在求x的95%置信區間之前,我們首先要透過作正態機率圖或盒形圖來考察資料的正態性。圖5.20是14個資料的盒形圖。中位數線接近於盒的中心,左右兩邊的須長近似相等,沒有異常值。資料可以看成從正態分佈抽取的樣本。因此,用:分佈構造置信區間是合適的。經計算得: 2.26 s= 0.28 查附錄表2得,對應於a=0.02,df=13的值為2.160。因此x 的95%置信區間 1.8 T 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 距離圖5.20 距離的盒形圖(附有均值的95%t置信區間)

• 260• 第五章關總體中心值的推斷為 = 1a/2 或 2.26土2.1609.28 Vn ¥14 即置信區間為2.26士0.16,或2.10至2.42。因此我們有95%的把握相倍飛行員對距離的平均判斷誤差在2.10英尺和2.42英尺之間。 本節中,我們已經從數學上作了正式的假定,即假定總體服從正態分佈。在實際中沒有哪個總體嚴格服從正態分佈。總體分佈的非正態性如何影響基於:分佈的統計推斷呢? 當總體被認為服從非正態分佈時,有兩個問題要考慮。首先,它服從哪種形式的非正態分佈?其次,這些非正態分佈的形式對:分佈的方法有何影響?和正態分佈最重要的偏離就是偏態分佈和厚尾分佈。厚尾分佈基本上是對稱的,但相對於正態分佈,它具有更多的異常值。圖5.21 顯示了四種分佈:圖5.21(a)是標準正態分佈,圖5.21(b)是厚尾分佈(df=3的:分佈),圖5.21(c)是中等程度向右偏 0.4度0.310.20.10.3度。2密 0.10.0- -2 -i i 隨機變數的值 (a) 標準正態分佈審度 2 -4 -26 隨機變數的值 (b)厚尾分佈密度 0.200.15瘦0.100.0590% 4.0154.010度 40054.000- § io Y隨機變數的值 (c)輕度偏態分佈密度 s 10 15 20 y隨機變數的值 {d)高度偏傑分佈密度圖$.21

S.7 正態總體均值y的統計推斷,。未知•261• 倚的分佈,圖5.21(d)是嚴重向右偏倚的分佈。 為了評估如偏態或厚尾這樣的非正態性的影響,我們考察對於這些形式的非正態性,1分佈方法是否仍然基本正確,是否還有其他更有效的方法。例如,不妨說對於厚尾分佈,即使基:分佈的檢驗方法給出近似止確的結果,如果我們對總體中位數而不是對總體均值p進行檢驗,那麼,也可能獲得--種檢驗方法,具有更精確的第一類錯誤機率和更大的功效。並且,在厚尾分佈或高度偏倚的分佈的情形下,用中位數代表總體的中心比p更合適。:分佈的近似正確性問題已經被廣泛研究。一般來說,即使總體分佈是厚尾的,:方法的機率,特別是置信區間的胃信水平和統計檢驗的第一類錯誤機率已經被發現是相當精確的。然而,若如圖 5.21(b)所示,總體分佈是嚴重厚尾的,則假設檢驗的第一類錯誤的機率比給定水平偏小,這樣導致檢驗的功效更低,從而有更大的機會犯第二類錯誤。而偏態,特別是在小樣本的情況下,甚至對第一類和第: 類錯誤的機率有更大的影響。當我們從正態總體中抽樣時,統計量的抽樣分佈是對稱的。然而,當我們從嚴重偏態的總體分佈中抽樣時,t統計量的抽樣分佈是偏態的,而不是對稱的。雖然,隨著樣本容量的增加,偏態的程度逐漸減少,但是沒有哪種方法能夠確定樣本容量為多少時:統計量的樣本分佈變成對稱分佈。 因此,當樣本容量小於 20,並且總體分佈如圖5.21(b)(c)(d)時,名義上 a =0.05的檢驗水平實際上可能等於0.01或更小。進一步地,其檢驗功效將大大低於當總體分佈為正態分佈時的檢驗功效,因此導致第二類錯誤增加。表5.6列出了偏態和厚尾影響檢驗水平和檢驗功效的模擬研究結果。表中的值是在。= 0.05 下,對於假設 Ho:ASpo Ha:p>Mo的檢驗功效。功效值是根據漂移量 - e-#o1/o 而計算的。表中列出了 d=0.0.2,0.6,0.8 且樣本容量分別為31 =10,15,20時的功效。當d=0時,對於每一型別的總體分佈均給出了相應的檢驗水平,我們當將其和0.05進行比較,當d>0時,將功效與相應的正態總體下的功效進行對比。透過對比我們發現,當樣本來自於輕度偏態分佈和厚尾分佈時, 檢驗水平稍微小於0.05,且n=20時,水平幾乎等於0.05。然而,當樣本來自於重度偏態分佈時,即使 =20,水平也僅僅為0.011。樣本來自於厚尾分佈和重度偏態分佈的功效明顯小於樣本來自於正態分佈時的功效。因此,這種檢驗不太可能正確地檢測出備擇假設為真,甚至當*=20時,功效仍然很低。當樣本來自丁輕度偏態分佈時,其功效非常接近樣本來自於正態分佈的功效。 因為當樣本取自於偏態分佈總體且樣本容量較小時,:方法的功效較低,所以人們研究出一些新方法,它們不受總體分佈的偏態和極端厚尾的影響。這些方法被稱為估計和推斷的穩健方法。第5.6 節和第六章將分別介紹兩種穩健方法,即符號檢驗和 Wilcoxon 符號秩檢驗。當總體分佈嚴重偏離正態時,這兩種檢驗均比:檢驗更有效。並且,它們保持給定的水平a不變,而不像:檢驗那樣,當資料嚴

• 262•