AI 新聞與投資

重非正態時，其真實的 a值與給定的。值差別較大。同樣的說法也適用於均值的置信區間。當總體分佈嚴重偏態時，名義上100（1-a）%置信區間的覆蓋機率比 100（1 a）要小很多。表5.6 1 檢驗的水平和功效 N= 10 # =15 總體分佈正態厚尾 ×=20 漂移量d 漂移量d 漂移量d 0 0.2 0.6 0.8 0 0.2 0.6 0.8 0 0.2 0.6 0.8 0.05 0.145 0.543 0.754 0.05 0.182 0.714 0.903 0.05 0.217 0.827 0.964 0.035 0.104 0.371 0.510 0.049 0.115 0.456 0.648 0.045 0.163 0.554 0.736 輕度偏術 0.025 0.079 0.437 0.672 0.037 0.129 0.614 0.864 0.041 0.159 0.762 0.935 嚴重偏倚 0.007 0.055 0.277 0.463 0.0060.078 0.513 0.733 0.011 0.104 0.658 0.873 那麼，一-個非專業人員如何做呢？首先，用圖對資料進行檢查。盒形圖或正態機率圖能揭示出任何嚴重的偏態或極端異常值。如果從圖形中並沒有發現嚴重偏態或很多異常值，那麼名義上的！分佈機率應基本正確。因此，假設檢驗的水平和功效，以及置信區間覆蓋的機率也應是相當精確的。如果圖形揭示出嚴重偏態或厚尾，那麼基於：分佈的：檢驗方法和置信區同將非常值得懷疑。在這種情況下，中位數比均值更適合作為總體中心的度量。在第5.8節，我們將研究總體中位數的假設檢驗和置信區間。當總體分佈嚴重偏態或厚尾時，第S.8 節所介紹的方法將保持置信區同覆蓋的名義機率以及給定的檢驗水平a不變。現在，我們來完成關於脂肪中卡路里含量百分比的案例分析。分析案例中的資料研究的目的之一就是估計女性護士從其食用的脂肪中攝取的卡路里的平均百分數。並且，研究人員希望估計平均數是否大於推薦的值 30%。回想一下，我們有168名婦女的隨機樣本，並且記錄了用問卷調查所得的卡路里百分數（PCF）。在構造置信區間或檢驗假設之前，首先，我們必須檢查資料是香來自於止態總體。從圖5.1的基葉圖和圖5.5的正態機率圖可見，可以認為數據來自於正態分佈。PCF 資料的均值和標準差分別為 =36.92,s=6.73。下面我們構造護士總體平均 PCF的95%置信區間，置信區間為： 36.92 土 10.025,167 6.73，36.92 1.974 6.73 或36.92士1.02 V168 V168 我們有95%的把握相信護士中平均 PCF 值在35.90與37.94之間。因此，有證據表明護士平均 PCF值大於推薦的值30%。下一步，我們將正式檢驗假設 Ho:p≤ 30 Ha:p> 30

5.7 正態總體均值p 的統計推斷，d未知•263• 因為認為資料來自子正態分佈，並且在任何情況下，只要樣本容量充分大，我們都能利用！統計量得拒絕域： R.R.：對於單側：檢驗，給定~=0.05，如果 $/ V16 ≥t0.05.169 = 1.654，則拒絕 Hoo 因為 =（36.92 30）/（6.73/ 168）=13.33.所以我們拒絕Ho。由丁檢驗的p 值基本上等下0，因此，我們認為平均PCF顯著地大於30，從而我們有充分的理由認為護士的平均 PCF 大於椎薦值 30。該領域的專家面對高於推薦值5.90到 7.94個單位的平均 PCF 值，必須確定下一步怎麼辦。報告結論我們必須寫一份報告對我們的研究結果進行總結，報告包括以下幾項內容： 1.敘述研究目的。 2.說明研究的設計及資料收集方案。 3.用數字和圖的形式對資料集進行歸納總結。 4. 說明所有的推斷方法： •t檢驗。 •基子t方法的總體均值的置信區間。 • 驗證使用推斷方法所必要的殺件。 5.討論所得的結果積做出的結論。 6.樹對於以前的研究，解釋本次研究中的發現。 7.對未來的研究給出建議。 8.列出資料集合。練習基本技能 5.48 當＜30，未知時，5.4 節中的×檢驗為什麼不適合檢驗H0:4≥ 0？ 5.49 給定 a =0.05，試針對下面的情況建立基於，檢驗的拒絕域： a.Ho：從<po,n=15。 b.Ho：從 Mの， =23。 c.Ho:M≥401=60 5.50 給定a=0.01，重複練習5.49。 5.51 關於假設 Ho:A≤15 Ho: A>15的：檢驗的樣本資料為 =16.2， S=3.1，#=18。給定a=0.05，試給出你的結論。

•264• 第五章關於總體中心值的推斷應用 5.52（教育）某小學正在評估在四年級實施的一項新的閱讀計劃。隨機抽取 20名學生，對他們進行一次測驗，以考察他們的閱讀速度和閱讀理解能力。測試內容為閱讀一篇固定長度的用於標準測驗的短文。經測驗，閱讀速度（以分鐘計）和閱讀理解成績（百分制）如下：學生速度理解學生速度理解 1 2 3 4 5 6 9 5 60 7 76 15 76 12 90 8 81 13 14 15 16 17 11 91 8 10 8 7 83 100 85 76 7 75 18 6 69 7 10 95 19 8 11 98 20 9 88 10 13 73 11 10 90 12 6 66 91 8 78 s 20 9.10 2.573 20 82.05 10.88 2.利用閱讀速度資料，求該小學所有四年級學生平均閱讀速度 p的95%置信區間。 b.畫出閱讀速度的正態機率圖和盒形圖，考察資料是否來自於正態總體。 c.解釋（a）中的區間估計。 d.如果用98%置信區間而不是95%置信區間，你的結論有變化嗎？ 5.53 參看練習5.52。根據閱讀成績資料，是否有充分證據表明四年級的閱讀成績大於80分？這裡的80分是前一年全州範圍內可比學生的平均成績。試給出你的檢驗的顯著性水平，並解釋你的結果。 5.54 參看練習5.53。 a.根據資料，你能發現學生的閱讀能力和閱讀速度之間存在什麼關係嗎？ b.你對關於新的閱讀計劃的評價結果有何看法？ 5.55（商業）某廉價輪胎生產廠家聲稱他們的輪胎在磨破之前至少能夠行使 35，000英里，現有一消費者檢測機構欲評價其真實性。為了知道該廠家輪胎的平均行駛里程，檢測機構從其倉庫中隨機抽取60只輪胎，將他們安裝到15輛小汽車上，然後在2英里長的橢圓型試車跑道上進行試車。下表列出了輪胎在磨破之前的行駛里程數（以下英里計）。

5.7 正態總體均值，的統計推斷，8未知•265• 汽車行駛里程汽車行駛里程 1 25 10 33 2 27 11 30 3 35 12 26 4 42 13 31 5 28 14 28 6 37 15 30 7 40 n 15 8 31 31.47 9 29 s 5.04 a.求在輪胎在磨破之前，其平均行駛里程p的99%置信區間。 b.給定a=0.01，是否有充分證據顯示廠家的聲言是錯誤的？檢驗的顯著性水平是多少？並對你的結果加以解釋。 5.56 參看練習5.SS。下面是 Minitab輸出結果，試將你的結果和計算機程序給出的結果進行比較。日.正態假定有效嗎？ .你所得到的關於p值的界限與準確的p值相差多少？ c.x的區間估計和假設檢驗的結論是否相互矛盾？ Test of mu=35.00 vs mu 35.00 Variable Mean Miles 15 31.47 StDer 5.04 SE Mean 1.30 -2.71 P 99.0*CI 0.0084 27.59,35.3 輪胎資料的盒形圖輪胎資料的正態檢驗 40型35英 30251 0.9990.990.950.80率 0.500.200055 0.01 0.001 25• 30 35 英里 40 S.57（環境）水體中的汙水和工業汙染的多少會透過減少水中被溶解的氧氣而影響水體的水質，生物的生長與生存有賴於這種氧氣。兩個月內，從汙水處理廠下游！英里處的一條小河裡取得8個水樣。檢測水樣中溶解的氧氣含量，資料列於下表。根據最近的研究，為了保證魚的生存，水中溶解的氧氣的平均含量必須達到百萬分之五，即5.0ppm。

•266• 第五章關於總體中心值的推斷水樣 1 氧（ppm） 5.1 2 4.9 3 5.6 4 4.2 5 4.8 6 4.5 7 5.3 8 5.2 8 y s 4.95 0.45 a.求兩個月期間平均氧氣含量的95%置信區間。 b.根據（a）中的置信區間，平均氧氣含量看起來小於5.0ppm 嗎？ c.檢驗研究假設：平均氧氣含量小於 S.0ppm。檢驗的顯著性水平等於多少？並對你的結果加以解釋。 5.58（工程）某從事紙張回收的商販將空掛車放置在各個地點。一些人把舊報紙和舊雜誌扔進車裡，逐漸將其填滿，然後，商販每隔不同的時間將這些掛車運走。其中一種安排就是每兩週回收一次。如果平均每兩週回收紙張超過1，600立方英尺，那麼這種安排就是可取的。該商販記錄『某地點每兩週回收一次，共18 次回收的資料如下： 1,660 1,820 1,590 1,440 1,730 1,680 1,750 1,720 1,900 1,570 1,700 1,900 1,800 1,770 2,010 1,580 1,620 1,690 y =1,718.3 s= 137.8 a.假定這18次的記錄在全年的兩週一次的回收記錄中是典型的，是否有充分的證據顯示平均回收量 p超過1,600立方英尺？ b.求隊的95%置信區間。 c.計算檢驗統計量的值。是杏有實足的證據表明大於1,600？ 5.59 觀賞性灌木的商業種植者經常要延緩灌木的成長以便在它們售出之前不至於長得太大。對某高冷盤屬觀賞性灌木施用了一種叫 dikegulac 的生長延緩劑，以評價該延緩劑的效用。文章“dikegulac alters Browth and flowering of kianchoe"（Hort Science（1985），20:722~724）記述了這些實驗的結果。對10株灌木施用了 dikegulac，而另對10株灌木未加以施用，以便確定 dikegulac 對植物生長的影響。在經過處理13周之後，測量了20株灌木的高度，並計算了有關統計量，列表如下：未使用使用 10 10 43.6 36.1 5.7 4.9

5.8 關了中位數的推晰•267• a.分別求經過處理的灌木的平均高度和未經過處理的灌木的平均高度的置信區間。並解釋這些區間。 b.兩置信區間有重疊嗎？你能對作為生長延緩劑的 dikegulac 的效用作何結論？ 5.60（政府）某聯邦管理機構調查一則廣告，該廣告聲稱一種裝置能夠增加汽車的汽油行駛里程（單位：mpg，英里/每加侖）。該聯邦機構購買了10套這樣的裝世，並安裝在該機構的汽車上。記錄安裝前後每輛車的汽油行駛里程。資料如下：汽車 12345 6 7 8 9 10 安裝前（mpg） 19.1 29.9 17.6 20.2 23.5 26.8 21.7 25.7 19.5 28.2 安裝後（mpg） 25.8 23.7 28.7 25.4 32.8 19.2 29.6 22.3 25.7 20.1 變化（mpg）6.7-6.211.1 5.2 9.3-7.67.9 -3.46.2-81 10 s 10 23.22 4.25 10 25.33 4.25 2.11 7.54 試分別求出安裝前後每個裝置的平均 mpg 的90%置信區間，並解釋這些區間。該種裝置是否明顯地提高了平均行駛里程？ 5.61 參看練習5.60。 a. 安裝了裝置之後，汽車的平均每加侖汽油行駛里程似乎明顯不同於安裝之前。利用里程的改變數資料，檢驗在安裝了裝置之後行駛里程是否有明顯增加？給定a=0.05 b.構造行駛里程平均改變數的90%置信區間。在這—-區間基礎上，人們能夠拒絕假設：平均改變數為零或為負嗎？（注意：90%雙側置信區間對應於一個a=0.05 的單側檢驗，即如果 xo大於置信區間上限，那麼拒絕Ho：從≤ Ko） S.62 參看練習5.60。 #.對於幾個不同的pc值，計算第二類錯誤的機率，其中wc為行駛里程的平均改變數。這些值如何影響你在練習5.61 中所得的結論？ b.試對練習5.60中的研究方法提出一些改變的建議。 5.8 關於中位數的推斷當總體分佈嚴重偏倚或嚴重厚尾時，中位數比均值更適合表示總體的中心。更進一步地，正如5.7節所指出的，當樣本取自這樣的總體，且樣本容較小時，不

•268• 第五章關於總體中心值的推斷適合用：方法構造置信區間和作均值的假設檢驗。本節我們將介紹關於總體中位數的假設檢驗和區間估計問題，且適用於各種總體分佈。總體中位數M的估計基於第三章所討論的順序統計基。回想一下，如果用 Y132，2，表示容量的隨機樣本，那麼將其從小到大排序所得到的各個統計量就是順序統計量。令y（1）≤y（2）≤•≤y（x）表示資料按順序排列。因此y（1）是最小值，Y（»）是最大值。總體中位數的估計量是樣本中位數M。M的計算如下。如果n為奇數，那麼M=3（m），其中m=（n+1）/2。如果為偶數，那麼MM=（y（m）＋ m＋））/2，其中m=n 2。為了考慮作為M 的估計所的變異性，下面我們構造M 的置信區間。可以用 T=0.5的二項分佈構造總體中位數M 的置信區間。置信水平至少為100（1-0）%的 M 的置信區間為附表4列出了 =0.5的二項分佈的分位數Ca（2）.n的值。因為置信限是根據二項分佈計算的，而二項分佈是離散分佈，因此（ML,Mu）的置信水平一般來說比給定的100（1-a）%略大一些。精確的置信水平為水平 = Pr（Bin（n,S） ≤ Ua/2-2）- Pr（Bin（n,S） ≤ La/2）下面將透過例子來說明如何構造置信區間。例5.18 某大城市的環衛部門欲研究如何減少那些放在城市垃圾掩埋場的可回收物的數量。透過從垃圾中分離出可回收物，可延長垃圾掩埋場的生命。更重要的是，可大大減少為了紙張生產而砍伐的樹的數量以及罐裝品所用的鋁的數量。根據其他城市回收記錄的分析，如果平均每週從每戶回收5磅以上的可回收物，那麼商業回收公司就可透過回收垃圾獲利。為了論證回收計劃的可行性，隨機抽取25戶。每戶每週可回收物的重基（以磅/周計）資料如下。 14.2 5.3 2.9 4.2 1.2 4.3 1.1 2.6 6.7 7.8 25.9 43.8 2.7 5.6 7.8 3.9 4.7 6.5 29.5 2.1 34.8 3.6 5.8 4.5 6.7 試給出一種適當的方法以確定該城市家庭可回收垃圾的數。

5.8 關下中位數的推斷 • 269 45 401 353025~ 201510 5 0 可回收垃圾的盒形圖 * * 可回收垃圾的正態機率圖 0.999 0.99 0.95 0.80 0.50 概 0.20 0.05 0.01 0.001 0 10 20 可回收垃圾（每週磅數） 30 40 解答可回收垃圾的盒形圖和正態機率圖均顯示資料嚴重右偏。因此，均值並不適合代表典型家庭潛在可回收垃圾的數量。下面計算樣本中位數和置信區間。首先，我們將資料從小到大排序： 1.1 1.2 2.1 2.6 2.7 2.9 3.6 3.9 4.2 4.3 4.5 4.7 5.3 5.6 5.8 6.5 6.7 7.8 7.8 14.2 25.9 29.5 34.8 43.8

• 270• 第五章關於總體中心值的推斷資料的個數為奇數，所以樣本中位數為 M= y（（25+1）/2） = y（13）= 5.3 樣本均值為 =9.53。因此，25戶中有20戶每週的可回收垃圾小於樣本均值。然而，25戶中有12戶垃圾小於樣本中位數，25戶中有12戶垃圾大於樣本中位數。因此，樣本中位數比樣本均值更適合代表典型家庭潛在可回收垃圾的數量。下面我們將構造總體中位數的95%置信區間。食表4，我們得到Ca（2）.n=C0.05,25=7 因此， 1.o.ozs = Co.05.25 =7 U0.025= n- Co.os.n +1=25-7+1=19 於是總體中位數的95%置信區間為（ML,Mu）= （y（）， Y（19））= （3.6,7.8）根據二項分佈，置信區間的精確水平為 Pr（Bin （25,0.5） ≤19-2）- Pr（Bin （25,0.5） ≤7） = 0.9784- 0.0216 = 0.9568，比期望的水平95%略大一點。因此，我們至少有95%的把握相信每戶每週可回收垃圾的中位數在3.6到7.8磅之間。大祥本近似當樣本容n很大時，我們可以用正態分佈近似二項分佈，從而得到Co（2）.* 的近似值。近似值為 Cal2），~當-zol2d背由於Ca（2），n的近似值一般情況下並不是一個整數。因此，我們令Ca（2）.*為小於或等於其近似值的最大整數。例5.19 根據例 5.18的資料，利用Ca（2）.，的近似值，求中位數的95%置信區間。解答由於 n =25，a =0.05。因此，20.05/2=1.96 Cor3）.8~當-sae/是一碧-1.96架 = 7.6 於是，令Ce（2），，=7，所得置信區間與例5.18 構造的覺信區間相同。如果，大子 30.則Co（2），》的近似值和精確值通常都是相等且是整數。在例5.18中，城市想知道每戶每週可回收物的中位數是否大於5磅。我們構造了中位數的置信區間，但仍不能回答中位數是否大於5。因此，我們需要研究中

5.8 關於中位數的推斷•271• 位數的假設檢驗何題。我們將利用中位數置信區間的構造方法來研究關丁總體中位數的假設檢驗問題。書實上，總體中位數M 的100（1-a）%置信區間可以被用來檢驗關於M的雙側假設。如果我們要在水平 a下檢驗假設Ho:M=Mo H:M Mo，那麼我們就構造M的100（1-a）%置信區間。若Mn被包含於骨信區間之中，那麼我們就不能拒絕 Ho。若 M。落在置信區間之外，那麼我們就拒絕 Ho。對於 M的單側假設檢驗問題，我們將利用二項分佈來確定拒絕域。所用的檢驗方法被稱之為符號檢驗，具體構造如下。令y132，⋯，3，為取自於中位數等於M的總體的隨機樣本。M 的零值為Mo，定義W；=yi-Mo。符號檢驗的檢驗統計量就是正的W；的個數。因為M是總體中位數，所以，有約50%的資料大於 M,50%的資料小下M。現在，如果 M=Mo，那麼y：就有50%的機會大於Mo，因此W，有50%的機會為正。因為這些W，相互獨立，且當 M=Ma 時，每一個W；有50%的機會為正，B表示在假設H。下正的W：的個數，那麼B是服從~=0.5 的二項分佈隨機變數，於是，附表4中元=0.5的二項分佈分位數可以被用來構造假設檢驗的拒絕域。下面將總體中位數M 的統計檢驗進行一下總結，其中給出了三種不同的假設以及相應的拒絕域。該檢驗適用於任何總體分佈。總體中位數 M 的統計檢驗小結假設：情形1:Ho:M≤Mo H:M≥MO 情形2:Hn:M≥MI H:M<Mo 情形3:Ho:M = Mo H：M M。（右側檢驗）（左側檢驗）（雙側檢驗） T.S.：令W，=y-Mo,B=正的W，個數。 R.R.：給定第一類錯誤機率 a，情形1：若B≥n Ca（l）.n，則拒絕Ho 情形2：若B≤Ca（1.n，則拒絕H。情形 3：若B≤Cot2）.n，或B≥n Ca（2）.n，則拒絕 H 下面將舉例說明總體中位數的假設檢驗問題。例5.20 參看例5.18。環衛部門想知道每戶每週可回收垃圾的中位數是否大於5磅。利用例5.18的資料，在水平下 =0.05 檢驗研究假設。解答假設為 Ho:M≤s H:M>5

• 272• 第五章關於總體中心值的推斷資料集為 =25戶的一個隨機樣本。查附表4，得Ca（2）. =C0.05.25 7。因此，如果B≥*-Coll）.n=25-7=18，我們將拒絕Ho:M≤S。令W：=3- Mo= V：— 5，即得： -3.9 -3.8 -2.9 -2.4 -2.3 -2.1 -1.4 -0.7 -0.5 -0.3 0.3 0.6 0.8 1.5 -1.1 1.7 -0.8 1.7 2.8 2.8 9.2 20.9 24.5 29.8 38.8 所有25個W，中有13個為正。因此B=13並不大於18。幹是，我們得出結論：資料尚不能證明每戶每週可回收垃圾的中位數大於5磅。大祥本近似當樣本容量，大於附表4所列的值時，我們可以用正態分佈近似二項分佈以確定拒絕域。符號檢驗的標準化形式為 Bsr= B-（n/2） Vm/4 當M等於M。時，Bsr近似於服從標準正態分佈。因此，對於三種不同的研究假設，我們有下面的判決規則。情形 1：若 BsT≥20，則拒絕Ho:M≤Mo，且中值=Pr（Z≥ Bsr）情形 2：若Bsr ≤-zo，則拒絕Ho:M≥Mo，且p值=Pr｛Z≤ Bsr）情形3：若|Bsr|≥ za/2，則拒絕Ho:M=Mo，且p值=2Pr（Z≥1 Bsr！）其中z。是標準正態分佈的分位數。例5.21 利用例5.20中的資訊，構造符號檢驗的大樣本近似，並將你的結論與精確符號檢驗的結論相比較。解答參看例 5.20，n=25,B=13。我們構造符號檢驗的大樣本近似如下。如果 Bsr≥>20.0s=1.96，那麼我們拒絕Ho:M≤S，支援H:M>S。 Bsr=B-（n/22-13（25/2） Vn/4 V25/4 = 0.2 因為Bsr 不大於 1.96，所以我們不能拒絕Hoo查附表1，得值=Pr（2≥0.2）=1- Pr（2<0.2） =1-0.5793= 0.4207 因此，我們得出和精確檢驗同樣的結論。在5.7節，我們知道：當總體分佈嚴重厚尾或嚴重偏倚時，：檢驗的效果變差。表5.7列出了符號檢驗的水平和功效，並針對5.7 節圖5.21 所描繪的四種分佈，將這些值和：檢驗的相應值進行對比。理想地，對於所有總體分佈，檢驗水平應該

5.8 關下中位數的推斷•273• 一樣。同時，我們希望檢驗功效達到最大，因為檢驗功效表示發現錯誤零假設的能力。當總體分佈嚴重厚尾或嚴重偏倚時，t檢驗的水平發生了變化，而不是給定的值0.05。在這些情況下，符號檢驗的水平保持不變，因為符號檢驗的水平對於所有的分佈都是一樣的。當樣本來自於正態總體時，1檢驗的功效大於符號檢驗的功效。然而，當樣本來自於嚴重厚尾分佈或嚴重偏倚分佈的總體時，符號檢驗的功效大丁：檢驗的功效。總體分佈正態厚尾輕度偏倚嚴重偏倚表5.7 1 檢驗對符號檢驗的水平和功效 n=10 n=15 椎臉統計量 7 =20 （M.-Ma）/a （M.-Mo）/a （M.-Mo）/a 水平 0.2 0.6 0.8 水平 0.2 0.6 0.8 水平 0.2 0.6 0.8 0.05 0.145 0.543 0.754 D.05 0.182 0.714 0.903 0.05 0.217 0.827 0.964 符號檢驗 0.0550.136 0.454 0.6420.0590.1720.6040.804 0.058 0.194 0.704 0.889 0.035 0.104 0.371 9.510 0.049 0.115 0.456 0.648 0.045 0.163 0.554 0.736 符號檢驗 0.055 0.209 0.715 0.869 0.059 0.278 0.866 0.964 0.058 0.325 0.935 0.990 0.055 0.140 0.454 0.631 0.059 0.178 0.6040.794 0.058 0.201 0.704 D.881 符號檢驗 0.025 0.0790.437 0.672 0.0370.129 0.614 0.864 0.041 0.159 0.762 0.935 t 0.007 0.055 0.277 0.463 0.006 0.078 0.515 0.733 0.011 0.104 0.658 0.873 符號檢驗 0.0550.196 0.6130.778 0.059 0.2580.7776.912 0.058 0.301 0.867 0.964 練習基本技能 $.63 假定我們從中位數為 M的總體中抽取容量為n的隨機樣本。我們要構造 M 的90%信區。 a. 若 =20，附表4求1a/2和U /20 .用大樣本近似求La 2和Ua 2，並將它行和（a）中的值進行比。 5.64 假定我們從中位數為M 的總體中抽取容量為x的隨機樣本。我們要構造 M 的90%置信區間。日.若 =20，附表4，水1-a 2和 U./20 b.用大樣本近似，求L 和Ua 2，並將它們和（a）中的值進行比較。 5.65 假定我們從中位數為M 的總體中抽取容量為30的隨機樣本。我們要在a=0.05水平下檢驗Ho:M≤M。Ha:M>Mo。利用附表4 中的值，構造拒絕域以檢驗這些假設。

• 274• 第五章關於總體中心值的推斷 5.66 參看練習5.65。用大樣本近似構造拒絕域，並將你的結果與練習 5.65 所得的拒絕域進行比較。 5.67 假定我們從中位數為M 的總體中抽取容量為50的隨機樣本。我們要在a=0.05 水平下檢驗 Ho:M=M。Ha:M Mo。利用附表4中的值，構造拒絕域以檢驗這些假設。 5.68 參看練習5.67。用大樣本近似構造拒絕域，並將你的結果與練習 5.67 所得的拒絕域進行比較。應用 5.69（商業）對於工人來說，在保健上究竟要花多少錢是一個重要的問題，因為許多公司提供的健康保險只覆蓋很多醫療專案的一部分。一中型公司的職工福利主管想了解公司一般小時工用於保健的費用。隨機抽取35名工人，過去一年他們家庭的保健費用如下。 400 143 345 248 1,290 398 218 197 342 208 223 531 172 4,321 254 201 3,142 219 276 326 207 225 123 211 108 a.用盒形圖和正態機率圖考察總體是否服從正態分佈。 b.根據你在（a）中的答案，每戶花費的均值還是中位數更適合度量一般工人用保健的費用。 c.構造工人保健費用的95%置信區間。解釋置信區間告訴了我們關於保健的費用的什麼資訊。 d.給定a =0.05，工人每年的保健費用的典型值超過400 美元嗎？ 5.70（政府）許多州企圖減少血液中酒精含的法定水平，只要不超過這一水平，司機飲酒就被認為是合法的。法律上作這樣的修改遇到來自於某些商業組織的阻力，他們宣稱目前的限制水平就足夠了。為此，需要作一項研究以證明血液中0.1%酒精含量對反應時間的影響，而0.1%酒精含量是目前許多州規定的法定水平。隨機抽取25名法定駕駛年齡的司機，讓他們飲足夠望的酒直至血液中酒精含量達到0.1%。透過一項標準的實驗室測試方法分別測量他們飲酒前後的反應時間。飲酒後與飲酒前反應時間（以秒計）之差如下： 0.01 0.02 0.04 0.05 0.07 0.09 0.11 0.26 0.27 0.27 0.28 0.28 0.29 0.29 0.30 0.31 0.31 0.32 0.33 0.35 0.36 0.38 0.39 0.39 0.40 2. 對於那些血液中酒精含量為0.1%的司機，構造其反應時間之差均值的置

5.8 關於中位數的推斷•275• 信區和中位數的置信區間。心.是否有充分的證據表明0.1%酒精含量的水平導致了平均反應時間的增加？ c.是否有充分的證據表明0.1%酒精含量的水平導致了反應時間中位數的增加？ d. 對反應時間之差的哪一種結論更適合，均值還是中位數？給出理由。 5.71 參看練習5.70。商業組織的說客讓他們的專家檢查實驗裝置，並認為反應時間的測量可能有誤。除非反應時間之差至少為0.25，否則，專家聲稱兩個時間基本上是相同的。 a.是否有充分的證據表明反應時間之差的中位數大十0.25秒？ B. 在企圖確定飲適量的酒是否影響反應時間時，還有其他什麼有關司機的因素是重要的？ 5.72（社會）美國國會在1999年會上辯論社會保險基金是否應該部分投資到股市，以增加人們退休時從社會保險機構所領得的保障金。共有基金的倡導者為了讓公眾放心，他們聲稱絕大多數共有基金比社會保險提供了更大的退休收益。從1989到1999年重點推薦的兩大共有基金的年同報率資料如下（年回報率被定義為（PI-PA）/Po.其中P。和P，分別為年初和年末基金的價格）：年份 1989 基金A 25.4 基金B 31.9 1990 17.1 -8.4 1991 -8.9 41.8 26.7 6.2 1993 3.6 17.4 1994 -8.5 -2.1 1995：1.3 30.5 1996 32.9 15.8 1997 22.9 26.8 1998 26.6 5.7 8.對十基金A和基金B，試估計年回報率的均值和中位數，並分別構造相應的95%置信區間。 .均值或中位數中，你認為哪一個更適合表示 1989到1999年基金A和基金 B的年回報率？給出你的理由。 5.73 參看練習5.72。 a，是否有充分的證據表明兩種共有基金年回報率的中位數大於10%？ b.是否有充分的證據表明兩種共有基金年回報率的均值大於10%？ 5.74 對於那些選擇退休計劃的人來說，還有哪些年回報率的概括統計量是重要的？ 5.75 利用表5.7的資訊，回答下列問題。 8.如果總體服從正態分佈，那麼總體均值和總體中位數相等。因此均值村中位數都可以表示總體的中心。在這種情況下，為什麼：檢驗比符號檢驗更

• 276• 第五章關於總體中心值的推斷適合於檢驗總體的分佈中心？ b.假定總體分佈嚴重右偏。研究人員在&=0.05 下用：檢驗來檢驗關於總體均值的假設。如果樣本容量n =10，那麼檢驗的第一類錯誤機率是0.05 嗎？給出你的理由。 c.當檢驗嚴重偏倚分佈總體的均值或中位數時，符號檢驗和，檢驗的功效之差隨著（M。-M。）的增加而減少。用表5.7中的值驗證這一命題。為什麼會出現這種情況？ d. 當檢驗輕度偏倚分佈總體的均值或中位數時，符號檢驗和：檢驗的功效之差比檢驗嚴重偏倚分佈總體時更小。用表5.7中的值驗證這一命題。為什麼會出現這種情況？ 5.9 小結對總體均值和總體中位數能夠用點估計和區間估計的方法進行估計。是否選擇中位數而不選擇均值作為總體中心的代表依賴於總體分佈的形狀。區間估計的好壞取決於區間的寬度和置信係數。我們給出了均偵 p和中位數M的100（1— a＞%置信區間的公式。在事先給定，的置信區間寬度和置信水平前提下，提供了確定樣本容量的公式。根據傳統的假設檢驗方法，統計檢驗包括5個部分：零假設，檢驗統計量，拒絕域，檢查假設以及得出結論。統計檢驗利用反證法的思想。我們做試驗和分析，收集資料，透過獲得與零假設H。相矛盾的論據來驗證研究假設。與任何雙向決策過程一樣，假設檢驗也可能犯兩種型別的錯誤。第一類錯誤就是當H。為真但拒絕H。所犯的錯誤，第二類錯誤就是當備擇假設H。為真但接受Ho所犯的錯誤。犯第一類錯誤的機率用a來表示。對於H。中均值x。的某個已知值，犯第二類錯誤的機率用B（p&）表示。隨著Ha到p0距離的增加，B（pa）減少。檢驗功效就是當值位於H。一邊時，檢驗拒絕H，的機率。因此，Ma處的功效等於1-B（Ma）。我們也指出，給定樣本容量和均值 pa，&和B（pa）成反向關係；隨著a增加， B（p。）減少，反之亦然。對子任一檢驗方法，給定樣本容量n和檢驗水平a，我們都可以計算B（pa），其中均值Pw為備擇假設中的值。在很多研究中，我們需要確定樣本容：使得檢驗具有給定的水平a，並且p（pa）以某一值為界。為此，我們給出了n的計算公式，使得水平為 ~的檢驗滿足B（pa）≤B，而無論 Ma距離Mn有多遠。我們給出了另外一種並非基於傳統判決方法的統計假設檢驗方法。我們不是依賴於事先給定的水平a，而是計算包含在資料中拒絕零假設的證據的權重。這種權重用機率來表示，我們稱之為檢驗的顯著性水平。大多數專業期刊都用顯著

5.9 小結•277• 性水平總結統計檢驗的結果。我們討論瞭如何使用顯著性水平以便獲得與傳統方法同樣的結果。我們也討論了當。未知時p的統計推斷問題，而。未知是常見的情況。透過使用：分佈，我們能夠構造p的覺信區間，進行統計檢驗。當總體分佈嚴重偏倚或嚴重厚尾，且樣本容量較小時，：檢驗和置信區問往往達不到規定的水平和功效。在這些情況下，我們可以用中位數代替均值來表示總體的中心。我們也提供了構造總體中位數信區間和進行假設檢驗的方法。重要公式和中位數的估計和檢驗 1.當樣本來自於正態總體或樣本容較大時，（。己知）的100（1 a）% 信區間士 0/20 其中 =0/0分 2.當樣本來自正態總體或樣本容量較大時，w（a未知）的100（1-a）%置信區間士tal2s/Vn,df=n-1 3.4的100（1-a）%置信區間估計為士E 所需的樣本容 E2 4.當樣本來自於正態總體或樣本容較大時，p（。已知）的統計檢驗統計量：*二亞，些 S. 當樣本來自於正態總體或樣本容量較大時，p（。未知）的統計檢驗統計盤：1一予，dF= -1 6.當樣本來自於止態總體或樣本容量較大時，針對p（d已知）的統計檢驗， B（Ha）（和相應的功效）的計算 2.水平為a的單側檢驗 B（Aa）= Px<2a-LKHe），其中Os=015 b.水平為a的雙側檢驗 B（pa）《Pl& < Sol2-LKDQ, KeL），其中Os=0/分 7.當樣本來自於正態總體或樣本容量較大時，針對p（a未知）的統計檢驗，計

• 278• 第五章關子總體中心值的推斷算B（pa）（和相應的功效）：利用附錄表3。 8.當樣本來白於正態總體，x（a已知）的統訃檢驗所需的樣本容量。 a. 水平為 a 的單側檢驗 b.水平為a的雙側檢驗 9.總體中位數M 的100（1-a）%置信區間 10.關於中位數的統計檢驗檢驗統計量：令W；=3-Mo,B=正的W；的個數補充練習 5.76（商業）一生產油漆的廠商在廣告中聲稱：1加侖油漆平均可覆蓋 400 平方英尺以上的面積。為了使其廣告語更有效，該廠商聘請了一家獨立檢測實驗室對其進行評價，為此，從該廠商的倉庫中隨機抽取50 罐1加侖油漆。 a.感興趣的引數是什麼？ b.如果）商希望第一類錯誤的機率最多為0.05，那麼研究假設和相應的拒絕域是什麼？ c.如果根據50 罐油漆的樣本得到平均覆蓋面積為412平方英尺，標準差為 38 平方英尺，那麼資料支援廠商的廣告語嗎？ d. 構造1加侖該廠商油漆的平均可覆蓋面積的95%置信區間。 e.求檢驗的p值。如果 a減小到 0.01，稱對廠商廣告所下的結論會改變嗎？ 5.77（工程）某大城市交通部門要重新改造其中的一個停車庫，增加每小時的停車數。根據城市的記錄，過去5年每輛車的平均停車時間是220分鐘。交通部門想知道重新改造以及每小時停車數的增加是否會改變平均停車時間。改造之後的3個月內，隨機抽取100輛汽車，得到平均停車時間為208分鐘，標準差為 55分鐘。 2.什麼是研究假設？ b.如果a=0.05，那麼資料支援研究假設嗎？ c.檢驗的顯著性水平（值）等於多少？ d.構造改造之後平均停車時間的95%置信區間。 5.78（人力資源）某辦公室主任實施了一項激勵計劃，他認為該激勵計劃能

5.9小結•279• 夠減少處理顧客投訴所需的平均時間。在執行這一計劃前，處理投訴平均所需時間是30分鐘。計劃實施幾個月之後，隨機抽取38份處理顧客投訴的記錄，發現平均所需時間為28.7分鐘，標準差為3.8分鐘。 a.給出處理顧客投訴平均所需時間的點估計。 b.（a）中的點估計量的標準差是多少？ c.構造計劃實施之後處理顧客投訴平均所需時間的95%信區間，並替辦公室主任解釋所得的置信區間。 d.是否有充分證據顯示激勵計劃減少了處理顧客投訴的平均時間？ 5.79（工程）人們監測湖中汞的濃度已有很多年了。根據每月的記錄得到平均濃度為1.20mg/m（每立方米毫克），標準差為0.32mg/m’。湖岸邊的一個熔爐發生了一次事故之後，緊接著抽取了 15個水樣，得汞的濃度資料如下。 1.60 1.45 1.77 1.59 1.61 1.43 1.08 2.07 1.07 1.16 1.79 0.85 1.34 2.11 1.07 a.給出事故之後平均汞的濃度的點估計。 b.構造事故之後平均汞的濃度的95%置信區間，並解釋之。 .給定 a=0.05，是否有充分證據表明自從事故之後平均汞的濃度增加了？ d.假定汞的濃度的標準差為0.32mg/m”，對於汞的濃度1.28，1.32,1.36 和 1.40，分別計算相應的檢驗功效。 5.80 對於下面每個問題，回答“是”或“錯”。 2. 給定任何一個特定的樣本，如果我們構造了樣本均值的95%管信區間，那麼總體均值有95%的機會落在置信區同之內。 b.如果選取很多組隨機樣本，且分別構造95% 置信區間，那麼，這些區間中將有95%包含總體均值。 c.如果樣本容量大於30，那麼，樣本均值將有95%的機會等子總體均值。 d.如果選取很多組隨機樣本，那麼，有95%的可能性其中一個樣本均值等十總體均值。 e.根據同一樣本均值所得的95%置信區間比90%晉信區間更寬。 f.為了證明 =40 且犯第一類錯誤機率為0.05，那麼，我們必須選取一個樣本，且在a =0.05 下未能拒絕零假設 FI0:p =M00 8.為了求第一類錯誤機率為0.04的雙側假設的臨界值，我們可以查附表1中對應於面積0.4800的2值。 h.為了求第一類錯誤機率為0.02的單側假設的臨界值，我們可以查附表1中對應於面積 0.4800的2 值。

• 280• 第五章關子總體中心值的推斷 i.如果我們在a=0.05下拒絕零假設，那麼，在&=0.01 下我們也應該拒絕零假設。 5.81 對於下面每個問題，回答“是”或“錯”。如果回答“錯”，請修改命題使之成立。僅修改畫線部分。 a.當零假設Ho實際上不成立但我們未能拒絕H。時所犯的錯誤是第一類錯送。 b.如果我們犯了第二類錯誤，那麼，我們一定未能發現一個事件或影響，而它確實存在。 c.犯第一類錯誤的機率等於B。 d.如果我們增加第二類錯誤的機率，那麼，犯第一類錯誤的機率也將增加。 5.82（醫學）過去幾年，都市的某大醫院對孕婦預產期進行預測，效果相當差。醫生參加了一項在職培訓計劃以提高技術，改進他們的預測效果。在最近次調查中，隨機選取100名母親，她們都是在培訓計劃之後於這家醫院分娩的。由樣本資料得，超過預測的預產期的平均天數為9.2天，標準差為12.4天。 a.請敘述如何隨機選取100名母親。 b.用95%算信區間估計超過預產期的平均天數，並解釋之。～.如果在培訓之前，超過預產期的平均天數是13天，那麼，是否有充分的證據表明平均天數減少了？檢驗的顯著性水平等於多少？ d.醫生預測的預產期並不接近於真正的分娩期，有哪些重要的因素可解釋這一現象？ 5.83（商業）某公司為其銷售人員供養了大批車輛。為了調查全體銷售人員每月駕車行駛的里程數，隨機抽取70個記錄。平均行使里程數及標準差分別為 3，250 和420。利用99%置信區間估計公司內全體銷售人員平均每月駕車行駛的里程數。 5.84（工程）機器擠壓出的塑膠管的直徑圍繞著均值而變化，而均值是由機器的某一裝置所控制。從該臺機器一天的產甚中隨機抽取50根管子。測量其直徑得平均直徑為4.05英小，標準差為0.12英寸。 a.請敘述如何隨機抽取50根管子。 b. 有哪些有關塑膠管生產的重要因素可解釋為僕麼塑膠管的直徑產生變化？ c.用99%置信區間估計塑膠管的平均直徑。 d.資料是否提供了充分的證據顯示平均直徑不等於名義直徑4英寸？已知 a=0.01。 5.85（工程）某自動控制裝置的廠商聲稱該裝置將能使房間的平均溼度保持在80%。記錄了30天裝有該控制裝置的房間的溼度。均值和標推差分別為 78.3%和2.9%。資料是否提供了充分的證據足以反對廠商的聲言？已知

5.9小結 • 281• =0.05。 5.86（農業）--採購員希望瞭解從某一柑橘林運來的柑橘中平均每個柑橘所含的糖分是否小於0.027磅。隨機選取50個柑橘，得平均含糖量為0.025磅，標準差為0.003磅。資料是否提供了充分的證據顯示平均含糖量小下0.027磅？已知 =0.05。 5.87（教育）某州立大學的行政官員擔心住在校外的一年級學生的平均成績（GPA》明顯低於整個年級的GPA。在秋季學期之後，所有的一年級學生平均GPA 為2.3（以4分制）。因為不可能從大學的成績單中分離出所有住在校外的學生，於是透過他們的永久家庭地址追蹤學生，從而得到 200名住在校外新生的隨機樣本。樣本平均GHA為2.24，標準差為0.31。 a.資料是否提供了充分的證據顯示所有住在校外的新生的平均GPA 低於全體新生的平均 GPA2.3，已知 a=0.05。 8.住任校外新生的平均GPA與全體新生的平均GPA之差在實際上是顯著的，還是儀僅在統計上是顯著的？試解釋之。 5.88（醫學）廠商需要對某特殊藥品的片劑進行標準的溶解檢驗，以檢測出該批藥片的溶解率，然後才能投放市場。假定隨機抽取 24片重25mg 的藥片，溶解檢驗就是對這些藥片進行分析和鑑定。每次檢驗時，將藥片懸浮在酸液中，30 分鐘後進行分析和鑑定。24 個鑑定結果如下。 19.5 19.7 19.7 20.4 19.2 19.5 19.6 20.8 19.9 19.2 20.1 19.8 20.4 19.8 19.6 19.5 19.3 19.7 19.5 20.6 20.4 19.9 20.0. 19.8 a.用圖示法檢驗樣本資料是否來自於正態總體。 b.用點估計和99%置信區間估計，估計該批藥片的平均溶解率。 c.給定a=0.01，是否有充分讓據表明該批藥片的平均溶解率小於 20mg（即藥片上標註量的80%）？ d.如果真正的溶解率為19.6mg，計算犯第二類錯誤的機率。 5.89（商業）對於審計師來說，統計是一個有用的工具，特別是在審計大量的清單時。如果一個審計師要對大量清單進行逐項審計，那將是既費錢又費時的事。因此，審計師通常採用抽樣的方式從清單中隨機抽取一組樣本，用樣本的結果來檢驗公司財務報告的真實性。例如，某醫院財務報告聲稱其—一份財產清單中平均每份清單300美元。審計師從中隨機抽取20份得均值和標準差分別為160 美元和 90美元。給定¢=0.05，樣本資料與醫院財務報告所聲稱的相矛盾嗎？資料是否表明均值小於300美元？

•282• 第五章關於總體中心值的推斷 5.90（商業）過去5年，某倉庫交付定貨所需的時間平均為25分鐘。公司職員認為最近交付定貨的時間有所增加要麼是由於勞動力的變化，要麼是由於顧客購買策略發生了變化。隨機抽取15份上個月處理的定單，記錄其交付定貨所的時間如。 28 26 24 30 32 27 15 28 31 $5 42 10 12 38 資料是否提供了充分的證據表明交付定貨的時間有所增加？ 5.91（工程）如果一項新的銅礦採掘方法被全日制地付諸實施，那麼平均每天生產銅礦50噸以上。下表列出了15天試驗期間的銅礦產量。日期產量（噸）產量（噸） 1 57.8 9 39.3 2 58.3 10 138.7 3 50.3 11 49.2 4 38.5 12 139.7 s 47.9 13 48.3 6 157.0 14 $9.2 7 38.6 15 49.7 8 140.2 2.用點估計和95%置信區間估計，估計實施新的採掘法後平均每天銅礦的產量。 b.是否有充分證據表明實施新的採掘法後平均每天銅礦的產董超過50噸？已知 a=0.05。 5.92（教育）對學生進行一次測驗以檢查他們閱讀某規定盤的材料所需的時間。學生被告知在理解文章的基礎上以最快的速度閱讀，因為測驗試題與他們閱讀的材料有關。從大學校區隨機抽取 16 名三年級學生，他們的測驗結果如下（以分鐘計）： 25 32 18 21 27 24 29 19 20 23 19 28 25 31 24 22 2.用95%置信區間估計所有三年級學生閱讀所需的平均時間。 b.（a）中的置信區間所適用的總體是什麼？ c.解釋（a）中的置信區同。 5.93（醫學）某藥廠用大的發酵缸生產抗生素。為了檢驗準備好的一批抗生

5.9 小結•283• 素的平均效力，從發酵缸的12 個不同位置抽樣。記錄抗生素的效力如下： 8.9 8.4 9.0 9.2 9.1 9.0 8.3 8.7 9.9 9.3 9.0 9.1 a.估計該批抗生素平均效力的95%置信區間，並解釋之。 b.你如何從發酵缸中選取12個樣品？ c.如果抗生素效力被認為是9.0，那麼，是否有充分證據顯示抗生素的平均效力與所認為的不一致？ 5.94 在關於！的統計檢驗中，拒絕了零假設。基於這一結論，下面哪些命題是正確的？ a.犯了第一類錯誤。 b.犯了第二類錯誤。 c.可能犯了第一類錯誤。 d. 可能犯「第二類錯誤。 e. 不可能同時犯第-類錯誤和第二類錯誤。 f.不可能既不犯第一類錯誤，也不犯第二類錯誤。 .不知道是否犯了錯誤，但如果犯了錯誤，那一定是第一類錯誤。 h.不知道是否犯了錯誤，但如果犯了錯誤，那一定是第二類錯誤。 5.95 對下面每一個命題，回答“對”或“錯”。 2.在水平 a=0.05的假設檢驗中，增加樣本容量並不影響檢驗水平。 b. 在水平a=0.05的假設檢驗中，增加樣本容量並不影響檢驗功效。 c.樣本容量*在檢驗假設過程中起著重要的作用，因為，它是衡量資料（從而也是衡量資訊）過大小的尺度，而資料是我們作判決的基礎。如果資料變異性很大，且n值較小，那麼我們將不太可能拒絕零假設，甚至當零假設不成立時，我們也不太可能拒絕。 d.假定我們檢驗關於總體均值x的如下假設，HO:ASAO Ha:K＞AD。如果樣本容量n很大，且資料的變異性也不太大，那麼甚至當p的真值比KD 只大一點點，我們也很可能拒絕零假設。 e.當對分佈嚴重右偏的總體進行統計推斷時，和 =0.05 的符號檢驗相比，a =0.05的：檢驗不太可能犯第二類錯誤。 f. 當對分佈嚴重右偏的總體進行統計推斷時，和a=0.05 的符號檢驗相比，a =0.05的：檢驗不太可能犯第一類錯誤。 5.96 完成下面的命題。 a.如果我們從總體中抽取所有可能的樣本（樣本容量固定），那麼，樣本均值

• 284• 第五章關於總體中心值的推斷的分佈趨向於_ 且這些樣本均值的均值等於_ —0 b.如果其他保持不變，樣本容量越大，那麼，置信區間 1。 e.如果其他保持不變，置信係數越大，那麼，置信區間 -。 d. 命題“如果從任一總體（不管總體分佈的形狀）抽取容量相同的隨機樣本，那麼，隨著n變大，樣本均值的分佈接近於正態分佈”被認為是 e.當零假設不成立，但沒有櫃絕零假設時，我們犯了第 _類錯誤。 5.971醫學）假定香菸中焦油的含量服從均值為10mg，方差為2.4mg 的正態分佈。現開發了一種新的香菸製造技術以減少焦油的含量。隨機抽取16 根利用新技術生產的香菸，得平均焦油含量為8.8mg。給定a =0.05。 a.試利用以下要點，制定一假設檢驗以檢驗新的技術是否明顯地減少了焦油含其。零假設備擇假設假定拒絕域檢驗統計量和計算用統計語畜給出結論用簡單直觀的語言給出結論 b，基於你的結論，你是可能犯第一類錯誤？還是可能會犯了第二類錯誤？還是兩類錯誤都沒犯？還是同時可能犯兩類錯誤？ 5.98（環境）某州衛生機構被要求調查居民的投訴，投訴聲稱廠家將汙染物未經處理就被排放到流經一居民區的小河裡。透過在財政上施加壓力，該州能夠迫使違反規定的廠家作出較多的讓步，安裝新的水淨化裝置。在過獲時期，可引進另外的生產裝置以降低排放到河流的水汙染水平。為了監測過渡裝置的效果，在過渡期的月份，從生產廠家下游的某個地點隨機抽取15個水樣。如果可=5.0， s=0.70，用樣本資料檢驗水巾被溶解氧氣的平均含量（以 ppm 計）是否小於5.2，而5.2 是上一年該地點的平均值。 a.給定a=0.05，列出統計檢驗的5個步驟。 b.構造統計檢驗，並給出結論。 5.99（工程）一自動裝置被安裝在進入某一高速公路的坡道處。安裝之前，調查人員發現司機的平均緊張水平為8.2（10分制）。安裝之後，隨機抽取50名司機，得 =7.6，=1.8。試構造一統計檢驗，其研究假設為：在新裝置下，車流高峰期司機的平均緊張冰平小於8.2，其中8.2是並軌裝置安裝之前司機的平均緊張水平。求統計檢驗的顯著性水平，並解釋之。 5.100（環境）尋找石油替代品作為主要燃料和能源的主要來源將不可避免

5.9 小結•285• 地給環境帶來很多挑戰。這些挑戰包括需要解決諸如露天開採等所造成的環境問題。我們不妨集中討論一個問題。如果煤被認為是燃料和能源的主要來源，那麼，我們必須考慮如何避免火望的二氧化硫（SO2）和顆粒物進入空氣。這一點對政府部門和上業生產特別重要。下面是一些可能的解決辦法。 1.建造特別高的煙囪。 2. 燃燒之前從煤裡分離出 SO2 和顆粒物。 3.在煤燃燒所產生的煤氣被排放之前，從中分離出SO2。這可透過煤氣洗滌器來達到目的。最近一種新型煤氣洗滌器被製造出來，並被安裝在電廠進行測試。在為期15 天的測試期間，每天從煙囪冒出的氣體中抽樣3次。SO2 排放量（單位：磅/百萬 BTU）如下：日期時間上午6點下午2點下午10點 1 0.158 0.066 0.128 2 0.129 0.135 0.172 3 0.176 0.096 0.106 4 5 0.082 0.099 0.174 0.179 0.165 0.163 日期 6 0.151 0.149 0.200 7 0.084 0.164 0.228 8 0.155 0.122 0.129 時間上午6點下午2點下午10點 9 0.163 0.063 0.101 10 0.077 0.111 0.068 11 0.116 0.059 0.100 12 0.132 0.118 0.119 13 0.087 0.134 0.125 14 0.134 0.066 0.182 15 0.179 0.104 0.138 a.用9S%置信區間分別估計在三次抽樣的每一時間段SO，的平均排放量。 b.二個時間段SOz平均排放量是否有顯著差異？ <.將資料混合得到全天的SO，排放量資料，那麼使用新型煤氣洗滌器之後， SO 平均排放量是否小於0.145，其中 0.145 是使用舊煤氣洗滌器時平均 SO排放量？ S.101（社會）作為對訓練方法進行總體評價的一部分，我們透過做試驗來測定健康男性新兵所能承受的平均訓練量。為此，在這些士兵中隨機抽取35名，讓他們在一定的負荷下用腳踏車測功計（一種測量肌肉做功的裝置）進行訓練直到疲勞為止。仔細監測他們的血壓，脈率以及其他指標以確保沒有人的健康處於危險之中。下面列出了35名士兵的訓練能力（平均時間，以分鐘計）資料。

•286• 第五章關於總體中心值的推抵 23 28 35 42 21 19 14 25 45 49 36 44 29 23 27 12 15 17 29 39 41 46 51 18 44 19 25 47 48 13 #.用這些資料構造p的95%置信區間，並解釋之，其中p為應召入伍的健康男性士兵的平均訓練能力。 b.如果置信係數為99%，那麼，置信區間如何變化？ 5.102 用練習5.101 的資料，求所需的樣本觀測次數，使得，的置信係數為 95%的等信區間長度在1分鐘內（提示：在你的結論中用s=12.36代替8）。 5.103（農業）一項研究旨在調查花葉病製劑對菸葉的影響。由n=32片菸葉的樣本知，平均每片菸葉上的病變有22 處，標準差為3。用這些資料和95% 置信區間估計由於受制劑影響平均每片菸葉上的病變數。 S.104 參看練習5.103。用樣本資料構造的99%信區間，其中以為由於受花葉病毒製劑影響平均每片菸葉上的病變數。 $.105［醫學）我們都記得曾被告知，“你的燒已經退了，你的體溫已正常”。我們說“正常”意味著什麼？大多數人都以98.6為標準體溫，但這並不適用於所有的人，僅適用於“平均”人。不必硬要某人說出自己的體溫，我們可以定義一個人的正常體溫就是他或她健康時的平均休溫，但即使這樣的定義也是模糊的，因為一天當中一個人的體溫是變化的。為了測出一個人的正常體溫，隨機選取30天，每天早晨7點鐘測量其體溫。30天體溫的樣本均值和樣本標準差分別為98.4和 0.15。假定該人在檢查期間身體是健康的，利用這些資料估計該人每天早晨7點鍾時平均體溫的90%置信區間。 5.106 參看練習5.101 中的資料。假定從一大群參加過新的（即可望有所改進的）身體適應性訓練專案計程車兵中隨機選取35名士兵，並假定過去幾年對數千名士兵進行的測試表明平均訓練能力為29分鐘。對研究假設進行統計檢驗，其中研究假設為：新的適應性訓練專案提高了平均訓練能力。給出檢驗的顯著性水平，並解釋之。 5.107 參看練可5.106。 2.如果我們感興趣的是新的適應性訓練比以前的適應性訓練更好或更壞，那麼，研究假設將如何變化？ b.檢驗的顯著性水平等於多少？ 5.108 從具有100個以上半專用病床的醫院中隨機選取40家醫院。這些

5.9 小結•287• 醫院的病人中有一些病人，他們的費用由投保於一家大型醫療保險公司的團體保險支付。研究人員收集了每家醫院這部分人所佔的比例。樣本資料如下。 0.67 0.82 0.85 0.69 0.71 0.74 0.93 0.90 0.73 0.75 0.68 0.92 0.77 0.71 0.70 0.63 0.91 0.59 0.90 0.51 0.67 0.76 0.84 0.82 0.93 0.81 0.75 0.67 0.74 0.83 0.79 0.76 0.92 0.54 0.58 0.73 0.88 0.72 0.79 0.84 利用樣本資料構造x的90%置信區間，並解釋之，其中/為平均每個醫院由團體保險支付費用的病人所佔的比例。 5.109（人力資源）某州立大學系統的教職員工如果在第••個10年服務期內辭職，他們就有資格得到已經向退休機構繳納的錢，且每年增加4%。不幸的是，經驗表明州當局返還這筆錢非常慢。考慮到這一實際情況，一地方教師組織決定進行調查。從過去5年辭職的教職員工中隨機抽取50名進行調查，結果發現這筆錢到期的時間與返還的時間平均相差75 天，標準差為15天。利用這些資料和 95%置信區間估計從期滿到返還的平均時間。 5.110 參看練習5.109。在和教師工會面對面協商之後，州當局答應60天內返還。隨後觀察了40例，得到平均58天，標準差10天。如果我們假定這40例是一隨機樣本，代表了州當屬未來的表現，試估計平均返還時間的99%鯊信區間。 5.111（社會）隨機選取40個內陸城市，調查它們的出生率，結果表明平均每個內陸城市的出生率為幹分之35，標準差為千分之6.3。試用95%置信區間估計內陸城市的平均出生率。 5.112（社會）隨機選取30個標準的大城市統計區域，記錄每個區已登記選民與年齡在18 歲或18 歲以上的選民總人數之比。利用所給的資料（每1,000人）檢驗研究假設，即 x 不等於675，其中為今年的平均比例，675為去年的平均比例。給出檢驗的顯著性水平。 802 751 807 641 694 497 730 747 848 854 653 635 728 672 674 600 605 561 740 683 729 760 696 818 695 812 681 710 725 803 5.113（商業）對於郵購部門來說，定單被不正確填寫將付出高昂的代價。為了估計平均每份錯誤定單所帶來的損失，某大公司計劃隨機抽取*份被不正確填

• 288• 第五章關於總體中心值的推斷寫的定單，調查每份定單所帶來的額外花費。公司估計到額外花費在 40 美元至 400美元之間。為了使得平均額外花費的95%聲信區間的寬度為20美元，問：必須抽取多少份被不正確填寫的定單？ 5.114 透過對某醫院的病歷進行調查以瞭解平均每位肺癌病人住院的時間長度。100份病歷的樣本資料表明 =2.1月， 2.6月。 2. 用：方法估計p的置信區間合適嗎？為什麼？ b.指出另一種估計總體中心的方法。 5.115（政府）發給失業者或貧民糧票過程中存在欺詐行為，調查人員準備對此進行調查，為此，他們希望用95%置信區間估計糧票享有者的年平均總收入，並且誤差在750美元以內。如果我們假定糧票享有者年收入的極差為20,000美元，同：應調查多少名糧票享有者？ 5.116（商業）正如前面所指出的，大號洗衣劑的新包裝盒上標明的重量是 42 盎司，並且包裝箱上寫有以下宣告：“由於高速包裝機的原因，每箱洗衣劑的重過可能略高「標重，也可能略低於標重，這是正常的，但是一天的產量中，平均每箱洗衣劑的重量會略高於標重。”試討論你如何能檢驗這一宣告。為了檢驗的目的，對該宣告作稍微修改可以使之更簡單嗎？敘述該檢驗的所有步驟。是否可以事先確定樣本容量使得檢驗出備擇假設為真的檢驗功效等於0.90？給定a =0.05。 5.117［醫學）充血性心力衰竭病人的死亡率很高。對總共182 例患有慢性左心室衰竭的病人進行跟蹤調查，他們儘管接受治療，但仍有症狀。透過調查得知，這些病人的存活時間從1個月到41個月不等，且平均存活12個月，標準差為 10。構造這些病人平均存活月數的置信區間合適嗎？為什麼？ 5.118（商業）自動取款機（ATM）的銷售經過十多年穩步增長，現開始下滑。最近一個月，透過隨機抽取40家廠商，發現其發貨量比1年前同期水平平均減少 20%。假定其標準差為6.2%，資料基本上呈現出丘形分佈。利用這些資料構造廠商 ATM 發貨量減少的百分數平均值的99%置信區間。 5.119 假定練習5.118中40個廠商發貨量減少的百分數從 -40%（即減少 40%）到＋16%（即增加16%），且樣本均值為—20%，中位數為-10%，截尾均值為-12%。討論用：方法檢驗 ATM 發貨量減少的百分數的適應性。 5.120（醫學）醫生建議我們每天攝入咖啡因的量應不超過200mg。隨機抽取35位上班族，要求他們根據下面的表記錄自己7天期間的咖啡因攝入。咖啡（6盎司） 100~150mg 茶（6盎司） 40~110mg 可樂類飲料（12盎司） 30mg 巧克力蛋糕 20~30mg 可可類飲料（6盎司） 5~20mg

5.9 小結•289• 奶油巧克力（1盎司） 5~10mg 7天之後，我們得到每位上班族平均每天的攝入量。樣本均值和樣本標準差分別為560mg 和 160mg。用這些資料估計y 的90%置信區間，其中心為上班族平均每位每天的攝入量。 5.121 參看練習5.120，為了用90%置信區間估計，使之誤差在士10，那麼另外還需要多少個觀測？ S.122（農業）俄亥俄州農業部門的調查人員在該地區逃取了一個初中，並抽取了用於學生午餐的半品脫（8盎司）盒裝奶的樣本。基於25 盒奶，調查人員發現平均每盒奶比標準的半品脫少0.067 盎司，標準差為0.02。 a.用這些資料檢驗假設“平均短缺量是0”，備擇假設為單邊假設。給出檢驗的p值。 b.雖然0.067只是一個很小的量，如果每年賣出300萬盒8盎司的盒裝奶，並且這些盒裝奶都是短缺0.067盎司的，那麼一年的銷售能省下多少品脫出奶？ 5.123 參見資料盤中的臨床試驗資料庫，構造處理組C的HAM-D總積分的95%的置信區間。99%的置信區間與之相比會有什麼變化？ 5.124 用臨床試驗資料庫中的資料，求處理 A 的 Fopkins Obrist 分類積分的90%的置信區同。

6.1 6.2 6.3 6.4 6.5 6.6 6.7 第六章兩總體中心值的比較引言和業例關於H1-12 的推斷：獨立樣本非引數推斷方法：Wilcoxon糕和檢驗關於M1-42的推斷：成對資料非引數推斷方法：Wiluxon 符號秩檢驗推斷II-K2時樣本容量的選取小結 6.1 引言和案例到現在為止，我們所做的都是關於一個總體的引數推斷。但是更多時候我們所做的推斷涉及到不同總體引數的比較問題。比如，我們希望比較兩種不同玉米的平均產量，兩個不同種族人群的平均年收入，兩個不同湖泊的平均含氮量，或者兩種不同防眩暈藥品從服用到最終見效的平均時間。在許多抽樣情況下，我們分別從兩個總體中抽取獨立隨機樣本來比較總體的引數。很多時候，我們都是用相應的樣本統計址的差來進行這些推斷。假定我們分別獨立地從第一個總體中抽取含n」個觀察值的隨機樣本，從第二個總體中抽取含 12 個觀察值的隨機樣本。我們將用樣本均值差了」一$2對總體均值差 KAIF2進行推斷。案例研究：石油溢位對植物生長的影響 1992年1月7日，一個地下輸油管道破裂，造成了對得克薩斯州（Texas）San Patricio 縣 Chiltipin Creek 河沿岸的一個沼澤地的汙染。之後，用火燒的方法對這些汙染進行了清除。為了評價石油溢位對植物的影響，研究人員設計了一個研究方案，以便對一年之後植物生長進行研究。在一篇未發表的得克薩斯州（Texas）， A&M大學的博士論文中，Newman（1997）介紹了研究人員對 Distichlis spicata（一種鹽草屬植物）的研究結果，其中，Distichlis spicata 是對石油溢位地區非常重要的一種植物。設計資料收集方案研究人員需要確定可能受石油溢位影響的植物的重要特徵。在研究之前，需要回答以下問題： 1.哪些因素決定了這種植物的存活能力？

6.1 引言和案例•291• 2. 石油溢位如何影響這些因素？ 3.在石油溢位之前，是奇有關於這些植物因素的資料？ 4.研究者們應該怎樣測量石油溢位地區的這些植物因素？ 5.需要多少個觀察值來確定在石油溢位之後該植物確實發生了變化？ 6. 需要什麼樣的試驗設計或研究？ 7.在對石油溢位之後植物引數所發生的變化進行推斷時，哪些統計方法是可行的？ 8. 在最終報告中需要包含哪些資訊以證明我們觀察到了植物引數的變化？經過長時間的討論，閱讀相關文獻以及查詢類似地區和類似植物的資料庫，研究人員發現沒有該種植物在石油溢位之前的具體資料。他們確定有用的引數包括火燒之後 Distichlis spicata 的平均密度p，密度的標準差o，以及密度非常接近零的區域所佔石油溢位地區的比例不。由於沒有在溢位之前的這種植物的密度的相關資料，因此，為了確定植物密度在石油溢位後是否發生了變化，需要評價一個在這個沼澤地中未受影響的區域的植物密度。研究人員選擇了幾處未汙染的區域，並把受汙染和木受汙染的區域都分成了幾乎同等大小的地段。研究中所需地段的數量由引數p，O，T的95%置信區間的寬度和假設檢驗的功效所決定。根據這些計算並考慮到經費預算和時間限制，研究人員決定從溢位區域和未受影響區域分別隨機選取 40 塊地段，並記錄其 Distichlis spicata 的密度。在沼澤地溢位區域也作同樣的測垃。均值：中位數：標準差： ”： 38.48 41.50 16.37 40 圖6.1 對照區域 000 7 1 6 4 9 0 D 1 1 2 2 3 55678 3 59 14 77799 2223444 555667779 11123444 5788 溢位區域均值：中位數：標準差； 7： 000111222233 4 57 4 0112344 5 02 67789 5 在石油溢位區域和對照區域所觀察到的地段的植物株數。資料以莖葉圖的方式展示 26.93 26.00 9.88 40

•292• 第六章兩總體中心值的比較整理資料這些資料包括未受汙染（對照）區域40個植物密度測量值和溢位（燃燒）區域40個植物密度測量值。然後研究人員透過實地考查認真稽核這些數據以檢查它們是否被正確地記錄。隨後將這些資料轉換成計算機文件，為以後的分析做好準備。這些分析步驟已在第2.5節作了介紹。分析資料下一步將透過圖和統計量的方式對這些資料進行概括。圖6.1中展示了這些資料。表6.1 列出了一些統計量。變數植株數量變繭植株數量區域型別對照溢位區域型別對照溢位表6•1 石油溢位資料的概括統計量描述統計量 N 40 40 均方 2.59 1.56 均值 38.48 26.93 極小值 0.00 5.00 中位數 41.50 26.00 極大值 59.00 $2.00 截尾均值 39.50 26.69 Q1 35.00 22.00 標準差 16.37 9.88 Q2 51.00 33.75 犁數株植 60 50 40 - 3020 100 * * 區域型別閣 6.2 對照區和溢位區地段子的植物數量圖6.2中的盒形圖表明對照區的植物密度大於溢位區。根據統計量，我們得到對照區植物密度的均值 Ja =38.48，標準差、n =16.37，溢位區植物密度均值 Js=26.93，標準差ssol=9.88。因此，對照區植物密度的均值和變異均大於溢位區。為了確定此差異是否能代表所有地區而不僅是研究中所涉及的區域，研窕人員需要對資料進行統計分析。在本章的以下部分，我們將討論置信區間的建立和

6.1 引言和案例 • 293• 總體均值 Mcon與 spi之差的檢驗問題。在第七章和第十章中討論總體標準差。和總體比例x的估計和檢驗問題。在求由獨立隨機樣本產生的樣本統計量差的抽樣分佈時，我們會發現下述定理是很有用的。定理6.1 如果兩個獨立隨機變數y1 32 服從正態分佈，均值和方差分別為（p1，a）和（p2，唔），那麼它們的差服從均值為M1 A2，方差為 o+品的正態分布，它們的和 y1+32 也服從正態分佈，其均值為MI+2，方差為o+0。定理6.1可直接應用於求兩個獨立樣本均值差或比例差的抽樣分佈。根據中心極限定理（見第四章），如果兩個容量分別為n_和n2的隨機樣本是從兩個總體中獨立地抽出的，那麼若n」和722足夠大，則樣本均值了，和了2近似地服從正態分布，均值和方差分別為（M1，0/n1）和（K2，0/122）。這樣，因為 1和52是獨立的且都服從正態分佈的隨機變數，根據定理6.1，1 2也近似服從正態分佈，其均值為 KS，-$，=K1—H2，方差為呵一=嗎十時， 2 9i 12 12 標準差為 95.-$-v 71 2 12 兩個獨立的正態分佈樣本均值差的抽樣分佈見圖 6.3。 oi.+- 0.95 圖 6.3 KI H2 1.9005- 2 兩樣本均值差的抽樣分佈

•294• 第六章兩總體中心值的比較兩個樣本均值差（j1一j2）的抽樣分佈的性質： 1.當樣本容量充分大時，《1 32）近似地服從正態分佈。 2.抽樣分佈的均值 H5,8.等於兩總體的均值差 /1 —120 3.抽樣分佈的標準為o，一3， Y 1 72 根據兩樣本均值差（J1 32）的抽樣分佈，我們可以回答與在第四章中提出的關於的抽樣分佈同樣的問題。因為樣本統計量是用子對相應的總體引數進行椎斷的，我們可以根據一個統計量的抽樣分佈來計算其值落在距總體引數一定距離內的機率。比如我們可根據樣本均值的抽樣分佈來計算（31一 2）落在距未知總體均價差p1-隊2 某一距離內的機率。本章後面的幾節我們將討論對AI-12 的推斷（估計和檢驗）問題。 6.2 關於 1-42 的推斷：獨立樣本基十獨立地取自於兩總體的隨機樣本，當我們要對y41-M2 進行推斷時，需考慮以下三種情形：情形1.兩個總體均服從正態分佈，且a1= 20 情形2. 樣本容董 1和 2很大。情形3.樣本容域丸」或：2很小，兩總體分佈均不是正態分佈。本節中，我們將考慮這樣一種情形，即，兩隨機樣本獨立地取自於均值分別為A1 12，標準差相同o1=02。的兩正態總體。資料用統計墩來概括：樣本均值元和 $2，樣本標準差為s1和$20我們可以透過作圖，建立從1 —12 的覺信區間，以及進行關於 p1-#2 的假設檢驗來比較這兩個總體。總體均值差的合理的點估計是樣本均值的差了1—$2。相對於單樣本的均值，計算兩樣本均值差的標準誤差要複雜得多。但是置信區間有相同的形式，即：點估計士 a2（標準誤差）。下面給出 1— 2 的置信水平為1-a的置信區間。獨立樣本下，一#2的置信區間其中（n1- 1）s+（n2-1）53 n1+ n2-2 自由度 df= n1+ 82-2 1一32的抽樣分佈是正態分佈。因為我們要求兩總體具有相同的標準差。，所以該正態分佈標準差為

6.2 關於p1-12 的椎斷：獨立樣本 • 295 o 0$，-$：= 12 H十 "2 如果我們知道。的值，就可以在計算置信區間的公式中用za/2。因為在多數情況下。未知，所以我們必須先對它進行估計。該估計通常被記作sp，它由。的兩個獨立估計了1和s2混合而得。事實上，是樣本方差s和§ 的加權平均。由十我們必須估計p1—A2 的點估計的標準差，因此需用：分佈的分位數1。/2來代替正態分佈的分位數2a/20 因為共有71+72 個觀察資料，且在估計標準差。之前需估計兩個引數p1和 42，所以分位數的自由度為df 1+n2 2。注意在計算8？和8的公式中，應該用可1和 2分別代替pAI稱 p20 我們曾假定兩個抽樣總體服從正態分佈且有相同的方差。如果以上給出的置信區間公式只有當這個假定嚴格滿足時才成立，那麼這個估計方法的應用便十分有限。幸運的是如果兩總體的分佈都是鐘形的，並且樣本容大體相同，那麼置信係數相當穩定。當這些條件不能滿足時，我們將在本節和6.3中討論其他的方法。例 6.1 一個公司的領導往往很關心一種藥品的有效時間。在某種藥品的生產線上隨機抽取 n1=10 瓶進行藥效分析。另一個容為n2=10瓶的樣本被在規定的環境條件下儲存一年。兩個樣本經測試所得的結果見表6.2。表6.2 兩樣本的藥效資料新鮮儲存 10.2 10.5 10.3 10.8 9.8 10.6 10.7 10.2 10.0 10.6 9.8 9.6 10.1 10.2 10.1 9.7 9.5 9.6 9.8 9.9 假定令xI表示第一個樣本所來自的生產線生產的所有瓶藥的平均藥效，F42 表示所有那些可能儲存一年的藥品的平均藥效。求p1-42的95%置信區間。解答根據以上新鮮藥品和儲存藥品的資料分別作正態機率圖，見圖6.4（a）和（b），據此來確定它們是否服從正態分佈。我們發現這些點非常接近一條直線，兩個樣本的正態性條件都滿足。根據這兩個樣本資料的統計量如下。 •

• 296．第六章兩總體中心值的比較 0.999 0.99 0.95 0.30 0.50 0.20 0.05 0.01 0.001 9.8 10.3 新鮮藥品的葯效（a）正態機率圖：新鮮藥品的藥效宰概 0.999 0.99 0.95 0.80 0.50 0.20 0.05 0.01 0.001 9.5 9.6 9.7 9.8 9.9 10.0 10.1 儲存藥品的藥效（b）正態橫率圖：儲存藥品的藥效圖6.4 新鮮藥品 31=10 $1=10.37 S1=0.3234 儲存藥品 #2=10 $2=9.83 $2=0.2406 10.8 10.2

6.2 關於p1-A2的推斷：獨立樣本•297• 在第七章，我們將給出關子兩總體方差相等的檢驗。但是對於以上資料，考慮到樣本容量很小，計算出的兩個樣本標準差近似相等。這樣，我們構造pA1—42 置信區間所需的條件—即正態性，等方差性和獨立隨機樣本——都滿足。共同標準差。的估計是（ns-13s+（n2-1）s 81+ 12-2 9（0.32342+9（0.2406） =0.28 對於 df=31+#2-2=18,a=0.025，t-值為2.101。平均藥效差的95%置信區間為（10.37-9.83）士2.101（0.285）/1/10+ 1/10 0.54 0.268或（0.272,0.808）於是，我們估計新鮮藥品與儲存一年期藥品的平均葯效差（1-#2 在0.272 到 0.808之間。這樣，公司領導需要評估平均葯效下降福度在0.272到0.808之間是否會對此藥品的實際效用產生影響。例6.2 某學區認為在他們的高中就讀的學生數量幾乎難以控制，所以將此街區分成兩部分：街區1和街區2。街區1的學生仍在原學校就讀，而街區2的學生去一個新建的學校。一些家長認為兩個街區是根據收入水平劃分的。因此，進行了一項調查以判定街區1和街區2的居民的平均收入水平是否存在差異。在街區1內隨機抽取20 個戶主，但在街區2的即將訪問的20個戶主中，儘管研究人員保證訪問的保密性，仍有一人拒絕提供要求的資訊。這樣在街區2的祥本中只有19個觀察值。透過這些資料（以1000美元為單位），我們可得出樣本均值和樣本方差，見表 6.3。根據這些資料構造（1 -12的95%置信區間。表6.3例6.2中的收入資料街區1 樣本容量樣本均僨樣本方差 20 18.27 8.74 街區2 19 16.78 6.58 解答針對兩個樣本的資料，用直方圖進行初步分析表明總體分佈是丘形的（接近正態），並且，樣本方差也是相近。樣本均值的差為 3-J2= 18.27- 16.78 = 1.49 共同標準差。的估計為（n1-1）路+（n2-1）53 Sp= 11+ n2-2 T9（8.74） + 18（6.58） 20+19-2 = 2.77

•298• 第六章兩總體中心值的比較對於a=a/2=0.025和 df=20+19-2=37,t-分位數沒有在附表2中列出。但是取小於 37且最接近37的df 值（35），我們可得出to.025=2.030。兩街區的平均收入差的95%置信區間可由以下公式給出 1 72 代入資料可得到 1.49 2.030（2.77）/20 5+ 1 或 1.49 1.80 這樣我們估計出平均收入的差會落在區間（-0.31,3.29）的某處。將上下限均乘以1000，置信區同就變為（-310,3290）。這個區間表示MIP2 可能為負，也可能為正，故不能認為街區1 的收入大於或小於街區2的收入。我們可以對兩個總體均值差進行假設檢驗。正如任何—種檢驗方法一樣，我們都是先對總體均值差給出一個研究假設，比如我們可假設pA1 -p2 大於某個值 Det注：D。通常是0）。整個檢驗過程如下。獨立樣本下 H1 2的統計檢驗使得檢驗方法有效所需的假定條件等同於構造A1 -#2 置信區間所需的條件，即兩個總體分佈是正態的、方差相等的，且兩隨機樣本獨立。 Ho:1•#1—42≤Do （D。是給定的值，通常為0） 2.41-42≥D0 3.11-12=D， Ha:1.M1-422Dn 2. M1-42<Du 3. 41-K2 D0 1+1 #2 R.R.：對於第一類錯誤機率 a及自由度 df=n，+n2-2 I.若t≥te，則拒絕Ho。 2.若t≤-te，則拒絕Ho。 3. 若|t|≥taz，則拒絕 Ho。檢查假定，並作出結論。例6.3 為了評價一種被用於殺死羊胃中絛蟲的療法的效用，進行了一個試驗。隨機抽取24只被絛蟲感染的健康的年齡大致相同的羊，並把它們隨機平均分成兩組。

6.2 關於p1-42的推斷：獨立樣本•299、一組被注射了某種藥品，另一組不加治療。6個月後，這些羊被屠宰。我們記錄了這些羊胃中絛蟲的數量：治療木治療 18 40 43 54 28 26 50 63 16 21 32 37 13 39 35 23 38 48 33 58 6 28 7 39 a.檢驗治療過的羊胃中絛蟲的平均數量是否小於未經治療的羊。（a=0.05） b.該檢驗的顯著性水平是多少？ c.給出 A1 -72 的95%的置信區間以估計兩組均值差的大小。解密 a. 盒形圖如圖6.5所示。圖中給出處理（治療）和未處理兩組羊胃中所含絛蟲的資料。從圖中，我們可以看出未處理組資料是對稱的，且沒有異常值，處理組資料則有點左偏倚，且也沒有異常值。同樣兩個盒的寬度也幾乎相等。因此總體服從正態分佈且方差相等這一條件能夠得到滿足。兩組之間和組內絛蟲數量的獨立性這一條件是否滿足尚需考慮這些羊是如何被選出，如何被分配到兩個組，以及 6個月試驗期內如何被照料。這24只羊是從一群有代表性的被感染的羊中隨機 60 50 40 數30 蟲綠20 10 o 2 處理的組別圖6.5 絛蟲數量的盒形圖 1 處理組 2 術處理組抽取的，也被隨機地分配到處理組和未處理組中，在6個月期間被適當地隔開，並得到了良好照顧，所以這24個資料可視為來自兩總體的獨立隨機樣本。最後，我們可以看出未處理組羊的緣蟲數量高下處理組羊，因此者的中值線較靠上。下面的檢驗確認了我們的想法。處理組和未處理組的資料概括如下：

•300• 第六章兩總體中心值的比較處理組羊 71=12 $1=26.58 $1=14.36 未處理組羊 12=12 $2=39.67 S2=13.86 因為樣本標準差幾乎相同，據此並根據盒形圖，我們可以計算共同的總體標準差a的混合估計： 81+ 12-2 = 14.11 研究假設為：處理組羊的胃中所含絛蟲的平均數量（p1）小於未處理組羊的胃中所含絛蟲平均數域（pz）。檢驗該研究假設的步驟如下： Hn:A1-p2≥0（也就是說，藥並沒有減少平均絛蟲數量） He:M1-42<0（也就是說，藥減少了平均絛蟲數量） T.S.：t= （01-22-20=（26.58-29.67）-0=-2.272 Sp 721 12 14.11y立 12 R.R.：對於 =0.05，香附表2可得自由度 df=n1 + 2-2=22的單側檢驗的一臨界值。若t≤-1.717，則拒絕Hoo 結論：因為觀察值：=-2.272小於-1.717，落在拒絕域內，所以，我們有足夠的理由認為服用此藥品確實能減少絛蟲數量。 b.根據附表2，當 =•2.272，df=22 時，我們可確定顯著性水平落在0.01 ＜ <0.025的範圍內，根據下面列出的計算結果，我們可看出精確的顯著性水平值=0.017。 Two-Sample T-Test and Conf idence Lnterval Two-sample T for Treated vs Untreated N Mean StDev SE Mean Treated 12 26,6 14.4 4.1 Untreated 12 39.7 13.9 4.0 958 CI for mu Treated-m Untreated：（-25.0， -1.1） T-Test mu Treated - mu Untreated（vs<）：T=• 2.27 P= 0.017 DF = 22 Both use Pooled StDev = 14.1 c.pL—42 的95%置信區間為試驗者提供了使用藥物後絛蟲減少數量的估計。區間估計計算如下：

6.2 關於 pI42 的推晰：獨立樣本•301• （J一）士10.025Sp Jm 71 （26.58 - 39.67）土（2.074）（14.11）｛十 1 n2 或 - 13.09 11.95 這樣我們有95%的把握認為服用藥物帶來的絛蟲減少量在1.1到25.0之閣。在這一節中，為比較兩個總體均值而構造的置信區問和假設檢驗需滿足三個條件。第一個，也是最關鍵的一個就是兩隨機樣本相互獨立。在實際中，這種獨立性是指兩個樣本是從兩個不同總體中隨機抽取的，並且一個樣本中的元素與另一個樣本中的素在統計意義上相互獨立，在試驗和研究中經常會出現兩種型別的關（資料並非獨立）。資料可能會存效應，之所以會出現這種情況，一般是因為資料是從子群中選出的。比如在一個試驗中，從5個班級中選出50 個孩子，對兩種教學方式進行比較，這些孩子被隨機指定—-種教學方式。因為同一個班的孩子有同一個老師，因此從同一班內抽取的同學的成績就會比從不同班級抽取的同學的成績更接近。這樣，參加者的獨立性就不能被滿足。另一種相關是由於序列規空間積關。當資料是在一定時間內測得到時，在較接近的時間內的觀察值之間往往比較遠的時間內的觀察值之間更為接近。一個類似的相關是資料取自不同地點一一例如，為了估計一個化工廠是否排放了汙染物，而在一湖的不同位置取水樣。較接近的地點所得的資料往往比較遠的地點所得的資料更為接近，這種相關叫空間相光。當資料相關時，那麼基於：分佈方法構造的買信區間的覆蓋機率不同於預期的機率值，假設檢驗犯第I類錯誤的機率也不同於給定的值。有適於處理這類資料的統計方法，但他們都太深奧了。關於縱向或重複測量資料分析或空間資料分析的書會介紹分析相關性資料的詳細方法。當總體分佈嚴重厚尾或嚴重偏倚時，置信區間的擬蓋機率以及：檢驗的水平和功效就會遠遠偏離預定的值。卜—-節將介紹可替代：檢驗的一個非引數檢驗，這種檢驗不要求總體的正態性。第三個也是最後一個假定就是兩個總體方差c？和唔相等。現在我們僅考察祥本方差，看他們是否近似相等。後面（第七章》我們再對這一假定進行檢驗。關於偏離等方差性假定對獨立樣本的t方法的影響，人們已經做了很多研究。一般結論為：對於容量相同的樣本，總體方差之同相差3倍時（比奶，好=3好），1檢驗方法仍然適用。為了說明不等方差的影響，我們在計算機上進行了模擬，從相同均值，不等方差：01二kd2，其中 =0.25，0.5，1,2,4的正態總體中產生兩個獨立隨機樣本。對於每個樣本容量和標準差的組合進行1,000次模擬。對每次模擬，進行水平為 0.05的檢驗。在表6.4中列出了1,000次檢驗中錯誤地拒絕H。的比率。如果混

•302• 第六章兩總體中心值的比較合：檢驗不受不等方差的影響，那麼得到的比率就應接近於0.05，即在所有情況下的預定值。教6.4 不等方差對混合：檢驗犯第1類銷誤比率的影響 72 10 10 10 15 15 10 20 40 15 30 45 k=0.25 0.065 0.016 0.001 0.053 0.007 0.004 0.50 0.042 0.017 0.004 0.043 1.023 0.010 C=Rd2 1 0.059 0.049 0.046 0.056 0.060 0.069 2 0.045 0.114 0.150 0.060 0.129 0.148 4 0.063 0.165 0.307 0.060 0.174 0.250 根據表6.4的結果，我們可以得出這樣的結論：當樣本容量相等時，犯第I類錯誤的比率總是接近於 0.05（從0.042 到 0.065）。當樣本容量不等時，犯第T類錯誤的比率就大大偏離0.05。當樣本容量較小且總體方差較大時，偏離更為嚴重。這時錯誤率高於 0.05。例如，當n」=10，n2=40,01=452 時，錯誤率為 0.307。當n1=10，#2=10,a1=402 時，錯誤率為0.063，非常接近於 0.05。這一點很關鍵，它為我們在作：檢驗時使用容量相等的樣本提供了令人信服的證據。當樣本方差（s｝和s）顯示好吃時，用下面的檢驗統計量作近似的：檢驗 t'= （1-32）-Da + 11 #2 Welch（1938）證明了具有修正後自由度的：分佈分位點，稱作 Satterthwaites 近似，可用於確定：'的拒絕域。近似：檢驗步驟如下：對於獨立樣本，不等方差時的近似：檢驗 Ho:1.Ki-M≤Do H:1.K1-42>D。 2.K1-M2≥D， 2.41 2<D。 3.M1- #2=Do 3.MI-42 D。 T.S.：t'=（1-322-D0 Ym1 12 R.R.：對於第一類錯誤機率。及自由度df 1．若 ‘≥。則拒 Ho。 2.若：'≤一1e，則拒絕 Hoo

6.2 關於A1-#2 的推淅：獨立樣本•303• 3. 若I'1≥t/2，則拒絕H。其中 df= （n1-1）（n2-2）（1-c）（m1-1）+c（n2-1），而c -s/nl N2 注：如果計算出 df不懸整數，四舍五人，取其最接近的整數。 1‘檢驗有時被稱為分離方差：檢驗（separate-variance t test），因為所用的是各自的樣本方差子和8，而不是混合樣本方差。當好和哈相差很大時，我們必須修止（A1—42 的置信區間。由分離方差：檢驗給出以下置信區間公式：對於獨立樣本，方差不等時 p41一 2的近似置信區間（J1-32）士taf2 5j #1 #2 其中 df= （n1 1）（2 2） si/n1 （1 c）”（n1 1）+c（2 1）前下面我們繼續對案例中的資料進行分析。分析石油溢位案例中的資料研究人員假定被汙染區域的植物密度要小於對照區域。這樣，我們就可分別對對照區域的植物密度（p1）和溢位區的密度（p2）構建置信區間來估計他們的平均密度。同樣可以構建p1 —12 的置信區間來檢驗研究假設“A」大寸p2”。從圖6.1可看出，溢位區的資料看似正態分佈，而對照區的資料則星左偏倚。根據圖6.6（a）和（b）所示的正態機率圖可進一步判定總體是否服從正態分佈。我們可以看出溢位區的資料服從正態分佈，而對照區的資料不服從正態分佈，因為圖中的點不近似成一條直線。並且，對照區植物密度變異性大於溢位區。這樣近似：檢驗就應是最合適的推斷方法。由樣本資料得結果如下：對照區出區 #1=40 n2=40 $1=38.48 $2=26.93 S1=16.37 $2 =9.88 研究假設為對照區的平均植物密度超過溢位區。近似：檢驗的步驟如下： Ho:HI≤#2 Ha:MI≥42 即， Hn:MI-42≤0 H&：H1-4220 T.S.：t'-（1-9）-D= （38.48-26.93）-0 /（16.372+（9.88）：=3.82 n1 12 40

•304• 第六章兩總體中心值的比較 0.999 0.99 0.95 0.80 率概 0.50 0.20 0.05 0.01 0.001 0 10 20 30 40 植物w度（a）對照區正態機率圖 50 60 0.999 0.99 0.95 0.80 #0.s0 0.20 0.05 0.01 0.001 4 14 24 34 植物巒度（b）滋出區正態機率圖 44 圖6.6 為了討算拒絕域和p值，我們需要計算'的近似自由度 df：（16.37）2/40 遼 =（16.37）-/40+（9.88）2/40 7=0.73 54 df= #2 （1-c）（n1-1）+c2（n2-1

6.2 關於M1-4z 的推斷：獨立樣本 • 305• （39）（39）（1- 0.73）（39） + （0.73）2（39） = 64.38 取整為64 附表2中沒有 df=64 的情況，所以我們將用 d=60。事實上，當自由度逐漸變大時，分位數的差異很小：對於 df=60 和 64，t0.0s分別等於1.671 和1.669。 R.R.：對於 a=0.05, df=60，若：'≥1.671，則拒絕Hoo 因為：=3.82>1.671、所以我們拒絕Ho。我們可根據附表2中df=60 的情況界定值。當：’=3.82時，顯著性水平p<0.001。因此我們可以得出結論：有明顯的證據表明1大於p2。儘管我們已確定對照區和溢位區的植物密度在統計意義上存在顯著差異，但問題是這些差異是否具有實際意義。我們可以用95% 置信區間估計平均值差異的大小。利用以下公式計算p1 —p2的95%置信區同，其中df=64，該公式與 R.R中所用的公式相同：（1-$2）士tal2 nl + 22 或（38.48-26.93）+2.0 （16.37）2 +（9.88）2 40 40 或 11.55士6.05 這樣我們有95%的把握相信平均植物密度的差異在5.5 到17.6 之間。植物學家可根據這個差異來評價其是否具有實際意義。報告結論我們需對此研究寫一份總結報告，內容包括以下兒項： 1.說明研究目的。 2.敘述如何設計研究方案，如何收集資料。 3.資料集的數值和圖形概括。 •均值，中位值，標準差，分位數和極差表。 •盒形圖。 •莖葉圖。 4. 描述所有推斷方法。 • 均值差的近似：檢驗。 •基於近似：方法的總體均值置信區間。 •用盒形圖和正態機率圖驗證推斷方法所需的所有條件是否滿足。 S.討論所得的結果和結論。 6. 相對於以前的研究結果解釋新的發現。 7. 提出未來研究的建議。 • 8．列出資料集。

• 306• 第六章兩總體中心償的比較為「說明不等方差對分離方差：檢驗的影響較對混合：檢驗的影響要小，用分離方差t檢驗的方法分析表6.4 中的計算機模擬資料。表6.5列出了1,000次檢驗中，錯誤地拒絕H。的比率。如果分離方差，檢驗不受不等方差的影響，那麼，我們期望得到的比率就應接近於0.05，即在所有情況下的預定值。表6.5 在分離方差：檢驗中不等方差對犯第I類錯誤比率的影響 72 10 10 10 15 15 15 10 20 40 15 30 45 R=0.25 0.055 1.055 0.049 0.044 0.052 0.058 0.50 0.040 0.044 0.047 0.041 01.039 0.042 d1= ka2 1 0.056 0.049 0.043 0.054 0.051 0.055 2 0.038 0.059 0.041 0.055 0.043 0.050 4 0.0$2 0.051 0.055 0.057 0.052 0.058 從表6.5我們可以看出，在所考察的每一種情況下，分離方差：檢驗犯第I類錯誤的比率都很接近0.05。另一方面，當樣本容量不同且來自具有不等方差的總體時，混合：檢驗犯第1類錯誤的比率與0.05相差很多。在本節中，針對獨立樣本來自於等方差正態總體的情況，我們研究了混合：檢驗。對於方差不等的情況，引入了分離方差：‘檢驗統計量。基於：和：‘兩種方法所得到的置信區間和假設檢驗的結果不必一致。標準統計軟體一般都給出兩種檢驗結果。在你的報告中應該用哪一種？如果樣本容量相同，總體方差也相同，分離方差：檢驗和混合：檢驗從代數上給出了相同的結果，即=：’。既然如此為什麼不在n1=n2 的時候總是用：‘檢驗呢？我們選：而不是t‘是因為：的自由度幾乎總是大於：‘的自由度。所以當方差相等時，t檢驗的功效大於：。當兩樣本容量以及方差都差別很大時，t和：‘檢驗的結果可能會大不相同。在這種情況下，有依據表明分離方差方法所得的結果一般比混合：方法更可靠和保守一些。是如果總體的方差和均值都不同時，僅對總體均值差p1-42檢驗遠不足以說明總體的差別。我們應同時檢驗被比較的總體均之間的差異和方差之間的差異。第七章將討論兩方差差異的推斷問題。練習基本技能 6.1 試針對下列情況，分別給出檢驗 Ho:K1-#2 =0 的拒絕域日•Ha:P1~12產0,n1=12,12=14, a=0.05。

6.2 關於81 -#2 的推斷：獨立樣本 •307． 1.Ha:M1-4220， 1=#2-8,a=0.01。 C.Hu:A1-H2<0,n1=6,n2=4,0=0.05。應用兩樣本：檢驗前應作哪些假定？ 6.2 給定 a =0.05，利用下面的樣本資料檢驗零假設 Hn:41 -42≥0 對備擇假沒王： 1 2≤0。總體樣本容量櫸本均值祥本方差 6.3 1 16 71.5 68.35 參見習題6.2中的資料。給出檢驗的顯著性水平。 2 13 79.8 70.26 應用 6.4（醫學）為了研究寒冷環境對高血壓患者的影響，首先對老鼠進行試驗，調查低溫對老鼠的高血壓的影響，隨機抽取12只老鼠並把它們分成兩組，一組被置於室溫（26CC）下，另一組置於SC的環境中。測試兩組老鼠的血壓和心率。下表給出了這 12 只老鼠的血壓。 26C st 老鼠 1 2 3 4 5 6 血壓 152 1$7 179 182 176 149 老鼠 7 8 9 10 11 12 血壓 384 369 354 375 366 423 a. 這些資料是否能充分地說明5C環境中老鼠的平均血壓高於室溫下的老鼠？已知a=0.05。 b.評估（a）中檢驗所需的三個條件是否滿足？

• 308• 第六章兩總體中心值的比較 c.給出兩個總體均值差的95%置信區間。 6.5（環境）一個環境控制檢驗員懷疑一個河邊的社群往河裡排放半處理的汙水，這會導致河水中被溶解氧氣的變化。為了證實這一懷疑，他分別在這個城鎮的上下游各隨機抽取了15個水樣，下表給出這30處水樣中被溶解氧氣（單位 ppm）的資料。上游下游上游下游 5.2 4.2 4.7 5.1 4.8 4.4 5.0 4.3 5.1 4.7 4.7 5.5 5.0 4.9 5.1 4.7 4.9 4.6 5.0 4.9 4.8 4.8 4.9 5.0 4.9 4.9 4.7 4.7 4.6 4.8 根據計算機輸出的結果回答下列問題 Two-Sample T-Test and Conf idence Interval Two-sample T for Above Town vs Below Town N Mean StDev SE Mean Above To 15 4.92 0.157 0.042 Below To 15 4.74 0.320 0.084 95 % CI for mu Above To-mu Below To：（-0.013,0.378） T-Test mu Above To = mu Below To （vs not =）： T=）1.95 P=0.065 DF = 20 5.5 量5.0 含氧 4.54.0 * 上游樣品下游樣品上游和下游樣品資料盒形圖（均值以實心圓點標出） a. 這些資料是否能充分證明上下游被溶解氧氣的平均值存在差異？ a=0.05

6.2 關於 K142 的推斷：獨立樣本•309• b.計算機輸出結果所用的是混合t檢驗還是分離方差t檢驗？ c.（a）中檢驗所需的條件是否能滿足？為什麼？ d. 上下游被溶解氧氣的平均值差異有多大？ 6.6（工業）一個工程師猜測，成功和不成功公司的一個很大的不同就在於它們所加工的產品因缺陷而被退回的百分比。為評價這個猜測，這個工程師調查了 50個成功和50個不成功的公司（以年利潤為標準）。這些公司生產的產品效能和成本相似，下面圖表中列出了顧客退回產品的百分比。 Two-Sample T-Test and Confidence Interval Two-sample T for Unsuccessful vs Successful N Mean StDev Se Mean Unsuccessful 50 9.08 1.97 0.28 Successful 50 5.40 2.88 0.41 95 % CI for mu Unsuccessful-mu Successful：（2.70,4.66） T-Test mu Unsuccessful = mu Successful（vs>）：T=7.46 P= 0.0000 DF = 86 15 10 5 0 不成功的公司成功的公司成功和不成功的公司的盒形圖（均值以實心圓點標出） a. 這些資料是否能充分證明成功公司的產品退回率較低？a=0.05 b. 計算機輸出結果所用的是混合+檢驗還是分離方差t檢驗？ c.（a）中檢驗所需的條件是否能滿足？為什麼？ d. 成功和不成功公司的產品退回率的差異有多大？ 6.7（社會）在過去的十年中，看報紙家庭的數量有所減少。許多人稱他們現在透過電視和網路獲取資訊。為了調查讀報紙的人是否對時事較其他人有更多了解，分別隨機抽取15個訂報紙的人和15個不訂報紙的人，對他們進行一個關於時事的測驗。下面的莖葉圖給出了每組的分數。問：看報紙的人是否對時事有更多

• 310• 第六章兩總體市心值的比較的瞭解？注意保證檢驗所需的條件都被滿足。 Character.Stem-and-Leaf Display Stem-and- leaf of No Newspaper Deliver N =30 Leaf Unit = 1.0 0 000 0 1 3 ］ 59 2 334 2. 57 3 00234 3 5589 A 00124 4 5 Sten-and-leat of Newspaper Subscrihers 2=25 Leaf Unit=1.0 ． 5 0 5 55 6 2 2 2 2 99 32 3 66889 4 000112333 4 55656 52 59 Tuo-Sample T-Test and Confidence Interval Twc-sample r for No Newspaper vs Newspaper N Hean StDev SE Mean No Newspaper 30 32.0 16.0 2.9 Newspaper 25 40.91 7.48 1.5 95& CI For nu No Hewspaper-mu Newspaper：（-15.5，-2.2） I-Test mu No Newspaper = mu Newspaper（vs<）： =-2.70 P=0.0049 DF=42 6.8（環境）為了確定一小時內汽車排放氮氧化物的平均排放過，檢測兩種不同的排放控制裝置。選擇同年出廠、同型號的20 輛車，隨機選出10輛配備第1種排放控制裝置，另外10 輛配備第2種排放挖制裝置。對每一輛車進行1小時的監測，測出氮氧化物排放量。根據以下資料檢驗研究假設：第一種裝置的平均排放量KAI 大於第二種裝置的平均排放量p42，給定 =0.001。

第一種裝置 6.2 關於 pI-p2 的推斷：獨立樣本 •311• 第二種裝墱 1.35 1.56 1.23 1.20 1.32 1.28 1.21 1.25 1.17 1.19 1.01 0.98 0.95 1.02 1.05 0.96 0.99 0.98 1.01 1.02 6.9（醫學）據估計每年對一些物質（如顏料）的異常偏好（異食癖）導致的鉛中毒可能會影響多達25萬兒童的健康，使他們有嚴重的不能恢復的發育障礙。對兒童為何願意食用鉛的解釋有“父母的不正確指導”“孩子口含東西的需要"等。一些研究老調查了是否這種情況可從營養學上進行解釋。在一個研究中，對正常飲食的老鼠和飲食缺鈣的老鼠所消化的醋酸鉛溶液進行了對比。20只老鼠被隨機分到試驗組或控制組。控制組正常飲食，試驗組的食物中缺鈣。每個老鼠被單獨放在一個籠子中，對其在研究期間所食用的1.5%醋酸鉛溶液進行監測。結果如下：控制組 5.4 6.2 3.1 3.8 6.5 5.8 6.4 4.5 4.9 4.0 試驗組 8.8 9.5 10.6 9.6 7.5 6.9 7.4 6.5 10.5 8.3 a.將兩樣本的資料分別繪成圖表。是否有理由認為：檢驗所的條件不成立？ h.檢驗研究假設：試驗組食用的醋酸鉛溶液的平均基大於控制組。給定a= 0.05。 6.10（醫學）一個為期三年的研究調查了幾種速食早餐麥片對少兒齲齒的影響。Rowe，Anderson 利 Wanninger（1974）對這一研究結果進行了報道。來白 Michigan州 Ann Arbor 公立學校的375個男孩和女孩（經父母允許）參加了這項研究。發給每個孩子牙刷和不同種類的麥片，儘管這些麥片品牌不同，但都被裝在普通白色7盎司的盒子中，且都被標上了小麥、玉米、燕麥、水果味、玉米蓬鬆、可可、加糖燕麥片。注意後四種麥片事先都已加糖。在開始研究之前，對每個孩子進行一次牙齒檢查，研究期間兩次，研究結束時一次。我們感興趣的是變質的，缺失的，以及裝填的（DMF）表面積增加量—一即，研究前後 DMF 牙齒表面積的差。在3年中對每個孩子進行了認真的記錄。在研

•312• 第六章兩總體中心值的比較究的最後，若一個孩子所食用的麥片少於28盒，他就被歸類為“非食用者”，否則被歸為“食用者”。兩組孩子增加的 DMF 表面積資料如下。用這些資料檢驗研究假設：非食用者的 DMF 面積大於相應的食用者的DMF 面積。給出檢驗的顯著性水平，並解釋之。非食用者食用者樣本容量 73 302 樣本均值 6.41 5.20 樣本標準差 S.62 4.67 6.11 參看習題6.10。雖然原始的研究細節並沒有被公佈，請對以上的檢驗方法進行評價。 6.12 （環境）對荒蕪地帶大氣中微量金屬的研究得到了極大的重視，因為有人擔心改變大氣中微量金屬的含量和分佈可能會改變地球的氣候。考慮一項在南極進行的研究，在兩個月中隨機抽取10個時間段，測得10,000 標準立方米（scm）空氣中金屬含量，得到鎂和銪資料如下。（注：鎂的單位為10-'g/scm，銷的單位為 10-1g/scm）。注意：對於鎂來說s＞，你預計這些資料服從正態分佈嗎？為什麼？鎂銪樣本容量 10 10 樣本均值 1.0 17.0 樣本標準差 2.21 12.65 6.13 參看習題6.12。你是否可以進行一個檢驗來比較鎂和銪的平均含量？為什麼？ 6.14（環境）從1929年開始PCB就已被應用，主要用於電力產業中，然而一直到19世紀60年代才知它是一個重要環境汙染物，在論文"The Tatio of DDE to PCB concentrations in Great Lakes herring guil eggs and its use in interpreting contaminants data" '，［刊登在 Journal of Great Lakes Research 24（1）：12-31］中，研究者報告了下面的研究情況。從五大湖地區選取了13個研究區域，在每一區域，連續幾年內每年隨機收集9~13個銀鷗蛋，並檢測PCB含量。1982和1996年，每個區域的平均 PCB 含量見下表：

6.2 關於 p」 2的排斷：獨立樣本•313• 命份 1982 1996 1 61.48 13.99 2 64.47 18.26 3 45.50 11.28 年份 1982 1996 8 38.06 7.30 9 30.51 12.80 10 39.70 9.41 地點 4 59.70 10.02 地點 11 29.78 12.63 5 58.81 21.00 6 75.86 17.36 7 71.57 28.20 12 66.89 16.83 13 63.93 22.74 8.在20世紀70年代透過了一項立法，限制 PCB的生產和應用。因此，原 PCB產地供應的PCB大大減少，這些資料是否可以充分地證明銀鷗蛋的平均 PCB 含量顯著減少？ b.用95%置信區間，估計從 1982年到 1996年平均PCB的減少量。 c評價假設檢驗和構造置信區間的條件是否滿足。 d.獨立性條件被破壞了嗎？ 6.15 參看習題6.14。可以看出 13個區域的 PCB 含差別很大。怎樣才能減小地點不同對評價兩年內PCB含均值差的影響？ 6.161人力資源）一家公司的低層管理人員年終獎金制度很複雜。關鍵是對 “公司目標的貢獻”的主觀評定。一個人事部門的官員隨機抽取24個女性和36個男性管理人員來判定獎金之間是否存在差異，用佔年收入的百分比表示。資料如下：性別 F • M 9.2 8.0 8.4 10.4 9.7 8.7 9.3 7.7 9.9 9.6 8.9 9.1 9.6 10.4 11.9 6.7 7.7 11.7 8.8 9.2 11.9 6.2 8.4 9.0 12.0 7.9 9.7 9.0 獎金百分比 9.0 9.3 9.0 8.7 9.9 8.9 12.0 8.4 9.1 8.4 9.4 10.0 9.2 9.6 6.9 8.7 9.8 10.1 9.4 9.2 7.6 9.2 9.0 9.0 9.7 9.9 7.4 9.1 9.2 11.4 8.9 9.0

•314• 第六章兩總體中心值的比較 Two-Sample T-Test and Conf idence Interval Two-sample T for Female vs Male N Mean StDev SE Mean Female 24 8.53 1.19 0.24 Male 36 9.68 1.00 0.17 95% CI for mu Female- mu Male：（-1.74， -0.56） T-Test mu Female = mu Male （vs<）： T= -3.90 95% CI for mu Female-mu Male：（-1.72， - 0.58） T-Test mu Female = mu Male （vs<）：T= -4.04 Both use Pooled StDev = 1.08 P=0.0002 P= 0.0001 DF =43 DE =58 12 * 10 8 6 女性的獎金男性的獎金男性和女性管理人員獎金盒形圖（均值以實心圓點表示） a. 求混合方差：統計量的值（t檢驗一般建立在等方差性假定基礎上）。 b.求t統計量值。 c.分別在 a=0.05和a=0.01水平下，檢驗不等均值的研究假設，結論與用那個統計量有關嗎？ 6.17（商業）由於住院費用、醫療事故保險、醫生收診費和租金的不同，各州之間外科手術費用差別很大。在加州和蒙大拿州進行了一個子宮切除手術費用的研究。從每個州隨機抽取200個病人的病歷作為樣本，以下是樣本統計量的觀察值：蒙大拿州加州樣本容量 200 200 樣本均值 6,458美元 12,690 美元樣本標準差 250 美元 890 美元

6.3 非引數推斷方法：Wilcoxon 鐵和檢驗 • 315． 8.是否有足夠的理由認為加州子官切除手術費用高於蒙大拿州？ b.用95%置信區間估計兩州平均費用的差異。 c.在（a）中你是用混合：檢驗還是分離方差：檢驗？為什麼？ 6.18（教育）美國的一個教育機構對學生的閱讀能力進行了測量，分數範圍為0~500。每一組500名學生，測過結果如下。根據這些資料進行推斷。假定混合標準差為100。年齡 9 性別男女男女 17 男女 *等級：150一樹級閱讀水平，可達到最幕本的要求。 200一基本水平，可說出簡單段落的內容。 250—中級水平，可用長文章組織信急。 30K—適應水平，可理解和解釋複雜的宿息。 350一高階水平，可理解和解釋專業文獻。梯本均值* 210 216 253 262 283 293 a，繪製一個圖表來表示學生的年齡、性別和平均分數。 b. 根據樣本資料估計17歲男女生平均分數差異的95%置信區間。 c.用90%置信區間，比較13和17歲女生的平均分數，此區間包括0嗎？為什麼兩個均值是不同的？ 6.3 非引數推斷方法：Wilcoxon 秩和檢驗上一節講到的兩樣本：檢驗基於以下幾個條件：獨立樣本、正態性和方差相等。當方差柑等和正態性兩個條件不具備但樣本容量很大時，t（或：’）檢驗結果基本上是正確的。但是另一個檢驗方法卻不需要如此嚴格的條件。這個方法就是下面將要討論的 Wilcoxon 秩和檢驗。在這個檢驗中，假定有兩個樣本獨立，分別取自於兩個總體，這兩個總體的分布形狀相同，只是其中一個總體的分佈曲線可能是由另一個總體的分佈曲線向右

•316• 第六章兩總體中心值的比較平移得到的，如圖6.7所示。Wilcoxon 秋和檢驗並不要求總體服從正態分佈。因此我們就從：檢驗所需的條件中剔除了一個。另外的兩個條件，即同方差和獨立性依然需要滿足。因為在零假設下，兩個總體的分佈被假定是相同的，因此，如果等假設為真，從兩個總體中隨機抽取的獨立樣本也應是相似的。因為我們允許總體不服從正態分佈，秩和檢驗法就必然涉及到極端觀察值出現的可能性。一個辦法就是在混合樣本——即由來自兩個總體的樣本組成的樣本資料中，用資料對應的秩（從最小到嚴大）替換資料本身。其中量小的資料秩為1，最大資料秩為 N= 71+720 秩的大小與最小次小兩值（或最大次大兩值）之間的距離無關。這樣，極端俏對秩和統計量的影響就不像對：檢驗影響那麼大。 0.14 0.12 0 20 30 隨機變數的值圖6.7 形狀相同但位不同的偏態總體分佈秩和檢驗統計量的計算包括以下幾個步驟： 1.將兩個樣本的資料一起從小到大進行排序。 2. 在下一列中，將資料從小到大進行編號，最小值對應於1，最大值對應於 N。這些序號就是相應觀察值的秩。 3. 如果在混合樣本資料中有相同的值，那麼它們的秩就是它們幾個鐵和的均值。 4. 令T表示總體1觀察值的秩和。如果零假設為真，即兩總體同分布，那麼，對應子總體1 的n1 個秩就是N個整數1，2，，N的一個隨機樣本。因此在零假設下，秩和分佈就由樣本容量71和 72惟一決定，而與總體的分佈形狀無關。在零假設下，T的抽樣分佈的均值和方差分別為

6.3 非引數推斷方法：Wilcoxon 秩和檢驗 • 317• 直觀上，如果T 比pT小（或大）很多時，我們就有理由相信零假設不成立，即兩個總體分佈是不同的。秩和檢驗的拒絕域具體給出了，當零假設被拒絕時T和AT 差異的大小。由於在零假設條件下，T分佈和總體分佈無關，因此，表5給出的檢驗臨界值與總體分佈形狀無關。現將 Wilcoxon秩和檢驗步驟列出如下： Wilcoxon 秩和檢驗 Ho：兩個總體分佈相同。 Ha:1.總體1是總體2的一個右平移。 2.總體1是總體2的一個左平移。 3.總體1和2互為平移。（n≤10,12≤10） T. S.： T，樣本1的秩和 R.R.：給定a=0.05，查附表5得臨界值Tu和TL； 1.若T>Tu，則拒絕 Hy。 2. 若T<TL，則拒純 Ho。 3.若T>Tu或T<T，則拒絕Hoo 檢查假設，並得出結論。例6.4 許多州都在考慮降低司機開車時所允許的血液中酒精含量的標準。一個立法機構的研究人員設計了以下檢驗來研究酒精對反應時間的影響。10個參加者飲用指定量的酒精，另外10個飲用同樣多的不含酒精的飲料——一種安慰劑。兩組成員都不知道他們所喝的是酒精還是安慰劑。下表列出了這20個人對一系列模擬駕駛場景的反應時間（以秒計）。能否看出酒精使反應時間延長了。安慰劑 0.90 0.37 1.63 0.83 酒糈 1.46 1.45 1.76 1.44 0.95 1.11 0.78 3.07 0.86 0.98 0.61 1.27 0.38 2.56 1.97 1.32 a.在此研究中，為什麼：檢驗方法不適合於分析這些資料？ b.用Wilcoxon 秩和檢驗來檢驗以下假設： Ho：對應於安慰劑和對應於酒精的兩個反應時間總體分佈相同。 H：對應於安慰劑的反應時間總體分佈是對應於酒精的反應時間總體分布的左平移（反應時間較長與飲用酒精有關。） c.對於兩總體，分別給出反應時間中位數的95%置信區間。 d. 將（b）的結果與 Minitab 的結果進行比較。

• 318• 第六章兩總體中心值的比較解答 a. 兩樣本的盒形圖如下。此圖表明兩總體分佈均右偏，因為10%的資料是大的異常值且上須比下須長。樣本容量都很小，因此，t檢驗不適合。 3 2 1 0 安慰劑總體安慰劑和酒精總體的盒形圖（均值以實心圓點表示）酒精總體 b. 下面將用 Wilcoxon 秩和檢驗來評價酒精是否延長了反應時間。表6.6給出了按順序排列的混合樣本資料以及相應的秩。我們令對應於安慰劑的總體為總體1，對應於酒精的總體為總體2。根據附表5，對於 a=0.05，單側，n1=n2=10，若T<83，則拒絕Ho。 T的值為總體1樣本的秩和，即T=1+2+3+4+5+6+7+8+16+18=70。因為70小於83，所以，我們拒絕 Ho.並認為安慰劑總體的反應時間小於酒精總體。表6.6 反應時間排序和秩 1 2 4 s 10 順序資料 0.37 0.38 0.61 0.78 0.83 0.86 0.90 0.95 0.98 1.11 組 1 秩 1 2 1 4 5 7 2 10 11 12 13 14 15 16 17 18 19 20 順序資料組 1.27 1.32 1.44 1.45 1.46 1.63 1.76 2 2 2 2 1 2 1.97 2.56 3.07 2 秩 11 12 13 14 15 16 17 18 19 20

6.3 非引數推斷方法：Wilcoxon 秩利檢驗 • 319• c.因為樣本容量小且總體分佈呈右偏態，所以，我們構造反應時間中位數的腎信區間以代替均值的置信區間。利用第5.8節的方法，並根據附表4，我們發現 Ca（2）.n=C0.05.10 = 1 因此， 1-0.025 = Co.50,10 +1 = 2 Uo.n2s =n- Co.50.10 =10-1=9 總體中位數的95%置信區間由以下公式給出（MI.，Mu） = （y（2）：y19））因此，安慰劑總體中位數的95%置信區間為（0.38,1.63），酒精總體中位數的95% 置倍區間為（1.11,2.56）。由十樣本容量很小，因此，這兩個置信區間的意義不大。 d.Minitab 輸出結果如下。 MarurWhitney Conf idence Interval and Test PLACEBO N = 10 Hedian = 0.845 ALCOHOL N = 10 Hedian = 1.445 Point estimate for ETA1-ETA2 is - 0.600 95.5 Percent CI for ETA1-ETA2 15 （-1.080， -0.250） W=70.0 Test of ETA1 = ETA2 VS ETA1< ETA2 is significant at 0.0046 Miniteb 中提到的是 Mann-Whitney 檢驗統計量。這個檢驗等同於 Wilcoxon 檢驗。事實上檢驗統計量的值 W=70與Wilcoxon 檢驗統計量的值T=70相同。輸出結果給出了值=0.0046，兩總體中位數之差的95.5%置信區間為（-1.08， -0.25）。當兩個樣本容量都大於10時，”的抽樣分佈近似子正態；這就使得我們時以在 Wilcoxon 秩和檢驗中用：統計量代替T： =T-世 GT 理論上 Wilcoxon 秩和檢驗要求總體分佈是連續的，所以任意兩個數值相等的機率為0。因為在許多研究中，我們只記錄資料的幾個小數位，這樣，我們會常常遇上資料相等的情況，即相等的觀察值。在這種情況下，每個相等資料的秩為這些相等資料秩的平均值。當有相等資料時，必須調整T的方差。調整後的方差子為子=#122 這裡k是相等資料的組數，t；是第；組相等觀察值中資料的個數。注意，當沒有相

•320．第六章兩總體中心值的比較等資料時，對所有的j，；=1，這時時-些告2（n1+12+1）從實用的角度看，除非有許多相等資料，否則，調整對的影響不大。將正態近似的 Wilcoxon 秩和檢驗步驟總結如下： Wilcoxon 秩和檢驗：正態近似 n≤10且 2≤10 Ho：兩個總體分佈相同。 He:l.總體1是總體2的一個右平移。 2. 總體1是總體2的一個左平移。 3.總體1和2互為平移。 T.S.：~=— T-些I，其中為樣本1的秩利 R. R.：給定《， 1．若z≥za，則拒絕Ho。 2. 若x≤S-2a，則拒絕H0。 3.若lx|≥2/2.則拒絕 Ho。檢查假設，並得出結論。例6.5 環境工程師想要確定附近一個湖泊的清除工程是否有效。在工程開始前，他們從湖中隨機抽取12個水樣，並測出水樣中溶解氧的含量（ppm），因為溶解氧的含量在夜間有所波動，故所有的測量均在下午 2:00高峰期進行，清除工程前後的資料見表6.7。清除前 11.0 11.2 11.2 11.2 11.4 11.5 表6.7 溶解氧的含量（ppm） 11.6 11.7 11.8 11.9 11.9 12.1 10.2 10.3 10.4 10.6 10.6 10.7 清除後 10.8 10.8 10.9 11.1 H1.1 11.3

6.3 非引數推斷方法：Wilcoxon 秩和檢驗 • 321、 a.在a=0.05 的水平下檢驗下列假設： Ho：清除工程前和工程開始6 個月後資料的分佈相同。 Ha：清除工程前被溶解氧含的分佈是工程開始6個月後的一-個右平移。（注意從某種意義上講，如果氧氣溶解量在一段時期內降低，則說明清除工程有效。〉為了方便起見，表6.7中的資料按從小到大列出。 b.根據相等資料所做的修正有沒有很大的意義？解答 2.首先，我們混合24 個樣本觀察值，並賦予相應的秩，最小觀察值的秩為1，次小觀察值的秩為2，依次類推。當兩個或兩個以上觀察值相同時，賦予它們平均秩。樣本觀察值和相應的秩見表6.8。表6.8 被溶解氧，的含量及相應的秩清除前清除後 11.0 11.2 11.2 11.2 11.4 11.s 11.6 11.7 11.8 11.9 11.9 12.1 （10）（14）（14）（14）（17）（18）（19）（20）（21）（22.5）（22.5）（24） T=216 10.2 10.3 10.4 10.6 10.6 10.7 10.8 10.8 10.9 11.1 11.1 11.3 （1）（2）（3）（4.5）（4.5）（6）（7.5）（7.5）（9）（11.5）（11.5）（16）因為71和n2 的值都大於10，所以，我們可以用檢驗統計量z。如果想要檢測出清理之後觀察值的分佈向左平移，那麼，我們期望樣本1的秩和就應較大。因此，如果x=（T 4z）/0r值較大，就應拒絕Ho。按秩相等進行分組，我們得到18個組。將這些組以及相應的每組等秩個數t；列表如下。

•322• 第六童兩總體中心值的比較秩 1 2 3 4.5,4.5 6 7.5.7.5 9 10 組 2 3 4 5 6 7 8 11.5,11.5 9 1 L 1 2 1 2 1 •1 2 秩 14,14,14 16 17 18 19 20 21 22.5.22.5 24 組 10 11 12 13 14 15 16 17 18 3 1 1 1 1 1 1 2 1 對於所有t；=1的組，因為：-1=0，所以，它們對中的（n1+72）（1+n2-i）沒有貢獻。因此，我們僅需要；=2，3。將資料代人公式，我們可得到 A= n1+72+12- 12012+12+12= 150 好= = 1292125-6+6t052416］ 24（23） = 12（25-0.0870） =298.956 aT=17.29 x 的計算值 x=T-絲=216150 17.29 = 3.82 這個值大於 1.645，所以我們拒絕Ho，從而得出結論：清除前的分佈是清除後分佈的一個右平移；即，清除後被溶解氧的含量趨向於小於清除前的含量。 b.沒有修正過的好值是時 = 12（12）（25）=300 0 = 17.32 對於這個 or,2 =3.81 而不是修正後得到的3.82。這有助於我們理解除非相等數

6.3 非引數推斷方法：Wilcoxon 秩和檢驗 • 323• 據的個數很多，否則，修止對最終結果的影響是很小的。 Wilcoxon 秩和檢驗可代替兩樣本：檢驗，它比：檢驗所需的條件要少。特別地，Wicoxon秩和檢驗不要求總體服從正態分佈，官只要求兩總體分佈形狀相同，其中一個分佈是另一個的平移。當兩個分佈都是止態時，！檢驗更能檢測出存在的差異，即此時：檢驗的功效大子秩和檢驗。這是可以理解的，因為t檢驗用的是觀察值本身的大小，而Wilcoxon 秩和檢驗用的是觀察值的相對大小（秩）。但是，當兩總體不服從正態分佈時，Wilcoxon 秩和檢驗的功效大於，檢驗的功效；即更可能檢測出總體分佈的平移。並且，對於所有分佈型別的總體、Wilcoxon 秩和檢驗犯第I類錯誤的水平或機率均等於給定的值。當總體不服從正態分佈時，1檢驗的實際水平與給定的水平將有所偏離。尤其當總體分佈嚴重偏態或有極端離群債時，更是如此。表6.9 分佈 nI， 2 平移檢驗 5,5 5,15 T！ T 15,15 T =0.05 水平下，：檢驗（t）和 Wllcoxon 秩和檢驗（T）的功效正態雙指數柯西威布林 0 1.6 1.2 0.6 1.2 0 0.6 1.2 0.6 1.2 D.044 0.213 0.523 0.045 0.255 0.588 0.024 0.132 0.288 0.049 0.221 0.545 0.046 （1.208 0.503 0.049 0.269 0.589 0.051 0.218 0.408 0.049 0.219 0.537 0.047 0.303 0.724 4.046 0.304 0.733 0,U56 0.137 0.282 0.041 0.289 8.723 0.048 0.287 0.694 0.047 0.351 0.768 0.046 0.284 0.576 0.049 0.290 0.688 0.052 0.497 0.947 0.046 0.507 0.928 0.030 0.153 0.333 0.046 0.488 0.935 0.054 9.479 0.933 0.046 0.594 0.962 0.046 0.484 0.839 0.046 0.488 0.927 Randles 和Woife（1979）研究了偏態和厚尾分佈對：檢驗和 Wilccxon秩和檢驗功效的影響。表6.9是他們模擬研究結果的一部分。針對每一分佈型別的總體、每一樣本容量和每一平移量，選取了5000 個樣本，記錄在《=0.05水平下，！檢驗或 Wilcoxon 秩和檢驗拒絕H。的次數所佔的比例。考慮的分佈包括正態分布，雙指數分佈（對稱，厚尾），柯西（Cauchy）分佈（對稱，極端厚尾），威布林《Weibull）分佈（右偏態）。考慮的平移量有0，0.6c 和1.2a，其中，除柯西分佈外， •表示總體標準差，而當總體服從柯西分佈時，a是一般的刻度引數。當總體服從正態分佈時，1檢驗只比 Wilcoxon 秩和檢驗稍好一點，即：檢驗有更高的功效。對雙指數分佈來說，Wilcoxon 秩和檢驗比：檢驗有更高的功效。對於柯西分佈，t檢驗的水平顯著偏離0.05，它的功效要比 Wilcoxon 秩和檢驗低得多。當分佈偏態時，如Wcibull 分佈，兩個檢驗有相似的表現；另外，t檢驗的水平和功效此時與分佈為正態時的俏幾乎相同。除非有大量的異常值，否則，t檢驗對

• 324• 第六章兩總體中心值的比較偏態分佈具有相當強的穩健性。練習應用 6.19（商業）某管道工程承包人希望減少服務呼叫地點之問的平均距離，但仍然維持至少同樣多的生意，這樣他的工作效率就得到了提高。某管道工（管道工 1）被指派給一個排程員，該排程員負責監聽所來到的服務請求並制訂一個當日的服務方案。管道工2仍同原來一樣，基本按照呼叫順序提供服務。兩個管道工18 天內（3個工作周》每天所走的英里數記錄如下。管道工1 管道工2 88.2 78.2 92.4 105.8 90.2 104.6 94.7 80.1 85.3 117.6 95.6 107.2 101.8 83.9 87.5 119.5 110.1 109.7 102.6 86.1 94.6 126.8 115.3 102.9 89.3 89.4 92.7 108.2 109.6 99.1 95.7 71.4 84.6 114.7 112.4 115.5 a.將每個管道」的樣本資料繪製成圖，並計算和s。 b.在（a）的基礎上，哪種方法更適合於比較這兩個分佈？ 6.20（醫學）論文“Serum beta-2-microglobulin （SB2M） in patients with multiple myeloma treated with alpha interferon" ［Journal of Medicine （1997）28:311～ 318］報告了在治療多骨髓瘤（MM）病人過程中。干擾素治療法的影響。指定新近被診斷為 MM的20個病人為研究物件。研究人員將20個病人隨機分成兩組，對其中10位病人採用間歇地服用（左旋）苯丙氨酸氮芥（melphalan）和 sumiferon 治療（處理組），對另外10位僅採用間歇地服用（左旋）苯丙氨酸氮芥治療。分別在採用此療法之前，之後第3，8，15天和第1,3,6個月測 SB2M的水平。用放射性免疫測定方法對SB2M值進行測定。治療之前的測量值如下：處理組控制組 2.9 3.5 2.7 2.5 3.9 2.7 3.8 8.1 2.1 3.6 2.6 2.2 2.2 5.0 4.2 2.9 5.0 2.3 0.7 2.9 日.繪出兩組樣本資料的盒形圖和正態機率圖。 b. 根據（a）的結果，哪種方法更適合於比較這兩個 SB2M分佈？ c.是否有足夠的理由認兩組 SB2M分佈有差異？

6.3 非引數推斷方法；Wilcoxon 秋和檢驗 •325• d. 討論（c）的結果對評價a干擾素的影響有何意義。 6.21（農業）為比較吃兩種不同維他命新增劑飼料的公雞的雞冠重量，進行了一個試驗。將28個健康的公雞隨機分成兩個組。一組吃第I種飼料，另一組吃第I種飼料。研究期過後，每隻公雞的雞冠重量（微克）如下：飼料I 飼料『73 130 115 144 127 126 112 76 68 73 60 89 75 101 126 66 93 49 110 68 123 76 a.分別就對應十飼料1和飼料1 的兩組樣本資料繪製成圖，並評價混合：檢驗的條件能否滿足？ b.給定a=0.05，利用合適的：檢驗法確定兩組雞冠重量分佈是否有差異？ c.給定a=0.05，用 Wilcoxon 秩和檢驗法檢驗兩組雞冠重量分佈是否有差異？ d.哪一種方法，Wilcoxon 或：檢驗法，更適合於評價試驗的結果？並解釋之。 6.22（商業）參看練習6.19。一年後又進行了一個研究。由18 位管道工組成的處理組配備了一名排程員，監聽該組所有管道工所收到的服務請求並制訂當天的服務計劃。對照組的18位管道工同原來一樣基本按照呼叫順序提供服務。將30天內這36 位管道工每人平均每日走的英里數記錄如下：處理組對照組 62.2 95.8 85.2 87.1 109.5 63.9 79.3 87.9 87.9 70.2 101.7 88.2 83.2 91.5 86.7 94.6 99.7 99.1 82.2 96.6 99.7 182.9 193.2 95.1 84.1 90.1 101.1 85.6 105.3 92.4 89.3 98.6 88.6 89.5 92.9 87.3 日.將樣本資料繪製成圖如下。根據這些圖，哪種檢驗方法更適合於比較這兩總體的分佈？ b. t 檢驗和 Wilcoxon 秩和檢驗（等價於輸出結果中的 Mann-Whitney 檢驗）計算機輸出結果如下。試比較這兩個檢驗結果，並就該排程員計劃的有效性作出結論。 c.根據這些資料的圖表和計算機輸出結果，評價：檢驗是否合適。 b.不同檢驗的結果是否有所不同？是不是在有些情況下應進行兩種檢驗？為什麼？

• 326• 第六章兩總體中心值的比較 Two-Sample T-Test and Confidence Interva/ Two-sample r for Treataent vs Control N Hean StDev SE Hean Treatment 18 88.33 9.06 2.1 Control 18 102.1 33.2 7.8 95& CI for nu Treatment-mu Control：（-30.3,2.7） TTest mu Treatment = mu Control （vs<）：T= - 1.70 P=0.049 DE = 34 Both use Pooled StDev = 24.3 TTwo- Sample T-rest and Conf idence Interval Two-sample T for Treatment vs Control N Hea.n StDev SE Hean Treatnent 19 88.33 99.06 2.1 Control 18 102.1 33.2 7.8 95 & CI for mu Treatment-mu Control：（-30.8,3.2） T-Test au Treatment = mu Control （vs<）：T=-1.70 Bx0.053 D =19 Mann-Whitney Conf idence Interval and Test Treatment N= 18 Median = Control N= 18 Hedian = Point estinate for ETA1-ETA2 is 88.25 93.75 -5.20 95.2 Fercent CI for ETA1-ETA2 is （-12.89,0.81） W=278.5 Test of ETA1 = ETA2 VS BTA1<ETA2 is significant at 0.0438 The test is significant at 0.0438 （adjusted for ties）對照組正態機率幽 0.999 0.99 0.95 0.80 率 0.50 0.20 0.05 0.01 0.001 80 130 對照組平均每日英里數 180

6.3 非引數推斷方法：Wilcoxon 秩和檢驗 • 327• 處理組正態橛率圖率概 0.999 0.99 0.95 0.80 0:50 0.20 0.05 0.01 0.001 62 72 82 處理組半均每日英里數 92 102 200 數裡英 I50 日物10- * 處理組對照組處理組和對照組盒形圖（均值以實心圓點表示） 6.23 表6.9給出了厚尾分佈和偏態分佈影響：檢驗和 Wilcoxon 秩和檢驗效果的模擬硏究結果。 a.如果有的話，對於哪種型別的分佈，Wilcoxon 秩和檢驗犯第I類錯誤的概率遠遠偏離於給定的值a=0.05。 b.如果有的話，對於哪種型別的分佈，檢驗犯第1類錯誤的機率遠遠偏離於給定的值a=0.05。 6.24 參春可題 6.23。 a. 比較三種非正態分佈條件下和正態分佈條件下：檢驗的功效。偏態或厚尾是不是似乎影響最大？ b. 對於四種不同型別的分佈，Wilcoxon 秩和檢驗的功效是不是差異很大？並

•328• 第六章兩總體中心值的比較解釋之。 c. 你認為 Wilcoxon 秩和檢驗適用於哪種型別的分佈？並解釋之。 d.你認為：檢驗適用於哪種型別的分佈？並解釋之。 6.4 關於p1-42 的推斷：成對資料前三節中我們給出的方法適用於來自於兩總體的獨立隨機樣本。然而，這些方法不適用於這樣一種情形，其中一個樣本的每個觀測值均與另一樣本中某一觀測值相匹配或成對。本節，我們將討論成對資料的分析方法。先看一個例子。例6.6 保險公司的評估員認為汽車修理廠1比汽車修理廠I對汽車修理費用的評估要高。為了證實他們的猜想，將最近出現事故的15輛汽車分別在兩個浣車修理廠進行維修費用評估。所得資料如表6.10。表6.10 維修費用評估（以百元計）汽車 1 2 3 4 5 6 7 8 9 10 11 12 13 14 修理廠工 17.6 20.2 19.5 11.3 13.0 16.3 15.3 16.2 12.2 14.8 21.3 22.1 16.9 17.6 18.4 總和 ¾1=16.85 $1=3.20 修理廠口 17.3 19.1 18.4 11.5 12.7 15.8 14.9 15.3 12.0 14.2 21.0 21.0 16.1 16.7 17.5 $2=16.23 51=2.94 用兩樣本：檢驗對資料進行初步分析。

6.4 關於 p1—A2 的推斷：成對資料 • 329• 解答計算機輸出結果如下： Two-Sanple T-Test and Confidence Interval Two-sample T for Garage I vs Garage I Mean StDev SE Mean Garage I 15 16.85 3.20 0.83 Garage II 15 16.23 2.94 0.76 95 & CI Eor mu Garage I -nu Garage I：（-1.69,2.92） T-Test mu Garage I = mu Garage Il （us not =）： T= 0.55 P= 0.59 DF = 27 從輸出結果看，樣本均值確實存在差異（$i 32=0.62），但是與這些觀察值的變異性《s1 =3.20,S2 2.94）相比，這個差昇很小。事實上，計算出的t值（0.55）具有戶值0.59，這表明很少有證據顯示，平均來說兩個修理廠的維修費用評估存在差異。仟細觀察這些資料，我們會發現例6.10所得出的結論與我們的直觀感覺不相符。因為對於所有15輛車，除一輛車以外，修理廠】對事故車的維修費用評估高於修理廠1。根據二項分佈的知識，假定修理廠1和1I 對維修費用評估無差異（* =0.5），那麼在15對觀察值中，1有14個或14個以上大於I的機率是 P（y=14或15）= P（y=14）+ P（y=15） 15 二（0.5）14（0.5）+ 1151 （0.5）'= 0.000488 14！ 115/ 這樣，如果兩修理廠評估的維修費用具有相同的分佈，那麼有大約5/10000 的機會，I的14個或14個以上值大於I的相應值。根據此機率，我們認為觀察到的評估值與兩修理廠評估的維修費用具有相同分佈這樣的零假設非常矛盾。t檢驗和二項分佈計算的結果為什麼會發生如此衝突呢？兩種方法所得的結論之所以不同，主要在於：檢驗要求兩樣本互相獨立，而在這一研究中恰好違反了這一獨立性要求。評估員分別在兩個修理廠得到關於一輛車的兩個維修費用值。若要兩樣本獨立，評估員需隨機抽取15輛車由修理廠1給出維修費用，再抽取15輛車由修理廠I給出維修費用。從圖6.8可以看出，對於同一輛車，修理費的估價大體相等。但是對每個修理廠來說不同車的修理費用相差很大。這個大的15輛車之同的變異性使得兩個修車廠之間的差異相對變小。在設計研究方案時，評估員發現汽車受損害的程度差異越大，每個修車廠的15個修理費用的差別也越大。因此他計算出每一輛車的修理費用的差值，這樣便減少了車與車之間的差異。這個例子說明了一個一般的設計原則。許多情況下，在隨機指定給處理之前，

•330• 第六章兩總體中心值的比較 23 22 21 20 19 18 17 16 15 14 13 12 11 10 • • ••. .' T' T1 T 20 11 12 13 14 15 16 17 18 19 20 21 22 23 條理廠工圖6.8 來自兩修理廠的維修費用評估試驗單元之間在許多方面差別很大，而這些方面的差異又會影響到試驗結果，從而會掩蓋真正的處理所帶來的差別。在前面的例子中，車輛在事故中的受損程度本來就差別很大，而不論由哪家修車廠評估其維修費用，所得估計都會有很大差異。當比較兩個處理或兩個組時，如果在將試驗單元分配到兩個處理或兩個組之前，試驗單元之間就有很大差別，就應當把樣本配對。有許多產生成對資料的試驗設計方法。其中一種就是使同一組試驗單元經過兩種處理，如上例。第二種方法是觀測試驗單元在經過處理前後所得的資料。比如，假設我們要考察一種降壓藥品的效果，應記錄參加者在服藥前後的血壓值。第三種方法是利用自然出現的成對事物，比如雙胞胎或夫妻。最後一種方法是按照那些可能掩蓋處理差別的因素，將試驗單元排成對。比如，為比較兩種閱讀教學方法的效果，進行一個研究。在研究之前，應根據參加者現有的閱讀能力將他們成對分組。分組後，兩種方法隨機地用於每一對的兩個參加者之上。設計原則見第十四章。對成對資料的合理分析需考慮兩樣本之間是否嵌乏獨立性。樣本均值差（立-32）的抽樣分佈的均值和標準差為 + 0-20102P HS，-，H1 M2 其中p表示兩樣本的相關程度。當配對的兩樣本觀測值相似時，P為正，且五1一 32的標準差比由兩獨立樣本計算出的標準差要小，終理費用就是如此。透過考察戚對資料的散點圖可確定p的大小和符號。當散點圖中的點接近一條直線時，P

6.4 關於p1-P2 的推斷：成對資料•331 • 較大。當此直線呈上升趨勢時，P為正。當此直線呈下降趨勢時，p為負。從圖 6.8可以看出，這些觀察值的點接近一條上升的直線，因此，p為正。在此修理費用研究中，應用成對資料與應用獨立樣本相比可減少樣本均值差的標準差。在實際分析中，我們需計算n對資料的差d；=y1—32，得到d的均值及和標準差sd。同時，我們需要將關於p1和p2的假設轉化為關於wd=M1-442 的假設。應用：方法來檢驗假設和構造pd的倍區間需滿足下列條件： 1.d；的抽樣分佈是正態的。 2.d. 相互獨立；也就是說，觀察值對與對之間相互獨立。將檢驗步驟概括如下。配對：檢驗 Ho:l.Hu≤Doo （P。為給定的值，通常為0） 2. MA≥D.。 3.Ha=Do。 He:1.Md>Doo 2.Ha<Doo 3.Ha*Dos sa//n R. R.：對於給定的水平，即犯第I類錯誤機率a，及皂由度df=7-1 1.如果t≥ta，則拒絕 Foo 2.如果t≤-te，則拒絕Hoo 3. 如果| |≥to/2，則拒絕 Hoo 檢查假定，並得出結論。基於成對資料的 Ha = 1 #2的100（1-8）%置信區間為 a士 0 這裡，是觀察值的對數（即差值的個數），df=*-1。例6.7 對例6.6中的資料進行配對：檢驗。在a =0.05的水平下給出結論。解答對於這些資料統計檢驗的步驟如下 Ho:Pd ML A2≤O Ha:pd20

•332• 第六章兩總體中心值的比較 a T. S.：t=— sa//n R. R.：對於自由度 df=n 1，如果t≥ 0.05，則拒絕Hoo 在計算：之前，必須先算出 a和sd。對於表6.10中的資料，差值d=修理廠 1的評估價-修車廠亞的評估價。汽車 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 40.31.11.1-0.20.30.50.40.90.20.60.3110.80.90.9 均值和標準差為代入檢驗統計量：得 a = 0.61,sd= 0.394 114-0 0.61 = 6.00 sd/Vn 0.394/V15 實際上，對於 df 14， =6.00 大於表中的：值，所以值小於0.005；事實上，值等於 0.000016。於是，我們可得出結論：修理廠I的維修費用估價大於修理廠 I。這個結論與我們在二項分佈基礎上直觀的感覺相一致。作這些討論不是為了說明我們通常會有兩種或兩種以上的分析，得出相矛盾的結論。而是要強調分析必須適於具體的試驗環境。對於這個試驗，兩個樣本不獨立，我們需要用一種適用於不獨立（配對）資料的分析方法。確定了均值在統計上具有顯著差異之後，我們應估計此差異的大小。P1H2 = d的95%置信區同為兩修理廠維修費用估價的平均差異提供了一種估計： a ttar2 mn 0.61 土2.145 9.394 /is 或 0.61 ‡0.22 這樣，我們有95%的把握相信，兩修理廠維修費用估價的平均差異在390 美元到830美元之間。據此，保險公司評估員可判定這一範圍內的差異是否具有實際意義。透過用差值d：代替觀察值Y1：和y2，可減少妥】32的標準差，從而使得新的檢驗具有更高的功效和更窄的置信區間。利用配對資料試驗時會產生損失嗎？當然，用d：的：檢驗，自由度為df=*—1，而用單個觀察值的：檢驗，自由度為df =11+82-2=2（n-1）。因此，在設計研究或試驗方案時，究竟是用獨立樣本試驗還是用配對資料試驗，要考慮試驗單元之間在分配到處理之前所存在差異的大小。如果差異很小，那麼，設計獨立樣本試驗更加有效。如果差異極大，則配對數

6.4 關於 11-p2 的推晰：成對資料 •333• 據試驗更有效。練習基本技能 6.25 考慮下列成對資料對 1 2 3 4 S 21 28 17 24 27 ￥2 29 30 21 25 33 a. 進行配對：檢驗並給出檢驗的p值。 b.根據二項分佈，你的結論會是什麼？它與（a）中的結論一致嗎？這兩種方法在什麼時候不一致？應用 6.26（工程）冊究人員正在研究用於防止天然氣輸送管道腐蝕的兩種保護膜，他們對至少在地下使用過5年的管道進行了檢測。保護膜的有效性依賴於土壤的pH值，所以，研究人員在測量管道腐蝕之前，首先記錄下埋藏管道的20處土壞的pH值，pH值如下。試說明研究人員如何進行研究以減少土壤pH 值之間的差異對比較兩種保護膜效能的影響。保護膜A 保護膜 B 3.2 3.7 4.9 8.2 20處研究地點的 PH值 5.1 7.4 6.3 7.1 5.8 8.8 3.8 3.4 8.1 4.7 7.3 5.3 5.9 6.8 8.9 7.2 6.27（醫學）假設你參加了一個治療高膽固醇新方法的研究專案，為了將此新療法與現有療法進行比較，記錄10周治療期內的膽固醇水平的變化。治療的效果可能與患者的年齡，體內脂肪百分比、飲食和健康情況有關。由於費用限制，此研究只能包括至多30位參加者。 a．說明用獨立樣本你如何進行研究？ b.說明用配對樣本你如何進行研究？ c.你如何確定哪種方法，配對樣本還是獨立樣本，對評價膽固醇變化更有效？

• 334• 第六章兩總體中心值的比較 6.28（農業）一個農業試驗站想要比較兩個新的玉米品種的產量。研究人員認為不同農場之間產量的差異可能會很大，故在7個農場的每一個農場都選擇了兩塊1英畝的土地隨機播種這兩種玉米。成熟時收穫玉米，試驗結果（以蒲式耳為單位）如下表所示：農場品種A 品種B 1 48.2 41.5 2 44.6 40.1 3 49.7 44.0 4 40.5 41.2 54.6 49.8 6 47.1 41.7 7 51.4 46.8 a.根據這些資料檢驗兩種玉米平均產量是否存在差異， =0.05。 b.估計兩品種玉米平均產量差的大小。 6.291醫學）論文"Fffect of long-term blood pressure control on salt sensitiviry"［Journal of Medicine（1997）28:147-156］的研究目的是評價經一段時期抗高血壓治療後，病人對鹽的敏感性（SENS）。經過至少18個月抗高血壓治療後，對其中10位高血壓病人（舒張壓在90至115mmHg之間）進行研究。記錄治療前後的 SENS 資料如下：病人治療前治療後 22.86：7.74 6.11 -4.02 15.49 8.04 9.97 1.44 3.29 -0.77 9.39 6.99 11.40 1.86 -6.71 6.42 10.19 2.09 11.40 10.70 a.是否有充分的理由證明經過治療後，平均SENS值下降了？ b.估計平均 SENS 值的變化量。 c.對於這些資料，應用！檢驗的條件是否滿足？並解釋之。 6.30（人力資源）假設我們要估計男女銷售代表平均月工資的差異。由於各公司間工資的差別很大，為消除這些差異的影響，僅對同一公司的男女代表進行對比。依據背景和工作經驗，從每個公司中選擇男女代表各一名。如果同一公司男女代表月工資的差異在300美元之內，為了估計男女平均月工資差異，試確定此研究所需公司的數量，使得95%置信區間寬度的一半為5美元。（提示：參考第5.3 節） 6.31 參看練習6.30。若n=35,2=120,sd =250，構造男女代表平均月工資差異wd的90%信區間。 6.32（教育）••項研究旨在衡量家庭環境對12歲兒童學習成績的影響。由於遺傳因素可能也會影響學習成績，因此，研究人員要對這一因素進行控制。找到

6.4 關於p142 的推斷：成對資料 • 335．了30對同卵雙胞胎，他（她）們在1歲生日之前就已被分別收養。其中一個雙胞胎所在的家庭重視學術，另一個雙胞胎所在的家庭則不重視學術。這60名學生的期末成績（百分制》如下。雙胞胎 1 2 3 4 5 6 8 10 11 12 13 14 15 重視學術 78 75 68 92 55 74 65 80 98 52 67 55 49 66 75 不重視學術 71 70 66 85 72 57 75 92 56 63 52 48 67 70 雙胞胎 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 重視學術 90 89 73 61 76 81 89 82 70 68 74 85 97 95 78 不重祝學術 88 80 65 60 74 76 78 78 62 73 73 75 88 94 75 a.根據計算機輸出結果，評價兩種家庭孩子的平均成績是否存在差異。 8.估計學術家庭和非學術家庭孩子平均成績差異的大小。 c.就這些資料而言，t檢驗的條件是否滿足？ d.在研究中，為了控制學習成績的變化，用雙胞胎做樣本是否比從兩種家庭中隨機抽取30 個孩子作為樣本更為有效？並解釋之。 Paired TTest and Confidence Interval Paired T Eor Academic-Nonacadenic N Hean StDer Academic 30 75.23 13.29 Nonacadenic 30 71.43 11.42 Difference 30 3.800 4.205 SE Mean 2.43 2.09 0.769 9'5 * CI for nean difference：（2.230, 5.370） T-Test of mean difference= 0 （vs not = 0）：T-value = 4.95 P-Value = 0.000 Two-Sample T-Test and Confidence Interval To-sample T for Academic va Nonacademic N Hean StDev Academic •30 75.2 13.3 SE Meen 2.4

•336• 第六章兩總體中心值的比較 Nonacademic 30 71.4 11.4 2.1 95 % CI for mu Academic-mu Nonacademic：（-2.6,10.2） T-Test mu Academic = mu Nonacademic （vs not=）：T=1.19 P=0.24 DF =56 T j -5 5 10 差異差異的盒形圖（H。和均值的95%t置信區間） 0.999 0.99 0.95 0.80 概 0.50 0.20 0.05 0.01 0.001 -5 0 5 10 差異差異的正態機率圖 6.5 非引數推斷方法：Wilcoxon 符號秩檢驗 Wilcoxon 符號秩檢驗利用配對觀察資料差值秩的符號和大小，提供了另外一種當差值分佈為非正態時的配對t檢驗。Wilcoxon 符號秩檢驗要求差值的總體分佈關於一個未知中位數M 對稱。令D。為 M 的一個給定的假設值。此檢驗是為了評價差值分佈的中心是在 D。的左側或右側；大多數情況下，D。為0。符號秩

6.5 非引數推斷方法：Wilcoxon 符號秩檢驗 •337• 檢驗的步驟如下： 1. 計算n對觀察值的差。 2. 將這些差值減去 Do。 3. 去掉所有0值，令n 表示非零值的個數。 4. 按從小到大的順序排列這些差值的絕對值，將它們賦予秩1，，n（若絕對值相等，則取平均鐵）。在敘述 Wilcoxon符號秩檢驗之前，先定義以下符號： -差值不為0的觀察資料對數 T+=正數秩的和；如果沒有正數秩，則T+=0 T.=負數鐵的和，如果沒有負數糕，則T- =0 T=T+稱T-中較小者 z（n +1）（2n+1） 9y= 24 如果我們將具有相同秩的差值分成一組，共有&組，則亇的方差為這裡t；為第；組中相等秩的個數。注意如果沒有相等秩，則g=n，並且，對所有組來說，均有t=1。於是，公式可簡化為好=nn+ 1k2n土12 Wilcoxon.符號秩檢驗步驟如下。 Wilcoxon 符號秩檢驗 Ho：差值的分佈關於 D。對稱。（D。給定，通常情況下為0。） Ho:1. 差值大於Do。 2. 差值小於 Doo 3.1或2為真（雙側Ha）。（≤50） T. S.：1. T=T-。 2. T=T+。 3. T=T+和T-中較小者。 R. R.：對於給定的a（單尾0.05, 0.025 或0.005；雙尾0.10,0.05， 0.02.0.01）和非零差值個數 n，如果T 小於或等於附表6中相應的信，則拒絕H。（n≥50）

• 338• 第六草兩總體中心值的比較 T.S.：計算檢驗統計基 T-n（n+12 4 z= n（n +.1）（2n+1） 24 R. R.：對於情形1情形 2，如果：＜—2a，則拒絕Ho：對於情形 3，如果z<-za2，則拒絕Eo 檢查假定，並得出結論。例6.8 某城市公園管理部門在20個不同壘球場地比較一種新配方的化肥A與以前使用的化肥B。每個場地分為兩半，隨機地選出一半施用化肥A，另一半施用化肥 B。每英畝場地施60磅化肥。用1個月後割下的草的重量（磅）來衡量兩種化肥對草皮生長的影響。試評價施用化肥A是否比施用化肥B產的草更多。資料列出如下。場地 6 7 8 9 10 A區 211.4 204.4 202.0 201.9 202.4 202.0 202.4 207.1 203.6 216.0 B區 186.3 205.7 184.4 203.6 180.4 202.0 181.5 186.6 205.7 189.1 差值 25.1 -1.3 17.6 -1.7 22.0 0 20.9 20.4 -2.1 26.9 場地 11 12 13 14 15 16 17 18 19 20 A區 208.9 208.7 213.8 201.6 201.8 200.3 201.8 201.5 212.1 203.4 B區 183.6 188.7 188.6 204.2 181.6 208.7 181.5 208.7 186.8 182.9 差值 25.3 20.0 25.2 -2.6 20.1 -8.4 20.3 -7.2 25.3 20.5 解答要評價施用化肥A是否比施用化肥B產更多的草。將20個場地內青草產量差值資料繪製成圖6.9（a）和（b）。可以看出，這些差值似乎並不服從正態分佈，而且形成了兩個不同的群。因此，我們用 Wilcoxon 符號秩檢驗評價因施化肥A 和化肥B所帶來的草產量的差異。零假設為差值的分佈關於0對稱，備擇假設為差值大於0，首先，我們必須將n=20-1=19個差值的絕對值從小到大進行排序。這些秩見表6.11。

6.5 非引數推斷方法：Wilcoxon 符號秩檢驗 • 339 -10 Ho 0 T 10 差值 20 （a）差值的盒形圖（H。和均值的95%：置信區間） 30 率概 0.999 0.99 0.95 0.80 0.50 0.20 0.05 0.01 0.001 差值 25.1 -1.3 17.6 -10 0 10 差值（b）差值的正態機率圖圖6.9 表6.11 草產量資料的秩差值絕對值的秩差值符號場地差值 15 1 7 正 4 -1.7 負 5 22.0 正 6 0 20 場地 1 2 3 差值絕對值的秩差值符號 2 8 無負正正

•340• 第六章兩總體中心值的比較場地 7 8 9 10 11 12 13 差值 20.9 20.4 -2.1 26.9 25.3 -1.3 25.2 差值絕對值的秩 13 11 3 19 17.5 1 16 差值符號正場地差值差值絕對值的秩差值符號 14 15 16 17 18 19 20 -2.6 4 20.1 9 -8.4 6 20.3 t0 -7.2 5 25.3 17.5 20.5 續表負正負正負正正正秩與負秩之和分別為 T-=1+2+3+4+5+6=21 T+=7+8+9+10+11+12113+14+15+16+17.5+17.5+19= 169 這樣，T，即T+和T-中較小者，就等於21。對於 =19,a=0.05的單側檢驗，根據附表6，若T 小於或等於53，就拒絕Ho。因此，我們拒絕Ho，並認為施用化肥 A 比施用化肥B帶來更高的草產量。選擇適當的配對樣本檢驗取決於偏離正態的型別不同。因為Wilcoxon 符號秩檢驗的水平並不依賴於總體分佈，對十所有的對稱分佈，其檢驗水平與給定的值相同。當總體分佈與正態分佈偏離太大時，配對！檢驗的水平可能會與給定的水平有所不同。同樣，我們需看哪一個檢驗的功效較大。下面我們將給出 Rangdles 和Wolle（1979）模擬研究的部分結果。所考慮的總體分佈包括正態分佈、均勻分布（短尾）、雙指數分佈（中等厚尾）和柯西（Cauchy）分佈（嚴重厚尾）。表6.12列出「5000次重複檢驗中拒絕H。的比例。兩個總體彼此平移量分別為0,0.40 和 0.80，其中。表示分佈的標準差。（若總體服從柯西分佈，則。表示刻度引數。）分佈平移 =10 #=15 n=20 表6、12 8=0.05 水平下配對1（）檢驗和符號秩檢驗（T）的經驗功效正態雙指數柯西均勻 0 0.48 0.&d D 0.4d 0.8a 0 0.4¢ 0.8a 0 0.4d 0.88 t T 0.049 0.330 0.758 0.047 0.374 0.781 0.028 0.197 0.414 0.051 0.294 0.746 0.050 0.315 0.741 0.048 0.412 D.804 0.049 0.332 0.623 0.049 0.277 0.681 T t T 0.048 0.424 0.906 0.049 0.473 0.898 0.025 0.210 0.416 0.051 0.408 0.914 0.047 0.418 0.893 0.050 0.532 0.926 0.050 0.423 0.750 0.051 0.383 0.852 0.048 0.546 0.967 0.044 0.571 0.955 0.026 0.214 0.433 0.049 0.522 0.971 0.049 0.5310.962 0.049 0.652 0.975 0.049 0.514 0.849 0.050 0.479 0.935

6.5 非引數推斷方法：Wilcoxon 符號秩檢驗 • 341 據表6.12，我們可以得出以下結論：對於均勻分佈和雙指數分佈，配對：檢驗的水平仍然接近0.05，但是對於嚴重厚尾的柯西分佈，檢驗水平比0.05 小得多。正如我們所預期的，對於所有四種分佈，Wilcoxon 符號秩檢驗的水平幾乎都是 0.05，這是因為Wilcoxon 檢驗只要求總體的分佈是對稱的。當分佈為正態時，在檢驗功效只比Wilcoxon 符號秩檢驗稍高一點。當總體分佈為短尾和均勻分佈時，配對：檢驗比 Wilcoxon 符號秩檢驗的功效稍高一點；此時，我們還看到，：檢驗的功效比起當總體服從正態分佈時的：功效值來稍微大一些。對於雙指數分佈， Wilcoxon 檢驗的功效略高於t檢驗。對於柯西分佈，檢驗的水平明顯偏離0.05，其功效也比 Wilcoxon 檢驗功效低。根據其他研究，如果差值分佈嚴重偏態時，名義上的：機率可能令人誤解。偏態對 Wilcoxon 檢驗的水平影響不大。雖然經過上述討論，你也許對在特定情況下，究競採用哪種統計檢驗和置信區同仍感到迷惑。首先，把資料繪製成圖，以確定總體分佈是嚴重厚尾還是嚴重偏態。在這種情況下，建議採用基於秩的 Wilcoxon 檢驗。如果從圖中難以看出它們的非正態性，建議兩種檢驗都試一下。如果不同的檢驗得到不同的結果，那麼認真檢查這些資料，找出任何特殊之處，想想為什麼會有不同的結果。如果兩個結論一致，並且所需條件沒有明顯地被破壞，你就應對你的結論非常自信。這個特殊的 “規避”策略不僅適用於成對資料而且適用於很多有若干種分析方法的情形。練習基本技能 6.33 題目參見6.29。 a.根據表中的資料，進行 Wilcoxon 符號秩檢驗。求p值並給出結論。 b.將此處的結論與練習6.29的結論進行比較。兩種檢驗法（t檢驗和符號秩檢驗）有區別嗎？應用 6.34 根據表6.12 中的資料回答下列問題。 a.樣本容量n對：檢驗的真實水平與給定值0.05的接近程度有影響嗎？ b.總體分佈形狀對：檢驗的真實水平與給定值0.05的接近程度有影響嗎？ c.總體分佈形狀對 Wilcoxon 符號秩檢驗的真實水平與給定值0.05 的接近程度有影響嗎？ d. 假設對一個嚴重右偏的資料進行水平為 0.05的檢驗，Wilcoxon 符號和配對：檢驗，哪一個的實際水平更接近0.05？並解釋之。 6.35（社會）進行一項研究旨在確定女性顧客的汽車修理費是否大於男性顧客。從電話簿中隨機選取10家汽車修理鋪。試驗中所用的兩輛車同車齡，同品

•342• 第六章兩總體中心值的比較牌，發動機故障也相同。對於每家修理鋪，將這兩輛車隨機分給男女兩個參加者，由他們將車帶至修理廠進行修理費用評估。修理費用（單位：美元）如下。修理鋪女性顧客男性顧客修理鋪女性顧客男性顧客 1 871 792 11 817 927 2 684 765 12 846 657 3 4 795 511 13 975 851 838 520 14 868 702 5 1,033 618 15 1,323 918 6 917 447 16 791 528 7 1,047 548 17 1,157 884 8 723 720 18 932 702 9 1,179 899 19 1.089 839 10 707 788 20 770 878 a. t 檢驗或 Wilcoxon 檢驗，哪種檢驗更適合於本例？為什麼？ b. 總的來看，女性顧客的修理費用是否比男性顧客高？a=0.05 j -100 0 100 200 差值 300 400 500 差值的盒形圖（對於 H。和均值的95%1置信區間） 6.36（生物）選擇14只狗進行一項試驗，以檢測苯丙胺對狗的心率（每分鐘心跳數）的影響。每隻狗以其自身作為對照。其中7只在第一個試驗期內服用苯丙胺，另7只服用安慰劑（鹽溶液）。服用兩小時後測量每隻狗的心率。此後兩週，這些狗不再服用苯丙胺或安慰劑。之後，為第二試驗期。將兩組狗所服之物互換，之前服用苯丙胺的現服用安慰劑，原服用安慰劑的現服用苯丙胺。兩小時後記錄心率。以下樣本資料不是按得到資料的順序，而是按服用藥物的種類列出。根據這些資料檢驗研究假設：服用苯丙胺組狗的心率分佈是服用安慰劑組狗的心率分佈的右平移。給定 a=0.05，進行單側 Wilcoxon 符號秩檢驗。

6.6 推斷pL 12 時樣本容量的選取 • 343• 率 0.999 0.99 0.95 0.80 0.50 - 0.20 0.05 0.01 0.001 -100 狗 1 2 3 4 5 6 7 安慰劑組 250 271 243 252 266 272 293 0 100 200 差值費用差值的正態機率圖苯丙胺組 258 285 245 250 268 278 280 狗 8 9 10 11 12 13 14 300 400 500 安慰劑組 296 301 298 310 286 306 309 苯丙胺組 305 319 308 320 293 305 313 6.6 推斷/1 2 時樣本容量的選取第5.3 和第5.5 節討論瞭如何選取樣本容董使得置信區間具有事先給定的寬度和r信水平，或者使得關於x的統計檢驗具有預先給定的水平aB。在獨立樣本或成對情況下，也可類似地選擇樣本容量對p1 M2進行統計推斷。透過解下列等式可得到樣本容量n使得基於獨立樣本條件下 1 2的100（1-a）%置信區間的寬度為2E。這裡，我們假定兩樣本容量相等。 suna米+ T=E

•344• 第六章兩總體中心憶的比較注意，在這個公式中。是總體的共同標準差，並且假定了樣本容量相等。獨立樣本下形如了1一$2土E的p1 442的100（1-a）%置信區間所需要的樣本容量（注意：如果。未知，則用其估計值來代替以得到近似的樣本容量。）用這個公式計算出的樣本容一般都是近似的，因為公式中總體的共同標準差。需用其估計值來代替。這個估計值可能是根據以前研究資料或根據總體值範圍的經驗得到的。利用下面的公式可計算給定a和B時p1-12 的單側和雙側檢驗所需的樣本容望。其中，當 ¥1-K2 ≥A時，我們期望水平a的檢驗犯第I類錯誤的機率 R I E2）≤B。獨立樣本下A1-42的假設檢驗所需要的樣本容量單側檢驗：1 =202（2。+xa）雙側檢驗：1=202（7el2+ g）這裡，71=n2=1，且當差的真價 AI—從2 ≥A時，犯第二類錯誤的機率≤B。（注意：如果。未知，則用其估計值來代替以得到近似的樣本容量。）例6.9 進行一項試驗旨在確定飼料中新增液體乳清對奶牛的影響。雖然吃標準飼料（7.5公斤穀物外加草料，草料的量為可選）加清水的奶牛與吃標準飼料加乳清的奶牛在產奶量上並無明顯差異，但他們食用的乾草量卻多少不同。我們檢驗零假設：兩組奶牛平均食用乾草量並無差異。對於a=0.05 的雙尾檢驗，若當 A1— 2 ≥0.5時，我們要求8≤0.10，求每組所需奶牛大約多少頭？根據以前試驗結果，d約等於0.8。解答根據題目，對於A=|M1 #2 ≥0.5,a=0.8，我們要求。=0.05, B≤ 0.10，附表1給出 z0.02s=1.96，20.10=1.28。代入公式可得： #~ 240.8）（1-20支1.28） = 53.75，或 S4 （0.5）2 這樣，為得到我們期望的檢驗，每組需要54頭奶牛。當樣本容不相等，即n1 2時，也可計算樣本容量。令12是11的加倍，

6.7 小結•345• 仍適用，只是將倍數2用（m+ 1）/m 代替，將用n1代替。解出加1後，可求出 #2 mn」o 例6.10 題目見例6.8。假定試驗人員希望得到飼料加乳清組（第口組）的資訊比飼料加水組（第1組）更為詳細。具體地，試驗人員希望第I組的奶牛數比第1組多 40%，即，12=1.4n1。其他條件同例6.9。解答在樣本容量公式中，用與 m =1.4 相應的值代替倍數2，可得 = （1.4+1）（0.8）2（1.95+1.28）2 （0.5）2 = 46.07，或47 也就是說，第I組需47 頭奶牛，第I組需1.4（47）=65.8，即66 頭奶牛。用第五章關於的公式可計算基於成對資料（差）來估計Pa和進行關於1a 的檢驗所需的樣本容量。惟一的不同就是我們所用的是差值的單樣本而不是y 值的單樣本。為方便起見，將公式給出如下。配對樣本下形如土區的 A2的100（1-8）%置信區間所需要的樣本容量（注：若od 未知，則用其估計值來代替以得到近似的樣本容量。）配對樣本下，一 2的假設檢驗所需要的樣本容量雙側檢驗：二9（a/2+3g）2 其中，若真正的差值pd≥A，則犯第I類錯誤的機率不超過B。（注：若od未知，則用其估計值來代替以得到近似的樣本容量。》 6.7 小結在本章中，我們討論了關於p1- 2 的統計推斷問題。第I類方法是基於來自我們感興趣總體的獨立隨機樣本。還學習瞭如何對樣本資料用！方法對從I一 x2 進行統計檢驗，或構造p4L¥2 的置信區間。Wilcoxon 鐵和檢驗不要求總體服

• 346• 第六章兩總體中心值的比較從正態分佈，可以用來代替＋檢驗。當樣本觀察值是成對資料時，可用第二種方法來比較兩總體。在這種情況下，我們不再有獨立隨機樣本，因此第6.2 和第6.3節中的方法（i方法和Wilcoxon秩和法）不再適用。成對資料的檢驗和估計是基於成對資料的差值或這些差值的秩。我們介紹了基於差的配對：檢驗和相應的置信區間，發現它們與第五章單樣本 t方法相同。Wilcoxon 符號秩檢驗是一個可以用來代替配對：檢驗的非引數方法。

第五章 關於總體中心值的推斷

第五章關於總體中心值的推斷