Homent.s 50 Sum Hgts Sum 0.949833 Variance 0.523252 Kurtosis P-value N Hean Std Der Skewnesa rest of Normality: Variable = RESIDUAL Sten Leaf 2 9 2 2 1 5 1 G0003 556679 0112233444 -0 -0 - 1 -1 444433321100 88765 4331000 98 -I+--- - + 50 o 0.902184 0.995801 0.6737 # 1 1 1 5 6 10 12 5 7 2 -- -+ Normal Probability Plot Boxplot ---+ + +--!1+ + 1--1+ 1 2.75+ 1.25+ -0.25+ -1.75+ * 十十++ 十十十十十 +*套大生十寅次大動十食* 青青北大實火女實女青* 雪青十火衡*有 *++ *++ -2 -1 +1 一一5 +2
9.9小結•505• 進行方差分析確定五種減肥藥間是否存在顯著差異,用a=0.05。有違反方差分析假定的現象嗎?您將得到有關使用這五種不同的葯劑導致平均體重降低的什麼結論? 9.8 參見練習9.7。從其中的計算機輸出,利用下列方法確定哪兩個組均值間存在顯著差異。 a.Fisher 的 I.SD,a=0.05 b.Tukey 的W,a=0.05 c.SNK 方法,a=0.05 9.9 參見練習9.8。對下列每一種情況,確定使用哪一個多重比較方法最合適。 a.研究者對錯判任何一組藥物差異顯著十分關心。 b.研究者十分關心在總體均值存在差異時,沒有將這組藥劑判為差異顯著。 9.10 參見練習9.7。研究者想知道哪一種新藥與標準藥相比能顯著地減少平均體重。判斷時使用 a=0.05。 9.11 參見練習9.7。假設減肥的形式如下: A_:藥物治療、鍛鍊及社會諮詢。 Az:藥物治療、鍛鍊及不社會諮詢。 As:藥物治療、社會諮詢及不鍛鍊。 Aa:藥物治療、不鍛鍊及不社會諮詢。 建立對照比較各藥劑均值以表述如下問題: 1.比較標準均值與四種藥劑均值的平均數。 b.比較包含社會諮詢的藥劑均值與不包含社會諮詢的藥劑均值。(忽略標準) c.比較包含鍛鍊的藥劑均值與不包含鍛鍊的藥劑均值。《忽略標準) d.比較包含社會諮詢的藥劑均值與標準藥劑均值。 9.12 參見練習9.11。利用某多重檢驗方法確定哪一個對照與零有顯著差異 (a=0.05)。針對研究者提出的尋找最有效的減肥辦法這個問題解釋您的結論。 9.13 參見練習8.20 2.與目前市場上四種牌子的香菸比較,新的品牌“低油”的平均焦油含量低嗎?a=0.05。 b.“低油”的平均焦油含量與四種牌子中每一種的平均焦油含量差異有多大? 使用95%的置信區間。 9.14 參見練習8.6。品種A與B種植在得克薩斯州,品種C與D種植在佛羅裡達州,品種E種植在加利福尼亞州。 #.得克薩斯州兩個品種的聯合平均產量與佛羅里達州兩個品種的聯合平均
• 506• 第九章多重比校產量相同瑪? =0.05。 b.得克薩斯與佛羅里達四個品種的聯合平均產量與加利福尼亞品種的平均產址相同媽? =0.05。 9.15 參見練習8.11。 a.將除草劑1與除草劑2的平均產量與對照處理對比,取 a=0.05。 b.(a)中的方法是單側的還是雙側的 c.解釋(a)中的結論。 9.16 參見練習8.16。 a.使用合適的多重比較方法比較三個分組的平均分數,取a=0.05。 b.從平均分數的差異中您能得到什麼結論?導致差異產生的分組的本質是什麼? 9.17(農業)用三個不同品種的根瘤菌接種紅三葉草,其氮含量如下: 30x1K1 19.4 32.6 27.0 32.1 33.0 3DOKS 18.2 24.6 25.5 19.4 21.7 20.8 3DOK7 20.7 21.0 20.s 18.8 18.6 20.1 21.3 2.從平均氮含量看,有證據顯示三種處理的效果不同嗎?完整分析資料並在此基礎上得出結論。a=0.01。 b.在(a)的分析中,有違反所需條件的證據嗎? 9.18(農業)科學家作了一項試驗用來比較對草種籽進行處理的三種不同方法:機械劃破種子表皮(ms),酸浸(ad),熱水泡(hw)。科學家150 個皮氏培養皿中每--個都入100 粒草的種籽。在這150 個培養皿中,隨機指定50個ms. 50個 ad,50個 hw。兩週後,科學家檢查了每一個器皿中的發芽率。 方法 mS ad hw, 平均發芽率 65.3 82.1 73.8 標準差 7.2 5.4 6.5
9.9 小結•507• 這些資料進行單問方差分析並得出結論,取¢=0.05。 9.19 參見練習9.18。利用SNK 萬法鑑別方法間的差異,總結您的結果。 9.20(環境) 為評價四種不同混合汽油的相對優點,研究者使用20輛相同類型,型號及馬力大小的汽車作了-項試驗,隨機指定5輛使用四種混合汽油中的一種。混合汽油的試驗資料概括如下。 混合:(村照) 2(對 +新增劑z) 3(對照+新增劑y) 4(對照+新增劑和y) 均值(英里/加侖) 26.2 28.1 29.6 38.2 標準差 4.3 5.6 5.1 7.3 分析並得出結論,取&=0.05。 9.21 參見練習9.20。考慮下列線性對照。指出每一種對照測量的意義。 3. 71=31+32.-$3.-34 9.22 結論? 9.23 利用 Schelfe 方法檢驗練習9.21中1,的顯著性,a=0.05。得出什麼利用 Schefte 方法建立練習9.21 中2,與2,的置信區間。得出僕麼結論? 9.24(善醫)研究者作了一項試驗用來研究三種藥物對控制拉布拉多獵狗肩部肌肉中的脂肪含量的效果。他們將80 只狗隨機分成四個處理組。A組的狗是控制組,在B,C及D組中每一組中的食物里加入三種新的犬惡絲蟲藥物之一。從四組中每一組隨機選取 10只狗接受從4個月到兩年長度不等的處理。測了肩部肌肉中脂肪含量的百分比並列在下邊。 處理組考察時間 4個月 A 2.84 2.49 2.50 B 2.43 1.85 2.42 C 1.95 2.67 2.23 D 3.21 2.20 2.32
•508• 第九章多重比較續表處理組考察時間 8個月 1年 2年平均 A 2.42 2.61 2.23 2.48 2.48 2.23 2.65 2.30 2.30 2.38 2.05 2.13 2.64 2.56 3.30 2.19 2.45 2.411 B 2.73 2.07 2.83 2.$9 2.53 2.73 2.26 2.70 2.54 2.70 2.81 2.70 3.24 3.71 2.95 3.01 3.08 2.694 C 2.31 2.53 2.32 2.36 2.46 2.04 2.30 2.85 2.75 2.62 2.50 2.59 2.90 3.02 3.78 2.96 2.87 2.605 D 2.79 2.94 2.45 2.49 2.95 2.05 2.31 2.58 2.73 2.65 2.84 2.92 2.91 2.89 3.21 2.89 2.68 2.698 假設滿足方差分析的要求,研究者接著進行方差分析來評價四種處理下狗的脂肪含量的平均百分比的差異。方差分析中的計算沒有考慮藥物的時間長短。方差分析表如下。 來源處理誤差總和 d 3 76 79 S5 1.0796 9.0372 10.1168 MS 0.3599 0.1189 F比 3.03 p值 0.0345
9.9小結 • 509• 8.四個處理組中平均脂肪含量存在顯著差異嗎? b.三個經犬惡絲蟲藥物處理的組中有沒有哪一組的平均脂肪含量比控制組高? 9.25 參見練習9.24。假設研究者推斷新藥導致脂肪含量提高且隨者對狗用藥時同的增加脂肪含量也在增加。怎樣利用已知資料解決這個問題? 9.26(醫學) 文章"The Ames Salmonel/microsome mutagenicity assay: Issues of inference and validation” (1989, Journal of American Statistical Association (美國統計學會雜誌),84:651 -661)討論了化學誘因突變對人類健康的重要性及導致初生玻(基)斑岩化驗誘變的生理基礎,艾姆斯氏沙門氏菌/微粒體化驗。在艾姆斯氏試驗中,從單個樣本中獲得的變數是分佈大約108個細菌的可見菌落的數量。艾姆斯氏試驗的一般協議包括某控制劑量下的多個樣本及四或五個對數等距劑量的試驗化合物。每個劑董取20個樣本進行試驗得到資料如下。劑量水平為毫克/樣本。 劑量控制 11 0.3 39 39 42 1.0 可兜蘱落數 15 15 16 17 17 18 18 19 20 21 22 23 25 27 43 46 50 50 50 1$2 52 52 55 61 62 63 67 70 92 102 104 104 106 109 113 117 117 119 119 120 120 121 122 130 133 3.0 222 333 251 251 253 255 259 275 276 283 284 294 299 301 306 312 315 323 337 340 10.0 $62 S87 595 604 623 666 689 692 701 702 703 706 710 714 733 779 763 782 786 789 17.8 17.5 51.7 81.D 110.9 17$.4 283.5 1131.5 692.3 4584.4 我們想確定隨著劑量增加平均的菌落數是否也有增加的趨勢。得到結論的一種方法是使用一個對照,其常數a:由下列方法確定:假設處理水平是連續變數的, 零,那麼我們說 pA;同存在正增長趨勢。如果1與零有顯著差異且小於零,那麼我們說p;同存在負增長趨勢。此試驗中,劑量水平是處理r1=0,22 =0.3,zs= 1.0, 4=3.0, xs=10.0,其均值為 =2.86。因此這個對照中的係數是a1=02.86=-2.86,a2 =0.3-2.86=-2.56,43=1.0-2.86=-1.86,44=3.02.86=+0.14,as=10.0-2.86=+7.14。我們因此蕭要評價下列均值同的對照 -2.86y-2.56J0.3-1.8691.0 +0.1473.0 +7.14510.0 的顯著性。如果此對照與零有最著差異且大於零,那麼我們說劑量均價間存在正增長趨勢。 1,檢驗劑量均值同是否存在正增長趨勢,取a=0.05。 b.是否有違反(a)中進行檢驗所需必要條件的證據呢?給出一種方法使我們能夠正確檢驗是否存在正的趨勢。
•510• 第九章多重比較 9.27 在評價面試者的決定與應試者殘疾型別有關的案例中,評定人員是70 名在校大學生,在所有工作面試的錄影帶中申請工作者及面試者都是同樣的男演員。 8.這項研究中使用在校大學生作為計算機銷售職位申請者的資格的評定人員,試討論其缺陷。 b.在所有的五盤面試錄影帶中使用相同的兩個演員,試討論其正負面。 c.討論不改變申請老尋求工作種類的侷限性。 9.28(醫學) 論文“The effect of an endothelin-rcceptor antagonist, bosentan, on bioxod pressure in patients with essential hypertension ”(“內層神經末梢對抗劑 bosentan 對原發性高血壓病人的血的效果")(1998,The Neve Exgland Journal ofMeditine(新英格蘭醫學雜誌),338:784-790)討論了 bosentan 對調節原發性高血壓病人的血壓的貢獻。243名患有輕度到中度原發性高血壓的病人參加了這項研究。在運用一段安慰劑後,隨機選擇患老口服四種劑量(每天100毫克、500 毫克或1000毫克,或每次 1000毫克且每天兩次)之一的 bosentan或安慰劑。在治療開始前及治療4周後分別測血壓。研究從起點到終點反映了從治療前的基線到經過4周治療後血壓水平的變化。下表中列出了資料的統計基。 安慰劑 100mg 血壓的變化 $00mg 1,000mg 2,000mg 舒張壓均值標準差收縮壓均值標準差樣本容量 -1.8 6.71 -2.5 7.30 -5.7 6.71 -3.9 7.21 -5.7 7.30 -0.9 11.40 45 -2.5 11.94 44 -8.4 11.40 45 -10.3 11.8 -10.3 11.94 b a,在哪一個水平上,與安慰劑相比,舒張壓有顯著的下降?取 &=0.05。 b.在此項研究中,為什麼使用對照(控制)處理是很重要的? c.忽略安慰劑,只用其餘的四個劑量,構造一個對照,檢驗當劑量增加時,收縮壓的下降量是否有線性增長的趨勢。建立對照的方法見練可9.26。 d.取 a =0.05,對於四個治療劑量,用SNK 方法檢驗平均收縮壓下降的兩兩差異。 e.研究人員稱他們的試驗為雙盲試驗。解釋這個名詞的含X。
第十章型別資料 10.1 10.2 10.3 10.4 10.5 10.6 10.7 10.8 10.9 引言和案例總體比例 TT的推斷兩總體比例之差T1一T2的推斷多比例的推斷:卡方擬合優度檢驗 Poisson(泊松)分佈列聯表:獨立性檢驗和齊性檢驗相關程度的度量機率和優比小結:. .” 10.1 引言和案例直到現在,我們一直關心的樣本資料主要是定甘資料。然而,我們有時會遇到這樣的情況,其中要考察的變數所取水平只能以名稱或等級表示,並且我們感興趣的是在觀測中每一水平出現的次數。透過對這種型別變數觀測所得到的資料被稱為型別資料或計數資料。例如,裝配線上的產品可以劃分為三個質量等級:可接受,二等品,拒絕。同樣地,研究交通問題需要知道沿著某一主幹路進入城市的通勤者所使用交通工具的型別和數。研究汙染問題的人或許關心從湖裡取出的樣品中有多少種藻類以及每一種藻類出現的次數。消費者保護組織關心處方收費調查的結果,以比較大城市不同地區藥物清單上的價格。 本章,我們將介紹基於型別資料的推斷方法。 累例:特許專營權的擴大以及專營店位置的選擇某汽車旅館連鎖店的總經理準備作出一項決定,要在四家集團公司中選擇一家,給子他們特許專營權,以便在快速增長的“邊緣城區”(辦公和購物非常集中的郊區)開設一家新的汽車旅館。總經理要求對四家集團公司新近開設的旅館進行一次調查,以比較他們的顧客滿意程度。 資料收集方案的設計四家公司都在這一地區開設了其他氣車旅館,因此,連鎖店要求得到這些旅館過去顧客的地址,以便將顧客滿意問卷調查表郵寄給他們, 從而收集顧客滿意情況的資訊。本來,可以把四家公司最近對各自的旅館所進行的調查的分析結果作為進一步分析的基礎,然而,這四家公司在調查過程中所提問題的形式和措詞有很大不同。這使得資料分析變得不太可能,因為資料不一致。
• $12• 第十章型別資料問卷應被周密地設計,以調查顧客就其所住四家公司的汽車旅館中對每個旅館的滿意情況。總經理所關心的兩個關鍵問題應該是顧客對硬體的質量(如房間、委廳、健身設施等)的評價和對服務質量的評價。顧客對兩個問題的評價都使用5分制,1表示最差,3表示中等,5表示優秀。基於假設檢驗的功效和置信區間估計的精度所需的樣本容量,應該從每家公司抽取至少100名顧客。但是,由於問卷的預計回收率僅為20%,因此,應從每家公司至少抽取500名顧容,並郵寄問卷。 資料的整理和分析當然,總經理願意將特許專營權授予獲得最佳評價結果的公司。由於和這四家公司所達成的財務安排很相似,因此決定主要將依賴於這個評價的結果。總經理認識到,抽樣調查只覆蓋一小部分顧客。然而,抽梯調查能夠最公正地得到連鎖店顧客對四象相互競爭的公司進行評價的資訊。 總經理並不能肯定是強調對硬體質量的評價,還是強調對服務質量的評價。 另外,是對所有等級都進行比較,還是隻樂中在平均中等以上的等級(4或5)。 將調查問卷的結果歸納成下面兩張表,一個是對硬體質量的評價結果,一個是對服務質量的評價結果。總經理要求你分析評價結果,並對四個公司進行排序。 他擔心僅調查這麼一小部分顧客如何能精確地估計出所有顧客對汽車旅館的評價情況。本章所介紹的方法將能夠使你回答總經理提出的問題。 案例中硬體等級的頻率公司等級 1 2 3 4 5 總和 G1 11 10 51 30 22 124 案例中服務等級的頻率 G2 8 6 50 41 29 134 G3 15 18 42 26 16 117 G4 6 5 38 40 40 129 總和 40 39 181 137 107 $04 公司等級 1 2 GI 15 18 G2 16 21 G3 23 17 G4 11 18 總租 65 74
公司等級 3 4 5 總和 Gl 36 29 26 124 G2 31 35 31 134 10.2 總體比例的推街 •513• G3 33 21 117 G4 24 33 43 129 續表總租 124 118 123 504 10.2 總體比例×的推斷在第四章討論的二項試驗中,每次試驗只可能有兩個結果,記為“成功”和“失敗”。我們令x 為成功的比例,1 為失敗的比例。記y為n次重複試驗中成功出現的次數,則y的機率分佈為我們通常直觀地選擇二項分佈引數元的點估計。某總體中被歸類為成功的個體所佔的比例為不,從該總體中隨機抽取容量為n的樣本,則引數不的最佳估計為樣本中成功個體的比例。記y為,次觀測中成功出現的次數,則梯本比例為 *-= 在4.12 節,我們看到 y具有丘形機率分佈,且當 n≥ min(x,1-n) (或等價地 n≥5,n(1-)≥5) 時,y的機率分佈可以用正態分佈曲線來近似。 同樣地,元=y/n的分佈也可用均值和標準差分別為有下式給出的正態分佈來近似。 眾的均儃和標準誤差 M= 用正態分佈近似;分佈所需的條件和用正態分佈近似y分佈所需的條件相同。實際上,當,很大時,y分佈和;分佈的正態近似程度更高。因此,本章中, 我們將假定元分佈能夠用正態分佈充分地近似,並且將統計推斷建立在以前正態分佈的研究結果上。
•514• 第十章型別資料我們能夠用第五章估計的方法估計的置信區間,只要用代替, 代替 ay即可。這樣,二項分佈引數的100(1- a)%置信區間如下。 的置信區間,置信係數(1 a) 其中例 10.1 在研究新的治療方法用以治療癌症病人的過程中,研究人員通常要評價新療法的有效性,為此,他們要報告所有經過新方法治療的病人中能夠存活一定時間的病人所佔的比例。用一種新的基因上程的方法對870位患有某種癌的病人進行治療,結果經過治療以後,有330位病人至少存活5年。利用90%置信區同,試估計在經過基因方法治療以後,所有患有這種癌的病人中能夠至少存活5年的病人所佔的比例。 解答根據這些資料,得 330 *=870 = 0.38 50.38)/0.62) = 0.016 870 本例的買信係數是0.90。在第五章中,我們透過查附表1 對應於面積 a/2的 x 值,得xa/2。由於置信係數為0.90,從而得對應於面積0.05 的z價是1.645。 因此,在經過基因療法治療以後,所有患有這種癌的病人中能夠至少存活5年的病人所佔比例的90%置信區間為 0.38 土1.645(0.016)或0.38土0.026 假定n充分大,那麼,根據二項分佈的正態近似可得到x的置信區間。我們規定 n 和n(1)至少應等於5,但是未知引數,所以,我們通常要求nox和 3(1一升)至少為5。當樣本容量太小,從而違反了這一規定時,置信風同往往太寬以至於失去意義。例如,n=20, =0.2並不滿足規定,因為n =4。由這些資料所得的置信區間為0.025< <0.375,該區間沒有實際意義。如果預計的市場份額增加在0.025到0.375之間,那麼,很少有生產經理願意推出新產品。 當n非常接近於0或1時, 的估計會出現另外一個問題。在這種情況下,除非樣本容甘非常大,否則,相應的總體比例通常被估計為0或1。這些估計沒有實際意義,因為這將表示總體中要麼沒有“成功“,要麼沒有“失敗”。正因為如此,在
10.2 總體比例的推斷•515• 對x進行估計時,不用前面所給的元計算公式,而是對此作適當調整,以避免估計太極端。其中一個調整如下: 3 當 =0時,不A好 (n+’ (n+匙 (n+)。 升 =0或y=3的情況下,求的置信區間時,利用正態近似得到的置信區間將無效。我們用下面的置信區間,他們是根據一項分佈推導的。 當 =0時,置信區同為(0,1 (a/2))。 當時,置信區間為((a/2),1)。 例10.2 一種PC作業系統被研製出來。設計老聲稱新系統能夠和幾乎所有的目前運行在 Microsoft's Windows作業系統上的計算機程式相容。隨機抽取50 個程式, 將其在新作業系統上執行,結果無一出錯。試估計,其中表示所有 Microsoft”s Windows相容程式中,在新作業系統上執行而不出差錯的程式所佔的比例。計算 x的95%置倍區間。 •:… 解答如果我們用x的標準估計,那麼,我們將得到 50 50 = 1.0 因此,我們得出結論:100%的Microsoft's Windows 相容程式都可在新作業系統上執行而沒有任何改變。這個結論正確嗎?討能不正確,因為,我們只調查了一小部分 Microsoft’s Windows 相容程式。因此,我們將使用調整的估計量和置信區間。 點佔計為 3 1+ 8 n+ 3 4 (s0 + 3 = 0.993 的95%置信區間為 ((a/2)1/m, 1) = ((0.05/2)1/50,1) = ((0.025)0.02,1) = (0.929,1.0) 從而,我們得出結論:我們有相當的把握(95%)相信所有Microsoft’s Windows 兼容程式中,能夠在新作業系統上執行而不出差錯的程式所佔的比例很高(92.9%到 100%)。
•516• 第十章型別資料然而,必須記住,樣本容量充分大並不能保證區間將帶來多少資訊。它只是判斷用正態分佈近似二項分佈的充分性,這乃是確定置信水平的基礎。 估計x 時樣本容量的計算非常接近於推斷p時所介紹的樣本容量計算方法。 為了使的100(1-a)%置信區間估計為元土區(其中E是事先給定的),所需樣本容基可透過求解下面方程得到,即n滿足 2Q/20=E 解得結果如下。 x的形如土E 的100(1-0)%量信區間所需要的樣本容量注:由於未知,因此,要麼根據經驗豬測一個值,要麼取 =0.5。若取 = 0.5,則對於寬度為2E 的置信區間,這將得到最大可能的樣本容植,因此,產生一個樣本容量的保守估計。 例10.3 某一大的公眾民意調查機構打算進行一項全國性的抽樣調查以估計在職成年人中擔心下一年會失去工作的人所佔的比例。該機構必須調查多少名工人才能得到95%置信區同的精度在0.02以內? 解等根據設計,該機構想要的區同形如開士0.02。為了取得這一精度,樣本容量應為其中 0/2=1.96,E=0.02。如果前一次調查是最近做的,那麼,我們就用前一次調查的樣本比例代替x;否則,取 =0.S。若取*=0.5,則所需樣本容量為 (1.962(0-5)(0.52 = 2.401 (0.02)2 即,必須調查2,401名工人才能使得T 的估計精度在0.02以內。 關於二項分佈引數*的統計檢驗非常類似於第五章所介紹的總體均值的大樣本檢驗。將這些檢驗小結如下,其中有三個備擇假設以及相應的拒絕域。記住: 對於某一具體問題,僅選擇其中一種備擇假設。 x 的統計檢騙小鋪,不。已知 Ho: 1. Smo Fa:1. 2 o 2.#≥0 2.*< 0 3. 三T 3. 千 0
10.2 總體比例的推斷,517• i T.S.:x= 六一7! K. R. I:對於第-類錯誤機率 a 1. 若z≥2,則擔絕Hoo 2. 若 z<ze,則拒絕 Ho。 3.若|2|≥2a/2,則拒絕H0o 注:在 Ho假設下,玩= 驗證假定,並作出結論。 0(L 02,同時 n必須滿足 7o≥5和 (1-70)≥5。 例 10.4 某小鎮上的跑車車主抱怨州機動車檢測站根據與家庭型轎車不同的標準來檢測他們的車。以前的記錄表明30%客車第一次不能透過檢測。隨機抽取150部跑車進行檢測,其中有60部未能透過檢測。是否有充分證據表明跑車的首次不通過率高於客車?給定a=0.05。 解答合適的檢驗方法如下: Hn:7≤0.30 Hu:t≥0.30 T.S.:x= 一型 R.R.:對於 a=0.05,若z≥1.645,則拒絕 Hoo 利用樣本資料,得 -~048-320.7-0.087 並,n0= 150(0.3)=45≥5 #(1- 70) = 150(0.7) = 105≥5 檢驗統計量 x= 2.4-0.3=2.70 0.037 出丁x的觀察值超過1.645,因此我們得出結論,認為機動車檢測站檢測的跑車, 共第一次不透過率大於0.3(p債=0.0035)。然而,我們必須謹慎一些,不要把這種不同歸因十跑車和家庭型轎車的檢測標準不同。為了更好地找出跑車第一次不透過率較高的原因,我們也需要進行平行的假設檢驗,以考察跑車和其他型別轎車之間是否存在差異。 大多數計算機程式包並不包括這種檢驗。然而,透過編碼,將波功編為1,失
• 518• 第十章型別資料敗編為0,我們就能近似地進行這種檢驗。如果程式包中包含z檢驗,那麼這個方法就奏效。令a等丁/(xo)(1-*a)。如果程式包中包含一個單樣本的:檢驗, 那麼結果將有所不同,但往往有足夠的近似程度。例如,假定我們要比較兩種款式的產品。我們隨機抽取100名潛在的消費者,他們需要在新舊款式中進行選擇。 只有在有充分證據表明大多數消費者寧願選擇新款式的情況下,廠家才願意推出新款式。因此,我們取零假設為 Ho: ≤0.S,備擇假設為 Ho: ≥0.5。如果100 名消費中有68 名寧願選新款式,那麼,我們就能利用 Minitab 軟體進行:檢驗和近似的:檢驗。為此,我們在標有“Yes-No”的列中輸入68個1,32個0。於是,得到如下 Minitab 結果;注意:我們已經給定8=V(To)(1-mo)= V(0.5)(1-0.5)=0.5。 MTE>zrest.5.5 'Yes_Ro'; SUEC> Alternative 0. Z-Test Test of mi = 0.5000 vs mu not = 0.5000 The assuned sigma = 0.500 Variable YesNo 100 Mean 0.6800 MTB> TTest 0.5 Yes_No: SUBC >Alternative O. T-Test of the Mean Test of mu= 0. 500 vs mu not = 0.5000 Variable Yes-No N 100 Mean 0.6800 StDev 0.4688 SE Mean 0.0500 Z 3.60 P-Value 0.0003 StDer 0.4588 SE Mean 0.0469 『3.84 P-Value 0.0002 這種≥檢驗方法的結果和我們透過手工計算的結果一模一樣。!檢驗方法的結果就不完全一樣,主要是因為該方法使用樣本標準差而不是/(To)(1 n)。
10.2 總體比例r 的推斷 • 519 然而,結論相同,即:由於盧值很小,因而強烈支援研究假設。雖然,基於1和0的 t檢驗和x 檢驗並不十分相同,但是,一般情況下,這兩種結果是如此相同,以至於我們不必太擔心它們之間的差異。 我們說不的x檢驗是近似檢驗,且當,很大, 0並不太接近於0或1時,這種近似的效果很好。接下來,一個白然的問題就是:我們什麼時候使用它?回答這一問題冇好幾條規則:沒有哪個規則是不可冒犯的。很多研究表明:如果 n.ro或 *(170)小於2,那麼z檢驗的結果值得懷疑。如果 3TI 和n(1-To)至少為5,2 檢驗基本上是精確的。當樣本容廿一定時,和ro適中如0.05或0.10時的&檢驗相比,當ro取極端值(如0.001)時的檢驗精確度較差。例如,37o=1.2時的 Ho: 0.0001 檢驗比 nTo=50 時的Ho: =0.10 檢驗更令人懷疑。如果問題很關鍵,解釋結果時最好有所保留,或者使用更精確的檢驗方法(見 Conover,1999)。 練習基本技能 10.1 設想一來白十二項試驗的樣本, =150,元=0.2。 a,該試驗是否滿足基於,的r罵信區間對樣本的要求?給定同樣的樣本比例,那些樣本容過值得懷疑” b. 構造n 的90%置信區間。 10.2 在什麼條件下,能夠用公式六土2。/20 算的置信區? 10.3 從二項分佈總體中抽取容為1,500的隨機樣本。如果有 y=1,200 次成功。 2. 構造的95%置信區間。 h. 構造的90%置信區間。 10.4 參看練習10.3。為什麼在解釋兩胃信區間時會有差異? 應用 10.5(社會)專家預測今年12個鉸接車零件中有1個與事故有關。其中一個理由就是3個鉸接車零件中有1個有緊總危險機械問題(imminently hazardous mechanical condition),這很可能與機動車了:的剎車系統有關。隨機抽取50個餃接車零件,經過評估站測試,其中19個零件存在潛在的嚴重剎車系統問題。 a.二項分佈假定成立嗎? b.能否用正態分佈近似二項分佈來得到x的置信區間? c•用這些資料給出x的95%信風間。該區間有用嗎?假定元保持不變, 如何減小置信區間的寬度?
• 520• 第十章型別嫩!i: 10.6(心理學)在自我療法實踐的研究中,隨機抽取 1,230名成年人。下表列出了進行自我療法的成年人的身體狀況。針對每一狀況,用95%置信區間對這部分調奇作一小結。 身體狀況喉曨疼.—木感冒灼傷- -非陽光灼傷嗜酒超重因外傷疼痛家庭治獰鹽水或碳酸氫鈉漱口冷水或黃油自釀飲料節食熱敷或冷敷響應百分比 30 28 25 22 21 10.7(心理學)在練習10.6 討論的抽樣調查中,441 名成年人報告最近他們有過咳嗽或感冒,260名被調查者說他們使用過某-種直接面對顧客的藥物 (OTC,over-the-counter)進行治療。資料如下。 報告有過問題的人數用過某種 UTC治療的病人數用過特定種類 ODTC 治療的病人數: 成人止疼藥成人感冒膠囊/片咳嗽藥過敏/化粉熱約物液體冷凍劑噴霧或吸入器凡童止疼葯止咳藥片潤喉糖/口香糖兒童感冒膠袋/片滴鼻藥水胸部按摩/藥持脒醉喉嚨糖室內加溼器其他產品 441 260 110 57 44 9 35 4 22 13 9 13 4
10.2 總體比例xt 的推斷•521• a.你如何整理和分析這些資料?可以用百分比嗎?百分比相加等於100% 嗎?為什麼? b.根據這些資料,你能夠用x的95%置信區同分析那些種類的OTC? 10.8(醫學)許多40 歲以上的人養成了對牛奶和奶製品的不耐性。奶製品廠開發了一系列不含乳糖的產品,該產品對這些人來說是可接受的。為「評價這些產品潛在的市場,奶製品廠委託一市場調研機構對其銷售區域40歲以上的成年人進行調查。隨機調查250名顯示其中有86 名遭受牛奶不耐性的痛苦。根據這些樣本資料,計算牛奶不耐性人總體比例的90%置信區問,並解釋之。 14.9(社會學)在去年4月15日前不久,一隊社會學家進行了一項調查,旨在研究他們的理論,即騙稅者通常抱有某種想法以減輕他們的負罪感。調查隊訪問了500名成年人,要求他們回答,在什麼情況下,他們認為所得稅納稅申報表的欺騙行為是正當的。應答情況包括: 56%同意“其他人不報告他們自己的收入。” 50%同意“政府通常並不在意稅金。” 46%同意“如果一個人通常是遵紀守法,那麼,騙稅並不是一件嚴重的事。” 假定資料是來自於納稅人(或非納稅人)總體的一個簡單隨機樣本,分別計算同意每一觀點的總體比例的95%置信區間。 10.10(民意調查學)國家級專欄作家最近報告了關下婚姻家庭的抽樣調查結果,下面對專欄的--部分作一解釋。 婚姻的構成要素蓋洛普提供給被訪問者-個單子,列有眾所周知的婚姻構成要素。比如在美國,像信仰相互尊重和相互理解被排在第一位。排在其次的有足夠的錢,同樣的背景,好的居住條件以及政治上的一致性。75%的被訪者投票給“和諧的性生活”, 59%給孩子,52%給共同興趣,48%給“遠離姻親生活”,43%給“分擔家務”。(在西德,形成對照的是,只有52%投票給和諧的性生活,只有19%給分擔家務。) z.你如何用圖或表展示調查結果? b. 你如何利用置信區間傳達更多關於“對”的百分比的資訊,以表達對各種婚姻構成要素的觀點?為什麼? c.你對調查的報告方式還有什麼疑慮? 10.11(教育)據由國家科學基金會和賓夕法尼亞州立大學共同組織的國家科技掃育會議上的專家指出,美國人口中有相當火一部分人是“科技文育”。在這次會議上,一份對全國範圍內的2,000名成年人的調查結果顯示: • 70%不知道放射物。 •40%認為發射太空火箭會影響天氣,且不明飛行物確實是來自其他星球的訪問者。
• 522. 第十章型別數掘 •80%以上並不知道電話是如何工作的。 •75%並不完全「解計算機軟體。 • 72%不知道國民生產總值。 a.你如何用圖或表展示這些資料?並畫出這些圖或表。 b,許多報紙上報道調查結果的文章在給出結論的同時並沒有為讀者提供詳細的細節以便讀對資料進行評價,得出不同的結論。對於你為了得出自已的結論,這裡遺漏了哪些細節? 10.12(商業)某五金批發商的銷售經理發現以前500次給五金店業主的電話中有229次導致了五金店內新的產品佈局。假定500次電話表示一隨機樣本, 求從長期來看,新的產品佈局次數比例的95%置信區間。 10.13 就練習10.12所求出的置信區間,給出詳細的口頭解釋。 10.14[商業〕 作為市場調研的-部分,在125人的樣本中,有84人知道某一產品。求總體中知道該產品的人所佔比例的95%買信區間,並解釋之。 10.15 練習10.14中的置信區間所依賴的正態近似充分嗎? 10.16(社會)在某大公司40位中層經理的樣本中,我們發現其中有8位積極參加當地的市民組織或慈善組織。求所有中層經理中積極參加這類組織的經理所佔比例的90%置信區間,並解釋之。 10.171社會)和1978年相比,現在越來越多的人在外面用餐—根據全國性抽樣調奇的說法。下表列出了一些調查資料。 2.如果這些資料是建立在1978年和現在1,500名成年人的隨機樣本上,那麼,對於每餐,我們能得出什麼結論?二項分佈的正態近似在這裡有效嗎? b.根據這些資料,我們能得出現在有更多的人在外面用餐嗎?為什麼? 外面就餐早餐午餐晚餐 1978 3% 18% 16% 1一現在 5% 20% 16% 10.18(醫學)良性黏膜囊腫是上顎骨處一對瘻管上最常見的病變。在800 名男性中,有35人被觀察出患有良性黏膜囊腫。 a.在實施關丁零假設 Ho:*≥0.096(在以前對男性進行的研究中,這是最高的發病率)的統計檢驗中,用正態近似合適嗎?試解釋之。 b.對研究假設 Ha: <0.096作統計檢驗,給定a =0.05。 10.19(民意調查學)全國性民意調查要求隨機訪問至少1,500人,瞭解他們
10.2 總體比例x的推斷•523• 對一個或多個問題的觀點。這些訪問通常都是當面進行的,因為使用郵寄方式的問卷回收率較低,而電話訪問往往訪問到的都是年紀較大的人,從而結果有所偏離。假定隨機抽取1,500人,得到成年人群體中同意最近提出的能源保護建議的人所佔的比例。 .如果560 人贊成當局公佈的政策,試用95%骨信區間估計,即持贊成觀點的成年人的比例。信區間寬度的一半為多少? b.必須調查多少人才能使得的95%置信區間寬度的一半等於0.01? 10.20(環境) 為了估計某湖中汞含量超過9(ppb)個單位的小龍蝦所佔的比例,研究人員從湖中隨機撈取20只各種尺寸的小龍蝦。在這一樣本中,有8只小龍蝦汞含量超過9個單位。利用這些資料估計x的95%世信區間,並解釋之,其中為該湖中汞含量超過9個單位的小龍蝦所佔的比例。 10.21 用計算機程式模擬 * =20, =0.4的二項分佈。為此,需要獲得2 值,其中為當樣本來自於 =0.4的二項分佈時,20次試驗中成功的次數。再重復該模擬 39次,得到總共40個模擬樣本。 a.用頻率直方圖將樣本資料(值)作圖。 b.計算樣本均值和樣本標準差。將你的答案與»的真正均值和標準差進行比較。(提示:為了說明,這裡給出了一個 Minitab 程式。) 40 BINOMIAL, EXPERIMENTS WITH n = 20 AND P(SUCCESS)= 0.4 HTB > NAME CI VALUE MTB >RANDOM 40 C1 SUBC> BINOMIAL 20 0- 4 HTB>TALLY C1 VALUE 4 5 6 7 8 9 10 12 COUNT 3 3 5 6 6 9 4 1
• 524. 第十章型別資料 13 16 N# 2 1 40 HTB 2HLSTOGRAM CI Histogran of VALUE N = 40 Midgoint 4 5 6 8 9 10 11 12 13 14 15 16 Count 3 3 5 6 6 9 4 0 1 2 *** 水** **來水* **水* ** 水 * **** **** **水* * * * 0 1 * MTB>MEANC1• MEAN 6.0500 HTB > STANDARD DEVIATION C1 ST. DEV 2.5615 HTB> STOP 10.22 參看例 10.3。假定出最近的調查得衣=0.15。利用這一猜測出來的值代入樣本容量公式進行計算。試解釋你的答案和例10.3的答案之間的差昇。 10.23(工程)某製藥公司一直在探究給醫院職工提供一次性小藥水瓶的可能性,這種藥水瓶可以被用來作很多標準的實驗室分析。對於某種分析,如血糖分析,技術人員往相應的小約水瓶裡注人一定望的血液,當和事先放在瓶中的化學物
10.3 兩總體比例之差不 72的推斷•525• 質充分混合時,觀察其顏色。透過將混合液體的光密度(optical density)和色碼圖表比較,技術人員就能讀出病人的血糖水平。顯然,系統必須被嚴格控制,確保小瓶在被運到醫院實驗室前,將適當量的化學物質正確地密封在瓶中。從好幾幹瓶的•批產品中隨機抽取100瓶,發現所有這100瓶中化學物質的劑正確,且被正確地密封。 a.估計該批小藥水瓶中次品的比例。 b.構造該批小藥水瓶中次品比例的99%骨信區間。 c製藥公司聲稱每批小藥水瓶中次品比例不到1%。利用(b)中的置信區間檢驗製藥公司的說法。檢驗的置信水平是多少? 10.3 兩總體比例之差 T1 T2 的推斷很多實際問題都牽涉到兩個二項分佈引數的比較。社會學家也許希望比較代表不同社會背景的兩個社團中接受產前服務的婦女所佔的比例。銷售主管希望比較公眾對其新近推出的新產品和對其競爭廠家產品的認知程度。 為了進行這種比較,我們假定獨立地從兩個二項分佈總體中共抽取兩個樣本, 且一項分佈的引數未知,分別記為 *」和720如果由來自於總體1容量為71的隨機樣本觀測到y1次成功,來自於總休2容為72的隨機樣本得到y2次成功,那麼,不1和 T2的點估計分別為觀測到的樣本比例六,和六20 元一器和和二器將這種記號小結如下。 總體比例樣本大小成功次數樣本比例 1 ™1 #1 Y1 71 2 T2 72 12 關於兩個二項分佈比例的推斷通常用他們的差不一72來表示,且用樣本比例的差示1一72進行區同估計和統計檢驗。元1一元2的抽樣分佈近似於正態分佈, 其均值和標準差為
• 526• 第十章型別資料 7i 一T2」一元2