AI 新聞與投資
統計學方法與資料分析引論

第四章 機率和機率分佈

8 / 34

例 4.21 使用二項分佈的正態道近計算,在1,000人的樣本里面觀察到460個或更少的人贊成合併的機率,假定整個總體中50%的人贊成合併。 解答用來近似二項分佈的正態分佈的均值和標準差分別為 M =1000(0.5)=500 a /nr(1-T)=/1000(0.5)(0.5) = 15.8 所求的機率在圖4.25中用陰影區域表示出來。要計算陰影的面積,我們需要首先計算 -Y- _ 460-300=-2.53 15.8 參考附錄中的表1,我們發現,在正態分佈曲線下460左邊(相應於2=-2.53)的面積是0.0057。這樣,觀察到460 或更少人贊成合併的機率近似等於0.0057。 460 500 y 圖4.25 二項分佈的正態分佈近似,其中=500 和。=15.8 如果 5或n(1-) 5,項分佈的正態逼近可能是不能令人滿意的。 如果成功的機率是小的,並且樣本容量,是中等的,實際的二項分佈嚴重地向右偏倚。在這種情況下,對稱的正態分幣曲線不能給出令人滿意的近似。如果尤在1附近,從而n(1-)<5,實際的二項分佈將向左偏倚,因此正態分佈近似也不很精確。如上例中那樣,當nT 和n(1-m)超過大約20時,正態近似是相當好的。在中間的區域,即n8 或n(1-x)在5和20之同時,一種稱為連續性校正的調𤦂使得正態近似的質量有顯著的提高。 連續性校止的要點是注意到我們是用連續的正態分佈的曲線去近似離散的二項分佈。圖 4.26 顯示出了一種我們所面臨的情況。 二項分佈下v≤S的機率是在5,4,3,2,1,和0上方矩形的面積的總和。在做正態近似時,這一機率(面積》是用在5的左邊正態分佈的曲線下方雙重陰影的面積來近似的。因而,這一近似忽略了5上面的半個矩形。連續性校正就是把在y

4.13 二項分佈的正態逼近•203• n= 20 =0.30 0.05 2 1.5 2.5 2301 3.5 4 5 6 4.5 5.5 6.5 圖 4.26 二項分佈的正態近似 =5和 =5.5之間的面積也包括進去。對於 =20和 =0.30的二項分佈(圖 4.26中所示),連續性校正是把 P(y≤5)換為 P(y≤5.5),即不是用 P(y≤5) = P[z≤ (5- 20(0.3))/20(0.3)(0.7) = P(≤-0.49) =0.3121 而是使用 P(y≤5.5)= Pla≤ (5.5-20(0.3))/ 20(0.3)(0.7) = P(~≤-0.24) = 0.4052 可以算出,對於該二項分佈,機率 P(y≤5)實際上為0.4164。連續性校正的一般的想法是在使用正態分佈的機率前,把二項分佈的值增加或減去0.5。決定是增加還是減去的最好的方法是畫出如圖4.26一樣的圖。 二項機率分佈的正態近似對於大的n和不太接近0或1的元,二項隨機變數的分佈可以由 4=nz 和這一近似。在n 不是特別大的情況下,連續性校正會改進這種近似的精度。 例 4.22 一個大的藥品公司有100種有潛力的新的處方藥正在進行臨床試驗。到達這個階段的所有藥中大約20%最後得到出售許可證。問這100 種藥中至少有15種最後得到出售許可證的機率是多少?這裡假定二項分佈的假設是滿足的。使用有連續性校正的正態近似來計算。 解答的均值是 =100(0.2)=20;標準差是。= 100(0.2)(0.8)=4.0。 要求的是15種或15種以上的藥品被同意出售的機率。因為包括y=15,連續性校正使用的事件是y大於或等於 14.5。 P(y≥14.5)= Pa≥ 14.5-20 4.0)= P(z≥-1.38) =1- P(x <=1.38) =1-0.0838 = 0.9162

• 204• 第四章機率和機率分佈 4.14 Minitab 指令產生隨機數為了從集合[0,1,⋯,9]中產生1,000 個隨機數, 1.單擊“Cale”,然後單擊“Random Data”,然後單擊“Integer”。 2. 輸入資料的行數:Generate 20 rows of datao 3. 輸入儲存資料的列:Store in columm(s):c1~c50。 4. 輸入列表的第一個數:Minimum value:0。 5.輸入列表的最後一個數:Maximum:9。 6.單擊“OK”。 注意由此我們已經產生了(20)(50)=1,000隨機數字。 計算二項機率算二項機率,其中 =10, =0.6: 1.在列cl屮輸入x的值:0,1,2,3,4,5,6,7,8.9,10。 2.單擊“Calc",然後單擊“Probability Distributions”,然後單擊“Binomal”。 3.選擇“Probability"[計算P(X=z]或"Cumulative probabilty"[計算P(X≤ ×]。 4. 輸入的值:Number of trials:10。 S.輸入*的值:Probability of success:0.6。 6. 單擊“Input column” 7. 輸人z的值所在的列號:C1。 8.單擊“Optional storage”。 9.輸人儲存機率的列號:C2。 10.單擊“OK”。 計算正態機率計算P(X≤18,其中X服從p=23,a=5的正態分佈: 1.單擊“Cale",然後單擊“Probability Distributions’”,然後單擊“Normal”。 2. 單擊“Cumulative probability"。 3. 輸入的值:Mean:23。 4.輸人d的值:Standard deviation:5o 5.單擊“Input constant”。 6. 輸入x的值:18。 7.單擊“OK”。

4.15小結•205. 產生的抽樣分佈從p=60 和 =5的正態分佈中抽取500個容量為 =16 的樣本,並基於這些樣本生成的的抽樣分佈: 1.單擊“Calc”,再單擊“Random Data",然後單擊“Normal”。 2. 輸入樣本的個數:Generate 500 rows。 3. 用列號輸入樣本容封 n:Store in column(s)cl~c16。 4.輸入的值:Mean:60。 5.輸入。的值:Standard deviation:S。 6.單擊“OK”.現在在列c1~c16 中,每列有500行,每一行中在列c1~c16的 16個值為⋯個樣本,從這些樣本可以得出500個的值。 7.單擊“Cake”,再單擊“Row Statistics”,然後單擊“Mean”。 8. 輸入資料的位置:Input Varaibles cl~c16。 9.輸入儲存500 個均值的列號:Store Results in c17。 10. 為了獲得500個值的均值,單擊“Cale”,然後“Column Statistics”,然後 “Mean” 11.輸入 500 個均值所在的位管:Input Variables c7。 12.單擊“OK”。 13.為了獲得500個的值的標準差,單擊“Cale”,然後“Columm Statistics”, 然後"Standard deviation" 14. 輸入500 個均值所在的位置:Input Variables c17。 15.單擊“OK”。 16.為了獲得的抽樣分佈,單擊“Graph”,然後“Histogram”。 17.在圖形框中輸入cI7。 18. 單擊“OK”。 4.15 小結在這一章中,我們介紹了機率,機率分佈和抽樣分佈。與抽樣結果的機率有關的知識對於統計推斷是至關重要的。我們給出了基本事件機率的三種不同的解釋:古典解釋,頻率解釋和立觀的解釋。儘管各種解釋在統計學中有它的地位,但因為頻率的解釋方法可以得到驗證,所以這個解釋方法最有直觀的感染力。 定基的隨機變數被分為兩類:離散或連續的隨機變數。離散隨機變數y的概率分佈是y的每個值聯絡的機率P(y)的一個羅列。這個羅列可以以一張直方圖, 表或公式的形式出現。 二項分佈是一個很重要也很常用的離散的隨機變數。科學家們進行的許多試

• 206• 第四章機率和機率分佈驗類似於投擲硬幣的試驗,即累積二歧(是或不是)型別的資料。二項試驗經常為計算各種各樣的抽樣結果的機率提供一個良好的模型。 與一個連續的隨機變數有關的機率,對應於在機率分佈下方的面積。我們通過計算正態曲線下方的面積來說明了這種機率的計算。正態曲線下方的面積的計算之所以重要,是由於中心極限定理:任何一個隨機變數,如果它是從有有限標準差的總體中抽出的一個隨機樣本的總和或平均值,那麼當樣本容量足夠大時,其分布就是正態分佈。透過直接應用中心極限定理,我們給出了樣本均值的抽樣分佈。 因為許多樣本統計是隨機變數的總和或平均值,中心極限定理的使用為我們提供了抽樣結果的機率的資訊。這些機率對我們想要做的統計推斷是至關重要的。 重妻公式 1.二項機率分佈 P(y)= 2. 的抽樣分佈均值:p 標準差:G= //31 3.二項分佈的正態近似 V (1-元) 如果 nT 和n(1-)大於或等於5或等價地,如果 5 補充練習 4.99(商業)一家大的諮詢公司審計其消費賬目的一種方法,是在每個月的最後一天的所有報告中抽樣。討論如此得到的一個樣本是否為一個隨機樣本。 4.100(商業)一家大型地區性銀行,在處理資料的操作過程中,發生的重大鍵盤輸入錯誤佔鍵盤輸入總次數的大約0.1%。如果考察 10,000個鍵盤輸入的一個隨機樣本,求解下列問題: a. 錯誤數的數學期望。 b.觀黎到小於5個錯誤的機率。 c.觀察到小於2個錯誤的機率。 4.101 用 =20和 =0.5的二項分佈,來比較二項分佈的正態近似的精度。 a.對 s計算準確的機率和相應的正態近似值。

4.15 小結•207• b.用P(y≤4.5)可以稍微改進正態近似的精度。為什麼有此改進?比較你的結果。 c.對P(8<y<14)計算準確的機率和相應的有連續性校止的正態近似值。 4.102 設y是n=20和 =0.5的一個二項隨機變數。 2.計算 P(4≤y≤6)。 b.使用沒有連續性校正的正態近似計算同樣的機率。比較你的結果。正態近似值的效果如何? 4.103 參考練習4.102。使用有連續性校正的正態近似計算機率P(4公 ≤6)。連續性校正有效嗎? 4.104(商業)一家市場調查公司相信,如果在一個給定的區域郵寄了5,000 份賽馬的報價單,那麼在所有被郵寄給報價單的人中約有25%的人回應。 a.回應 1,000份或更少的機率是多少? b.回應3,000份或更多的機率是多少? 4.105(工程) 某種合成纖維的1平方英尺大小的樣本的強度,通常近似於均債為2,250psi(磅/每平方英寸)和標準差為10.2psi 的正態分佈。 a. 隨機選取這種試驗材料的一塊1平方英尺的樣本,求其強度超過2,265psi 的機率。 b.基於15塊這種試驗材料1平方英尺大小的隨機樣本,描述的抽樣分布。 4.106 參考練習 4.105。假定開發「一種新的合成纖維,其強度的分佈可能有不同的均值。抽取15塊1平方英尺的隨機樣本並目對每塊測試其強度。如果我們假設這種新型纖維的強度總體的標準差與原來纖維的總體標準差相同,在新型纖維強度的分佈下給出的抽樣分佈的標準差。 4.107 參考練習4.106。假定新的合成纖維的15塊1平方英尺的樣本的強度的均值是2,268磅每平方英寸。如果新型纖維的強度的均值與原來的一樣,即為2,250,那麼觀察到的值等於或大於 2,268 的機率是多少? 4.108 在練習4.107中的答案的基礎上,你相信新型纖維與原來的纖維有一樣的平均強度嗎?(假定 =10.2。) 4.109 在圖4.19中,我們利用視覺考察「基於容量為2的樣本均值的頻率直方圖,並且注意到它具有鐘形的形狀。另一種確定一組測量值是否服從鐘形分布(正態)的方法,是構造樣本資料的一張正態機率散點圖。如果散點圖中的點接近於一條直線,我們就說這些測量值是從正態總體中抽選的。我們可以使用下列 Minitab 程式碼,來產生正態機率散點圖。如果散點圖中的點落在圖中兩條彎曲的虛線以內,我們認為這些資料是從正態分佈中抽出的一個隨機樣本。 Minitab 程式碼:

• 208• 第門章機率和機率分佈 1.把45個測值輸入到資料表的c1列中。 2.單擊“Graph" ',然後單擊“Prubability Plot”。 3. 在“Variables:”對話方塊裡輸入cl。 4. 單擊“OK”。 99 95 90 80 70 比 60 分 50 百 40 30 2010 5 *- 極大似然估計均值:6.5 標準差:1.91485 2 7 12 45個資料點清楚地落在兩條曲線之間,而且相當接近於直線。這樣,我們得出結論:正態機率圖有力地表明,這些資料是服從正態分佈的。 a.假定我們的總體是由10 個測量值(2,3,6,8, 9,12,25,29,39,50)組成的。 產生45個樣本,每個樣本包含*=2個觀察值,從這些樣本計算得到45個樣本均值,透過構造45個樣本均值的直方圖和正態機率散點圖,確定樣本均值的抽樣分佈是否近似於正態分佈。 b.為什麼稱認為,從總體(2,3,6,8,9,12,25,29,39,50)中得到的均值的正態機率散點圖,與從總體(2,3,4,5,6, 7,8,9,10,11)中得到的均值的正態概率散點圖會有很大的不同? 4.110[人力資源)一個工會的學徒挑選審查委員會的記錄表明,所有的申請人中有70%滿足一系列基本的要求而被錄取。一個少數派組織的5個成員最近經委員會審查,5個人中的4人被拒絕。如果記錄確實是0.70,求至多一個人被錄取的機率。當考察少數派組織的5個成員時,委員會使用了更低的接受機率嗎? 4.111(政府)假定你是美國國稅局在一個地區的主任,並且你負責抽取總收入水平在15,000美元以上的納稅申報單的1%作為樣本。對此你怎麼做?你要使用隨機抽樣嗎?怎樣使用?

4.15 小結•209 4.112(醫藥)專家認為血清朋固醇的高水平與冠心病的發生率的增加有聯系。假定在一個給定的年齡範圍內,男性的膽固醇水平的對數服從均值為2.35, 標準差為1.2的正態分佈。 2.在這年齡範圍內的男性血清膽固醇水平大了 250mg/ml 的百分比是多少? (250mg/ml 是臨床上正常範圍的上限) b.男性的血清膽固醇水平,能落在臨床上的正常範圍 150~250mg/ml 以內的佔多大比例? c.如果水平超過 300mg/ml.則被認為是很危險的。在這年齡範圍內的成年男性,其血清膽固醇水平超過300的比例有多大? 4.113(商業)一家主要的軟飲料公司,為了吸引新的顧客,改變了其主要飲料的生產秘方。最近,一家市場調查公司訪問了1,600名潛在的新顧客,並且給他們品嚐了按照新秘方重新生產的飲料,得到了在不久的將來計劃購買這種按新方法生產的飲料的個人的數量。 a.確定一個隨機變數,來表示感興趣的y值的總體。 b.你能計算該隨機變數的均值和方差嗎?為什麼能計算或為什麼不能計算? c.你如何計算 P(y≤250)? 4.114(商業) 許多公司正在使用或探索使用電話推銷產品技術的可能性—即經由電話來出售他們的產品,以作為許多傳統型銷售策略的補充。假設一個公司發現,在每100次電話推銷中大約有1次銷售成功。 a. 求第一次銷售成功發生在頭5次電話推銷中的機率。 b.求第一次銷售成功發生在10次呼叫後的某次呼叫的機率。 4.115[商業)市場分析家認為,一次特定的廣告活動將使得成年人總體的至少20%注意到廣告中的產品。在一個最近的活動以後,抽取的400個成年人中有 25人表明他們看見了廣告並且注意到了宴傳的新產品。 a.假定總體中20%的人透過廣告活動注意到了新產品,求觀察到y≤25的概率的近似值。 h.基於你的(a)中的答案,你認為廣告活動是成功的嗎?解釋原因。 4.116(醫藥)一種或一種以上特定的、輕徽的出生缺陷以機率0.0001 發生 (即在10,000個出生中發生1例)。如果在給定的一•年裡一個給定地理區域有 20,000個嬰兒出生,使用二項分佈或二項分佈的正態近似,我們能計算出觀察到至少一例有輕微的出生缺陷的機率嗎?解釋原因。 4.117 總體由8個測量值(2,6,9,12,25,29,39,50)組成,從中抽出梯本容量~=4的一個隨機樣本,並計算其均值。求的抽樣分佈。(提示:從有8個測量值的總體中抽取的樣本容量為4的樣本共有70個。) 4.118 畫出練習4.117中的的抽樣分佈。

• 210• 第四章機率和機率分佈 a.該抽樣分佈看上去近似於正態分佈嗎? b.證明的抽樣分佈的均值等於總體中8個值的平均值。 4.119 參考練習4.117。使用同樣的總體,基寸容量為=4的樣本,求樣本中位數的抽樣分佈。 4.120 畫出練習4.119中樣本中位數的抽樣分佈的圖。 a.該抽樣分佈看上去近似於正態分佈嗎? b.計算樣本中位數的抽樣分佈的均值,並把這個值與總體中位數的值相比較。 4.121 從一個均傳:=100,標準差。=15的總體中,抽出梯本容量為5,20 和80的隨機樣本。 a.對於5,20和80中的每個樣本容量,給出的抽樣分佈的均值。 b. 對於5,20和80中的每個樣本容量,給出的抽樣分佈的標準差。 <.任(a)和(b)獲得的結果基礎上,關子用樣本均值可作為總體均值p的估計的精度,你的結論是什麼? 4.122 參考練習4.121。為了評估樣本均信己作為總體均值p的估計的精度,我們需要知道獲得一個遠離p的值的機會有多大。假定樣本均值落在距離總體均值p5個單位以內的地方這一點是重要的。對於上述三個樣本容基中的每一個,求下列機率,並評價使用了去估計p的精確度。 a. P(≥105)。 b.P(≤95)。 .P(9SS ≤105)。 4.123 從一個均值等於40,標準差等於 12的總體中選取n=36 個測量俏的一個隨機樣本。 8.描述的抽樣分佈。 b.求P(≥36)。 .求 (30)。 d.如果滿足P(>k)=0.05,求的值。 4.124 參考練習 4.123。 a.描述樣本總和乙》:的抽樣分佈。 b.求P(乙y:>1440)。 c. 求P(乙y:>1540)。 d.如果知:R2滿足PlkI<2y:<k2)=0.95,求反1,k2的值。 4.125 對下列每種情況,基於從均值。和標準差;的總體中抽出的樣本容量為*的一個隨機樣本,求的數學期望值與標準誤差。

4.15 小結•211‘ . =25, =10,8=10。 b. =100, =10, =10。 C. =25, =10, =20。 d.n=100, =10,=20 4.126 在練習4.125的結果的基礎上,推測增加樣本容量,以及增大對於的標準誤差會有什麼影響。

第五部分資料分析:中心值, 方差和比例第五章第六章