AI 新聞與投資
統計學方法與資料分析引論

第三章 資料的描述

6 / 34

品牌 17 18 19 20 21 22 23 24 每卷價格 0.85 0.59 0.57 1.78 1.98 0.67 0.79 0.55 每捲紙的張數 85 85 78 180 180 100 100 90 續表每張紙的價格 0.0100 0.0069 0.0073 6.0099 0.0011 0.0067 01.0079 0.0061 自.計算每張紙和每捲紙價格的標準差。 b.每張紙和每捲紙的價格,哪個有更大的變異? c.在(b)的對比中,你應用:還是用CV 做對比?說明你的答案。 3.61 畫出每捲紙的價格和每捲紙張數的散點圖。 8.24個點在一條直線上嗎? b.若不在一條直線上,每捲紙的張數與每捲紙的價格有其他型別的關係嗎? c.僕麼因素可以解釋,為何每捲紙的價格和紙張數的比率不是常數? 3.62 作每捲紙的價格和每捲紙張數的盒形圖。在這些資料中有些“不一般”的品牌嗎? 3.63(生物)作一項研究,給綿羊靜脈注射抑制尿分泌的荷爾蒙 ADH 後,測量一下綿羊的尿流量(毫升/分鐘)。10只綿羊的尿流量如下。 0.70.5 0.5 0.6 0.5 0.4 0.3 0.9 1.2 0.9 a.計算這些樣本資料的均值,中位數和眾數。 b.假設最大的測量值是6.8而不是1.2,將如何影響到均值,中位數和眾數? 3.64 參見練習3.63。 a.計算極差和樣本標準差。 b.用極差給出的近似值,檢查你計算所得的So c.若最大的測量值是6.8而不是1.2,將如何影響到極差和標準差?若是68 呢? 3.65(環境) 論文“Conditional simulation of waste-site performance(垃圾廠性狀的條件模擬)”[技術度量(Technometrics)(1994)36:129~16]討論了一種控制裝管的評估問題。這種控制裝置用來演示對放射性超鈾垃圾的安全管理、儲存及處理。研究人員已經知道,放射性核物質一種可能的釋放方式是透過地下水的汙染轉移。最近的研究集中於可傳送性(transmissivity)分析。所謂可傳送性,是含水

3.8 小結•123• 土層性質和厚度的一個函式,它反映了水透過含水土層移轉的速度。下表含有41 個可傳送性T的測量值。 9.345 6.302 88.17 1253.43 7.68 2.31 1.08 741.99 12201.13 4273.66 462.38 $515.69 24.609 10.093 0.75 312.10 16.69 2772.68 3.23 6.45 207.06 2.50 118.28 10752.27 0.939 1.94 0.92 2.69 2.80 956.97 354.81 15399.27 3.28 1.32 10.75 0.000753 3.98 2876.07 5.05 3.01 20.43 e.畫出T的41 個測量值的頻率直方圖。 b.描述直方圖的形狀。 c.當頻率直方圖右偏很大時,經驗準則可能不會產生很精確的結論。利用所給的資料驗證此說法。 d.資料分析人員發現,丘形頻率直方圖比較容易處理。對資料進行某個變換後有時會得到這個形狀。把上表中的41個亇值都取以10為底的對數,並利用所得值重新作頻率直方圖。該圖的形狀比起原始資料的頻率直方圖來更近似於丘形嗎?對變換以後的資料應用經驗準則,並由此驗證,比起對於原始資料的應用來,經驗準則此時產生了更精確的結論。 3.66 在練習3.20中,對擁有房產權的資料,計算其均值,中位數和標準差。 a.對於1996年的資料,比較其均值和中位數。對於這個資料集合,哪一個最合適?解釋你的理由。 b.這兩個年份的概括統計量有本質區別碼?從這些概括統計量,對於在11 年澗擁有房產權的家庭比例數的變化,你能得到僕麼結論? 3.67 在練習3.20中,對於兩個年份的資料,畫出盒形圖。 a.這些年來,擁有房產權的家庭的百分比變化了嗎? b.是否有某些州,其房產擁有率極低? c.有一些州有極高的房產擁有率嗎? d.房產權擁有率低的一類中,各州存在相似之處嗎?房產權擁有率高的一類中呢? 3.68(社會)為了獲得謀殺率的有關資訊,研究了由90個標準大型城市統計地區(SMSA)的組成的隨機樣本,記錄其謀殺率(每100,000人中謀殺發生的次數),所得資料總結成下面的頻數表。

• 124• 第三章資料的描述分組區間 -0.5~1.5 1.5~3.5 3.5~5.5 5.5~7.5 7.5~9.5 9.5~11.5 11.5~13.5 f …! 2 18 15 13 9 8 7 分組區間 13.5~15.5 15.$~17.5 17.5~19.5 19.S~21.5 21.5~23.5 23.5--25.5 9 2 作這些資料的頻率直方圖。 3.69 對練習3.68 中的資料, a.計算樣本中位數和眾數。 b.計算樣本均值。 c.你將用哪一個中心趨勢度量描述謀殺率分佈的中心? 3.70 對練習3.68 中的資料, 2.計算四分位數間臣。 b.計算樣本標準差。 3.71 用練習3.20中兩個年份各州擁有房產權家庭比例的資料,作出這兩個年份的資料的分位數圖。 a.找出1996年擁有房產權的比例資料的20%的分位數,並解釋這個值。 b.國會想要找出1996年擁有房產權百分比最高的州。哪些州擁有房產權的比例落入了前10%的行列? c.找出1985年中,房權擁有率落入前10%的各州。這些州和1996年的那些州有什麼不同? 3.72(工程)在生產線上,每20分鐘抽取一個由10只電晶體組成的成品樣本,並對其加以檢測。從前500個樣本獲得的資料總結如下。 Y: 1 0 170 1 185 2 75 3 25 4 15 5 10 6 8 7 5 8 4 9 2 10 1 作一個頻率直方圖,並描繪其四分位數間距。(注:上表中y:的值是由10個晶體管組成的樣本中出現的缺陷的數目。) 3.73 參見練習3.72。 a. 計算樣本中位數和眾數。 b.計算樣本均值。

3.8 小結•125• c.根據均值、中位數和眾數,你能指出這個分佈是如何偏斜的嗎? 3.74 可以用經驗準則描述練習3.72中的這組測量值嗎?利用頻率分佈證實你的答案。 3.75(政府) 把健康和醫療服務的人均支出(美元)按州進行整理,得到如下資料。 美元 45~59 60~74 75~89 90~104 105~119 120~134 135~149 150~164 165~179 180~194 195~209 總和 f 1 4 9 9 12 6 4 1 3 0 1 50 a,作一個頻率直方圖。 b.由這些分組支出資料計算了和;的近似值。 3.76 在表3.4 中的資料中,從北部除去費城(Philadelphia),西部除去聖何塞(San Jose)和西雅圖(Seattle)。 a.對修改後的各組計算:。 b. 用公式, 把各組中的均值虧:結合起來得到總體均值,其中7:是子分組;中的觀察值的數目。 .證明在(b)中得到的樣本均值等於從(a)中使用的87個測量值得到的樣本均值。 3.77(工程)高速公路安全保險協會公佈了小型汽車在一系列受控、低速碰撞中的總損失資料,去掉車牌名稱的資料(美元)奶下: i

•126、 第章資料的描述 361 886 393 887 430 976 543 $66 610 763 851 1,039 1,124 1,267 1,328 1,415 1,425 1,444 1,476 1,542 1,544 2,048 2,197 2. 用6或7個分組作頻數直方圖。 b.由直方圖,你能猜到均值是多少嗎? c.計算中位數和均值。 d.均值和中位數間的關係,關於資料的形狀說明了什麼? 3.78(商業)冷車製造商的生產記錄表明了每個班的產品數量(每個班的最大產量是720輛汽車)。 668 711 625 701 688 667 694 630 547 703 688 697 703 656 677 700 702 688 691 664 688 679 708 699 667 703 8.對於這些資料,眾數是•個有用的概括繞計量嗎? b.找出中位數。 c.找出均值。 d. 均值和中位數間的關係關於資料的形狀說明了什麼? 3.79 作出練習3.78 中資料的莖葉圖,莖中應當包括(從高到低)71,70、 69.•⋯,莖葉圖排列的形狀可以證明你在練習3.78(d)中的判斷嗎? 3.80 對練習3.79, 8.找出中位數和IQR。 找出內分線、外分線。有離群值嗎? c.畫出資料的盒形圖。 3.81(社會)收集了城市象庭每週食物開支(包括飯店開支)的樣本資料。數據是從每位戶主的日常記錄中得到的,將其按每個家庭成員的數目分類。開支數據如下: 1個成員: 67 62 168 128 131 118 80 53 99 68 76 55 84 77 70 140 84 65 67 183 2個成員:129 116 122 70 141 102 120 75 114 81 106 95 94 98 85 81 67 69 119 105 94 94 92 3個成員:79 99 171 145 86 100 116 125 82 142 82 94 85 191 100 116 4 個成員: 139 251 93 155 158 114 108 5+個成員:111 106 99 132 62 129 91 121 128 129 140 206 111 104 109 135 136 a.對於每一個象庭成員數,計算該類家庭開支的均值。

3.8 小綃 •127 b.對下每個家庭成員數,計算該類家庭開支的中位數。 3.82 對練習3.81 中的資料,回答下列問題: *.用原始資料,計算由所有資料組成的資料集合的均值。 b.所有資料的均值可以透過結合由家庭成員數目所確定的每個類的均值來得到嗎? c.用原始資料計算所有資料的中位數。 d.透過由每個成員數所確定的類的中位數可以計算所有資料的中位數嗎? 3.83(人力資源)一家公司為了取消對於未受豁免的僱員的時間鐘點和打卡限制,修改了一項長期執行的政策。隨著這一變化,所有僱員(幫免的和未被豁免的)都要記錄他們的出勤時間,以及由於生病、週末、假日等原因而造成的缺勤。以前的制度規定了一定數目的病休日,這項制度已被取消。在新制度下,若一個僱員生病了,他可以帶薪缺勤,否則,他就要出勤。 為了看新制度的效果如何,抽取了15個僱員的隨機樣本,並記錄下他們今年的病休天數(在新制度下),以及對應的去年的天數。資料如下: 僱員 5 9 10 11 12 13 14 15 今年(新制度) 0 0 0 0 2 1 1 3 1 s 6 I 2 12 去年(老制度) 2 2 3 4 s 2 6 8 4 5 12 3 4 4 #.對每一列計算均值和標準差。 b.由樣本資料,你對新制度得到什麼結論或推斷?解釋你的理由。 3.84 在練習3.83中,若在每一列中都除去12,以7替代,對和s將會有何影響?新舊制度的極差受這一替換的影響嗎?

•128• 第三童資料的描述 3.85(政府) 聯邦當局搗毀了大量的野生和栽培的大麻。下表給出了15個州在12個月的時間內搗毀的大麻植株數量和逮捕的人數。 州 1 6 7 8 9 10 11 12 13 14 15 植株 110,010 256,000 665 367,000 4700,000 4,500 247,000 300,200 3,100 1,250 3900,200 68,100 450 2,600 205,844 違捕人數 280 460 6 66 15 8 36 390 9 4 14 185 4 33 8.討論用樣本均值描述這兩個變數的適用性。 b.計算樣本均值,10%的截尾均值和20%的截尾均值。對每個變數,哪個截尾均值更合適,為什麼? 3.86 參見練習3.85。在毀掉的植株數量與逮捕的人數之間有關係嗎?你如何檢查這個問題呢?有什麼其他的變數可能與搗毀的大麻數有關係? 3.87(商業)FDC指數每月的讀數是製藥業景氣狀況公認的晴兩表。對這一指數有如下的資料表。從表中我們看到,FDXC 指數有幾個分量—這些分量分別是針對製藥公司、多種經營公司、連鎖藥店和藥物與醫療裝置批發商的,這幾種公司各有一項。 一月二月三月四月五月六片藥物公司 123.1 122.4 125.2 136.1 149.3 145.7 多種經營公司 154.6 146.0 169.2 156.7 177.0 158.1 連鎖藥店 393.3 407.6 A05.0 415.1 418.9 443.2 批發商 475.5 $04.1 476.6 513.3 543.5 5$2.6

3.8 小結•129、 七月八月九月十月十一月十二月藥物公司 162.4 168.0 155.6 177.0 196.6 195.2 多種經營公司 156.6 178.6 170.4 162.9 182.4 195.4 連鎖藥店 419.1 404.0 391.8 410.9 459.8 431.9 續表批發商 $26.2 516.3 482.1 484.0 522.6 536.8 a.在一張圖中畫出這些資料。 b.討論每一分量的趨勢,以及 FDC 指數內各個不同的分量之間的明顯的關系。 3.88 參見練習3.87。計算 FDC 指數的每一個分量每月變化的百分比(假設一月份這四個分量各自變化的百分比是12.3,-0.7,12.1,16.1)。作出這些數據的圖。比起原始資料,它們揭示了更多資訊嗎? 3.89(商業)最受關注的關於紐約股票交易所(NYSE)交易狀況的指數是道瓊斯工業平均指數(DJIA)。這個指數是由30個公司的股票價格計算得到的。在 1896年,DJLA剛被提出的時候,它是12個股票的平均價格。多年來,新的公司被加入其中,也有公司被從中排除,從而指數有所調整;同時,當公司分股時,指數會有所變動。下表給出 DJA 中的30個公司的股票在紐約股票交易所(NYSE)收盤時(1999年5月20日)的價格。 8.計算 DJIA 中30個股票價格的半均價格。 b.計算 DJIA 中30個股票價格的極差。 c.DJIA 不再是一個平均數,名稱中包括“平均”的字樣僅是由於歷史的原因。 這個指數是透過指數中所包含的所有股票價格的總和除以一個常數C而得到,這個常數C隨指數中股票的增減以及分裂而變化。 DJIA = Li c 其中y:為股票;的收盤價格,C=0.211907。利用這裡給出的股票價格, 計算 1999年5月20日的DJIA。 d. DJIA 是一種資料的概括。利用樣本資料計算得到的 DTIA 提供了某個總體的資訊嗎?若是,該總體是什麼總體?樣本是隨機樣本嗎?

•130• 第:章資料的描述公司 Allied-Signal Alcos Amrican Fxprcss AT&T Hoeing Caterpillar Chevron Cirigroup Cwvca-Cola duPon Eastman Kodak Exxon Geueral Electric Cicneral Motors Coodyear Fewlett-Packard IBM International Paper J.P.Motgan Johnson & Johnson McPkonald's Merck Minnesota Mining Phillip Morris Procter & Cnmble Setars, Roebuck Union Carbide United Technolpgies Wal-Mart Stores Walt Dispey DJIIA 的各個成分 DJIA 的百分比 2.640 2.532 S.357 2.570 1.948 2.559 4.060 2.996 2.950 2.999 3.281 3.474 4.619 3.479 2.$78 4.090 2.380 2.380 6.049 4.125 1.739 3.126 3.884 1.745 4.198 2.125 2.421 2.640 1.935 1.294 NYSE,的股票附格 6I.8125 5K.3125 123.3751 59.1875 ++.×751 58.9375 93.50 69,0000 67.9375 69. 0625 75.5625 80.0000 106.3750 80.1250 59.3750 94.1875 232.5000 S4.8125 139.3125 95.0000 40.0625 72.0000 89.4375 40.1875 96.6875 48.9375 55.7500 60.8125 44.5625 29.8125 3.90 在練習3.20中,已經對1985年和1996年的擁有房產權家庭的比例的資料作了頻率直方圖。 a.透過檢查這些圖,你認為用經驗準則描述這些資料合適嗎? 3.91 百分比,這些資料與經驗準則提供的百分比一致嗎? 參見練習3.90。資料中有許多影響的極端值嗎?從練習3.21中 .

3.8 小結•131 畫出的資料圖中,能預先看出這一點嗎?計算這些資料10%的截尾均值。 3.92(人力資源)作為中層管理者選拔過程考察的-部分,作一項調查以研究僱傭來源(內部提升,來自相關行業,來自不相關行業)和3年工作歷史(晉升,同一職務,辭職,解僱)之間的關係。120箇中層管理老資料奶下。 來源 T作歷史提升統一職務辭職解僱總和公司內部 13 32 9 3 57 相關行業 4 & 6 3 21 不相關行業 10 18 4 42 總和 27 58 25 10 120 a. 計算每一來源中的各種工作歷史所佔的百分比。 b.你能斷定在來源和工作歷史間有很強的相關性嗎? 3.93(環境)調查了主要產煤的州中的150個居民,主要產石油和天然氣的州中的200個居民以及其他州的450 個居民,每個居民選擇一項最喜歡的國家能源政策。下面給出的這個調的結果是由Spss 列印輸出的。 STATE COUNT EOW FGT COL PCT TOT PCT OPINION COAL ENCDURAGED ∞OAL OIL ARD GRS OIHER zOW TOTAL FUSION DEVEIDP 62 32.8 42.3 7.8 3 7.3 2.0 0.4 NUCL.EAR DEVELOE 22.2 5.3 1.0 25 13.2 12.5 3.1 12 29.3 6.0 1.5 6 16.7 3.0 0.8 102 54.0 22.7 12.日 26 63.4 5.8 3.3 22 61.1 4.9 2.8 189 23.6 41 5.1 36 4.5

•132• 第三章資料的描述續表 STATE COUN! RON PGT OOL ECT TOT PCT 8AL OIL, AND GAS OTHER ROH TOTAL, OIL DERBCULATTON SOLAR DEVEI OP COLUTHN TOTAL 19 12.6 12.7 2.4 58 15.1 38.7 7.3 150 18.8 79 52.3 39.5 9.9 79 20.4 39.0 9.8 200 25.0 53 35.1 11.8 6.6 247 64.5 54.9 30.9 450 56.3 151 18.9 383 47.9 800 100.0 a.解釋上述交叉列表中左上方的數值 62.32.8,41.3 和7.8的意義,注意表的左上方列出的 COUNT, ROW PCT, COI. PCT TOT PCT。 b.哪些百分比的計算結果看上去對你更有意義? c.根據你選擇的百分比計算結果,在州和居民的觀點之間有很強的相關性嗎? 3.94(商業)在許多小的中西部城市,代表環衛工人的市政聯合會研究了前幾年簽署的合同,合同被細分為:未經罷工而談判簽署的,未罷工經仲裁而簽署的以及罷工後簽署的。每一個合同都確定了第一年工資增長的百分比。總結資料如下。 合同型別工資增長的平均百分比方差標準差梯本容l 談判 8.20 0.87 0.93 38 仲裁 9.42 1.04 1.02 16 墨工後 8.40 1.47 1.21 6 在合同型別和工資增長的平均百分比間有一定的關係嗎?若你是經理而不是工會成員,在將來的合同簽署中你將採取什麼姿態?

第四部分工具和概念第四章機率和機率分佈第四章 4.1 如何應用機率進行推斷 4.2 確定一個事件的機率 4.3 基本的事件關係和機率法則 4.4 條件機率和獨立性 4.5 Bayes 公式 4.6 離散變數和連續變數 4.7 離散隨機變童的機率分佈 4.8 一個常用的離散隨機變數;二項分佈 4.9 連續隨機變數的機率分佈 4.10 一個常用的連續隨機變數:正態分佈 4. 11 隨機抽樣 4.12 抽樣分佈 4.13 二項分佈的正態過近 4.14 Minitab 指令 4.15 小結機率和機率分佈 4.1 如何應用機率進行推斷我們在第一章曾提到,一位科學家應用統計推斷,基於從總體中抽選的樣本中所包含的資訊,得到關於總體的闡述。我們還在第三章提出了圖表和數值描述技術,作為概括和描述一個樣本的工具。然而,一個從總體中選取的樣本並不等同於其總體。我們需要說明以樣本均值、樣本標準差,以及樣本比例來代表與其相應的總體值,其精度如何。 大多數管理決策必須面對不確定性。新型汔車的價格積設計,必須在對消費者偏愛、國家經濟的發展趨勢以及競爭行為的不確定性預測的基礎上來選擇。醫院職員隊伍的規模和分配必須在關於病人負擔只有有限資訊的情況下來決定。產品庫存的設定得面臨求的不確定性。機率就是用來表達不確定性的語言。現在讓我們來考察機率這一推理的機制。其中的思想最好用一個例子說明。 Nezesreek(《新聞週刊》)在1998年6月20日的一期中,提出了這樣的問題:

• 136• 第四章機率和機率分佈 “誰需要醫生?家庭檢查的興隆。“文章就家用醫學篩選檢驗的戲劇性增加展開了討論。家用檢查的市場,從兩種最頻繁使用的檢查——懷孕和糖尿病患老的葡萄糖監測,擴充套件到五花八門的以前僅僅由醫生和合格的實驗室才能做的診斷檢查。 有決定雙胞胎是同卵雙生還是異卵雙生的 DNA 檢查,有膽面醇水平的檢查,有結腸癌的篩選檢查,也有確認你在少年時是否是一個毒品使用者的檢查。然而,需要回答的主要問題是,這些用於檢查的器械在多大程度上是可靠的?當檢查顯示一個女性沒有懷孕時,檢查不正確和女性真正懷孕的機率是多少?這類不正確的家庭檢查結果可能導致一個女性沒有在她懷孕的初期去尋求合適的產前護理。 假定一個公司在宣傳材料中說它的懷孕檢測方法應用於懷孕婦女時能提供 75%的正確結果。我們想要評估這種說法,因此選擇了20位婦女,她們的醫生通過可能是最好的檢測方法,確診她們已經懷孕。這20位婦女都接受“這個公司的檢測,並且她們的檢測結果都呈陰性,這表明20人中沒有一人懷孕。假如你再次確認了這20位婦女事實上都已經懷孕,就象在這次檢測做完後幾個月所能確定的那樣,你對該公司關於其檢測的可靠性的說法有什麼樣的結論? 如果該公司關於可靠性為75%的說法是正確的,我們可以期望樣本中陽性的檢測結果的比例在某種程度上與75%接近。然而,沒有一個檢測結果是性的。 這樣,我們就會得出結論,認為公司的說法可能是錯的。為什麼我們不能肯定地說公司的說法是錯的呢?讓我們來考慮一下上述檢測結果的可能性。假定我們有一個由百萬個個體組成的大總體,其中75%的個體為P即陽性的,而25%的個體為 N即陰性的。我們隨機地從該總體中選取20個個體,並且記數樣本中衛的個數。 要獲得一個包含0個P和20個N的樣本可能嗎?當然是有可能的,但可能性非常小。在本章後面的內容中,我們將計算這樣的樣本出現的機率。 為了更好地看清楚機率在利用樣本的結果進行推斷從而得到關於總體的結論這一過程中所起的作用,假設這20個檢測結果中有14 是陽性的—即70%的正確反應率。你會認為這個結果極不可能,從而拒絕這家公司的75%的正確反應率的說法嗎?如果檢測結果是12個陽性和8個陰性或16個陽性和4個陰性,又會如何呢?假若公司的說法是正確的,我們在什麼情況下,認為所觀察到的樣本結果很不可能出現,以至我們不同意公司的說法呢?為了回答這個問題,我們必須知道如何去算出觀察到某個特樣本結果的機率。知道了這個機率,我們就可以決定是同意還是不同意公司的說法。機率是一種工具,利用它我們能夠作出推斷。在這一章的後面我們將詳細討論 FDA 和私人公司如何確定篩選檢查的可靠性。 因為機率是進行推斷的一種工具,我們需要給出它的定義。在前面的討論中, 我們在其日常的意義下使用了概案這個名詞。現在我們更仔細地來考察這個概念。 對現象的觀察能產生許多不同的結果,其中一些比其他有更大的可能性。為

4.1 如何應用機率進行推斷•137• 了對一個試驗結果出現的機率給出精確定義,人們進行了大量的嘗試。我們將引用其巾的三條。 機率的第一種解釋叫做機率的古典解釋,是從碰運氣的遊戲中產生的。這種型別的解釋的典型說法是,例如,“將一枚均勻的硬幣拋起顯示出正面朝上的機率是1/2”,“從52張標準撲克牌中抽出一張紙牌,得到 A的機率是4/52”。這些機率的數俏是從遊戲的特性中得來的。一個硬幣拋起有2種可能的結果(正面朝上或反面朝上):正面朝上的機率應該是1/2(兩者之一)。同樣,在52 張標準撲克牌中有4張A,這樣,從中抽一張牌,抽出的牌是A的機率是4/52,即從52中取4。 在機率的古典解釋中,每種可能的不同結果被稱為一個基本事件;一個事件被認為是許多基本事件的集合。在機率的古典解釋下,一個事件E的機率是用有利於事件E的基本事件數N。與所有可能的基本事件總數N的比值來計算的: P(#件E)=興這種解釋的適用性取決於所有基本事件都是等可能的假設。如果這種假設不成立,由機率的古典解釋確定的機率將是錯誤的。 機率的第種解釋被稱之為機率的頻率概念,是定義機率的一種經驗方法。 如果試驗重複了很多次,事件E 發生的次數佔30%,則0.30應該是事件E的概率的很好的近似。用符號表示,如果試驗進行了n次,並月在這些試驗中事件E 發生了n。次,則事件E 的機率近似於 P(事件E)~“ 我們之所以說“近似於”,是因為我們認為,確切的機率P(事件E)是在對現象進行了大量的觀察或重複時事件 E 發生的頻率。由於我們可以對機率的頻率解釋(通過大量重複的模擬試驗)進行驗證,這種解釋不僅生動而且也很實用。 機率的第三種解釋可以應用於不大可能進行重複試驗的問題。現實中有許多 “一錘子買賣”的情況。例如,州福利機構的主任評估州立法機關透過對資格認證條款的修改提議的機率時,就很難想象去做一系列這樣的嘗試。相反,他使用個人或主觀的機率就所提議的資格認證條款的修改被透過的可能性給出一個一次性的估基。主觀機率的問題是因人而異並且不能被檢查。 在以上三種機率的解釋中,頻率概念當為最合理的一個,因為它為大多數要研究的事件提供了機率的實際解釋。儘管我們不去做那麼大謝的重複試驗以確定一個件的準確機率,但對一個事件的機率可以進行驗證這一點賦予了頻率以意義。 在本將後面的部分中,我們將倚重對機率的這種解釋。

• 138• 第章:機率和機率分佈練習應用 4.1 指出下列哪個關於機率解釋的陳述是最恰當的。 a.養牛行業協會聲稱在這個夏季牛肉的批發價格將有60/40的機會上漲,也就是說。以0.60 的機率漲價,0.40 的機率降價。 b.一家大化學藥品生產公司的質量控制部門進行了一項工序校驗研究。從這項研究中,質量控制部門聲稱一批最新的化學藥品的儲存期限超過指定的最小期限的機率是0.998。 一個大公司的市場營銷部將推出一種新的混合咖啡。初步的市場調查結果表明,隨機抽取的1000名潛在顧客中有S50 個人認為新的混合咖啡比一種品牌咖啡好。假定消費者對兩種品牌的偏愛沒有差別,那麼上述結果發生的機率近似於0.001。 d.用24小時郵遞業務投寄的包裹,顧客在第二天收到的機率是0.92。 e.在得克薩斯州的大學橄欖球比賽中,現場解說員說安吉斯(Aggies)球隊戰勝佛羅里達大學隊的機率是0.75。 f.在給定的一天內,一個核電廠熔融的機率是0.00001。 8.如果一個顧客購買得克薩斯州的一張彩票,這張票中獎的機率是 1/15 890,700。 4.2 對下列各種情況,給出你自己的主觀機率。把全班的這些機率做威表將是有益的。對於哪些情況,你們給出的機率有很大的差別? 8.聯邦所得稅將被取消。 .你的這門課的得分會是A。 c.在一個班裡有2人或2人以上同一天生日。 d.明年將有一顆流星撞擊地球。 e.下屆總統選舉中,一位好女將被選為美國的副總統或總統。 4.2 確定一個事件的機率在前面的一節中,我們討論了機率的三種不同的解釋。在本節,我們將用機率的古典解釋和頻率的概念說明基本事件或事件的機率的計算方法。假設我們有一枚一分和一枚一角硬幣,考慮擲這兩枚硬幣組成的試驗,並且觀察朝上的那面。有 4 個可能的基本事件: TT: 兩枚硬幣都是反面朝上; TH:一分是反面朝上,一角硬幣是正面朝上; HT:一分是正面朝上,一角硬幣是反面朝上;

4.2 確定一個事件的機率•139, HH:兩枚硬幣都是正面朝上。 觀察到2枚硬幣恰有--個正面朝上的事件的機率是多少? 如果我們能夠假設所有的4個基本事件是等可能的,這個機率很容易被求出。 在這個例子中,這種等可能的假設似乎是相當合理的。有N=4個可能的基本狀件,其中 N,=2個有利於我們關心的事件,即觀察到恰有一個正面朝上的。因此, 由機率的古典解釋,有 P(恰有一個基正面期上)=季一因為所關心的事件的機率有一個頻率的解釋,使用頻率的概念,我們也能獲得同樣的經驗結果。為了闡明如何用頻率來獲得一個事件的機率,我們將應用模擬的思想。模擬是一種能產生與真實情況下的事件具有相同的發生機率的基本事件的技術,計算機是產生這些基本出件的一個方便工.具。假定我們想要模擬2枚硬市的1000次投擲。我們可以使用一個計算機程式,比如SAS或 Minitab 來模擬這2枚硬幣的找擲。該程式有一個隨機數發生器。我們指定偶數為H,奇數為 T。由於在一位數中有5個偶數和5個奇數,獲得一•個偶數的機率是5/10=0.5, 獲得奇數的機率也一樣。這樣,我們需要給出500 對數學,這個500對數字的集合將代表2枚硬幣 500次投擲的結果,每一對中的第一個數字代表投擲一分硬幣的結果,而第二個數字代表擲一角硬幣的結果。例如,一對數字(3,6)將代表一分出現反面而一角的硬幣出現正面。使用版本13的Minitab,下列步驟將產生1 000 個範圍在0~9的隨機數字: 1• 從工具欄中選擇“Calc(計算)”。 2. 從列表中選擇“Random Data(隨機數)”。 3. 從列表中選擇"Integer(整數)”。 4.生成20個資料行。 5. 存到列:cl-c50中。 6. 最小值:0。 7. 最大值:9。 上述步驟將產生1,000個隨機的一位數字,然後我們可以把這些數字組成500對一位數字。(大多數計算機軟體都包含有隨機數發生器,利用這些隨機數發生器可以得到類似的結果。) 25 32 70 15 96 87 80 43 15 77 89 51 08 36 29 55 42 86 45 93 68 72 49 99 37 82 81 58 50 85 27 99 41 10 31 42 35 50 02 68 33 50 93 73 62 15 15 90 97 24 46 86 89 82 20 23 63 59 50 40 32 72 59 62 58 53 01 85 49 27 31 48 53 07 78 15 81 39 83 79 21 88 57 35 33 49 37 85 42 28 38 50 43 82 47 01 55 42 02 52

• 140 • 第四章機率和機率分佈 66 44 48 20 26 79 86 12 18 87 $2 79 07 40 66 79 21 47 15 27 54 83 21 14 96 83 34 40 73 64 09 48 12 46 82 02 29 73 53 21 94 01 27 60 75 63 94 51 22 04 62 20 05 73 11 44 21 49 09 39 12 75 71 06 16 47 54 97 40 90 71 57 79 81 49 64 32 00 33 43 95 21 86 94 24 41 06 21 92 . 64 57 07 %6 86 85 68 65 42 17 32:94 42 80 71 46 11 18 73 79 48 86 83 64 58 16 06 08 81 39 35 34 81 74 07 31 07 • 78 73 07 26 36 39 20 14 19 60 68 30 99 27 22 74 65 22 05 16 07 30 34 99 54 68 37 38 71 79 04 66 73 76 74 93 50 56 23 41 23 92 40 57 87 82 71 . 04 16 01 03 45 68 17 39 32 38 03 75 56 7979 S7 54 95 47 72 06 07 66 05 59 34,81 04 13 36 87 96 11 39 81 59 41 70 500 次投擲硬幣的模擬結果在表4.1 中給出。 事件 TT TH HT HH 衰4.1 投錦一枚一分和一枚一角硬幣的500次模擬模擬基本事件 (奇效,奇數) (奇數,偶數) (偶數,奇數) (偶數,偶數) 頻數 129 117 125 129 頻率 129/500 =0.258 117/500=0.234 125/500=0.250 129/500=0.258 注意,這種模擬方法產生的機率很接近我們的直覺;也就是說,對於這些基本事件,我們可能從直觀上預期到它們是等可能的。這樣,4個基本事件發生的機率都等下 1/4,或0.25。這正是我們在機率的古典解釋中所作出的假設。我們將在