AI 新聞與投資
統計學方法與資料分析引論

第十章 型別資料

17 / 34

補充練習 10.63(社會)一位發言者建議經理如何避免工人成立工會,他聲稱只有 25%的產業工人贊成成立工會、40%漠不關心,35%反對。另外,該發言者聲稱持有這些觀點與他們是否為真正的工會會員無關。隨機抽取600名產業工人,得到如下資料: 會員非會員總和贊成 140 70 210 無所謂 42 198 240 反對 18 132 150 總和 200 400 600 2.資料中哪一部分與25%,40%,35%主張有關? b.給定a=0.01,檢驗這一假設。 10.64 如何有練習10.63中的值? L0.65 檢驗練習 10.63 中的獨立性假設。它如何被最終拒絕? 10.66 (根據練習10.63 中的資料)計算贊成成立工會,漠不關心,反對的產業上人所佔百分比;分別針對工會會員和非工會會員計算這些百分比。百分比揭示了會員身份和所持觀點之間存在很強的相關性嗎? 10.67(民意調查學) 三種不同的電視廣告正在為同一產品作廣告。將這些廣告分別播放給消費現場討論小組;每名消費者只能看其中一種廣告,然後陳述對該產品的觀點。觀點從1(很喜歡)到5(很不喜歡)。資料如下: —— 廣告 A 總和 1 32 53 Lp 126 2 87 141 93 321 午齡 3 91 ⅞ 234 4 46 20 36 102 5 44 10. 63 117 總種 300 300 300 900 4.計算在獨立性零假設下的期望頻數。 b. 檢驗該假設時的自由度為多少? c•有證據表明對於不同的廣告,其觀點分佈也不同?給定a=0.01。 10.68 給出練習10.67 中夕值的界。

- | 10.9 小結 • 569. 10.69 根據你的判斷,練習10.67資料中廣告型別和觀點之間是否存在著很強的相關性?用百分比和入值的計算支援你的判斷。 10.70(商業)某直郵等售商試驗用三種不同的方式將定單表格合併到價目表中。在第一種型別價目表中,定單表格位於價目表的最後;第二種位於價目表的中間;第三種中問和最後都有定單表格。將每份表寄給1,000名潛在的顧客,他們都未曾從該零售商處買過產品。每份定單上的密碼使得零售商知道它屬於哪一種型別;記錄收到每種型別定單的數量。用Excel訃算期望頻數和x統計量。Excel 的 CHITEST 功能給出值。結果如圖10.3所示。 1 A Observed B C E F Reccived? G max.freg. H 2 3 1 4 Type fotm! 2 5 3 6 No 944 961 915 2820 Yes $6 39 85 180 Total 1000 1000 1000 3000 7 8 Expected 944 961 915 2820 larbda (columnn dep.) 0 9 10 1 11 Type form 12 13 t 15 16 17 2 3 Nu 一 940 940 940 2820 Yes 60 60 60 180 Total 3000 chi sg. 19.18440 p-value 0.00007 圖10.3 價日表試驗結果 2.對於三種不同型別的定單,統計獨立性的零假設表明了什麼? b.在通常的a 水平下,零假設能成立嗎?

| •570• 第十型別資料 14.71 已知定單型別 TYPE FORM,求預測收到數量 RECEIVED的入值。 它捕捉到兩變壁之間的相關性嗎? 10.72(商業)某程式設計公司開發了一種更精心設計的、更復雜的電子製表軟體程式版本。他們隨機地將該程式的“beta 測試”複製寄給一部分當前的程式使用者。 根據使用者提供的資訊,公司評價每位使用者的複雜性;1表示標準,2表示程式的基本應用,3表示最複雜的應用。每位使用者在當前版本和測試版本之間作出選擇,表明自己的偏好,1表示強烈偏好當前版本,3表示對兩種版本沒有特別偏好,5表示強烈偏好新的測試版本。用JMP IN 分析資料。部分結果如下。 SOPHIST EY PRHRER Crosstabs SOPHIST PREFER Count 1 1 32 32.99 2 10 16.67 3 2 6.06 44 2 28 28.87 24 40.00 4 12.12 56 3 17 17.53 16 26.67 5 15.15 38 4 12 12.37 6 10.00 8 24.24 26 5 8 8.25 4 6.67 14 42.42 26 Tests Source Model Error C Total Total Count DF 8o 180 188 - LogLikel ihood 19:91046 172.23173 192.14219 190 RSqvare(U) 0.1036 Test Likelihood Ratio Pearson Chisquare 39.821 44.543 Prob>Chisg <0.0001 <0.0001 Row * 97 60 33 190 • #.結果標有百分數揭示了複雜性 SOPHIST 和偏好 PERFER 之間存在相關性嗎?如果資料未顯示相關性,那麼,真正的百分比應該怎樣?

10.9小結•571• b.標有(PEARSON)CHI-SQUARE 的x 值是否表明在通常的a水平下存在統計上可察覺的(顯著的)關係。 10.73(商業)某錄象機租賃商店抽取一部分顧客(大體上可視為隨機樣本)。 商店最感興趣的兩個響應是顧客的租用頻數以及顧客對商店貨源的充分性所作的評價。響應資料儲存在 Web 站點資料庫的 EX1073.DAT 檔案中,你應該將其下載到你使用的軟體包中。第一列包括租用頻數的編碼,1為最低頻數,4為最高頻數。向樣地,第二列包括對商店貨源充分性評價的編碼,1為最差,4為最好。 a.對於每一個充分性評價類別,求頻數。 b.檢驗零假設:每一類別出現的可能性相同。(很多軟體包用來做擬合優度檢驗並不容易,所以你可能還需手計算。)在a=0.10下,該假設能被拒絕嗎?當a=0.01 時怎麼樣? 10.74 利用練習10.73中的資料,檢驗李假設,即頻數和貨源充分性在統計上相互獨立。對於該零假設, 值說明了什麼? 10.75 利用練習10.73中的資料,求在每一類充分性評價中顧客的百分比; 分別對每個頻數編碼求評價的百分比。隨著租用頻數的增加,你能發現百分比有什麼趨勢嗎? 10.76(人力資源)某大銀行主管福利的經理(從幾千名職工中)抽取353名作為樣本,以瞭解他們對兩種醫療津貼計劃的看法。感興趣的變數為:年齡(分為 5類,編碼1表示最年輕的職工,5為最年長的);看法(分為5類,1為最喜歡衛生保健組織的方式,5表示喜歡傳統的醫療費~-次一付的方式);根據職工是否有受撫養家屬享受該計劃將職工進行編碼(如果沒有,編為0;如果有,編為1)。響應數據(按順序從第1到第3列)被列在 Web 站點資料庫的EX1076.DAT 檔案中,將其下載到你的軟體包中。 a.求對應於每一個年齡和看法組合的頻數表。如果軟體包能夠做這種分析的話,對於每個年齡類別,求每種看法的百分比。對於不同的年齡類別,看法的百分比分佈相同嗎? b.利用軟體包檢驗零假設:年齡和看法相互獨立。在a=0.05 下,零假設能被拒絕媽? 10.77 練習10.76中主管福利的經理懷疑年齡和看法之間也許存在間接的關係:即職工的年齡與職工的受撫養家屬是否享受津貼有關,而職工的受撫養家屬是否享受津貼又與職工的看法有關。 a. 利用軟體包檢驗職工年齡和職工的受撫養家屬是否享受津貼之間的相關性。相關性最終成立嗎? b.對於職工受撫養家屬是否享受津貼與職T的看法,作同樣分析。 <.利用軟體包檢驗職工年齡和職工看法之間的相關性。對於有受撫養家屬

572• 第十章型別資料享受津貼的職工和沒有受撫養家屬享受津貼的職工,分別利用軟體包檢驗他們的年齡和看法之間的相關性。在這些檢驗中有一些相關性的證據碼? 10.78(生物)—-項致癌性研究旨在考察一種準備試用於人身上的藥物是否行可能導致腫瘤。為此,總共用300只(150 只雄性,150 只雌性)老鼠進行為期6 個月的試驗。開始時,隨機地將100只(50 只雄性,50只雌性)分配到控制組,100 只分配到低劑量藥物,剩的100只(50只雄性,50只雌性)分配到高劑量藥物組。在6個月期間,每天給控制組注射一次惰性溶液,而給藥物組注射一次摻有藥物的溶液。樣本資料如下表。 腫瘤數月控制組低劑董高劑量 ••個或更多 10 14 19 無 90 86 81 8.對於三個處理組中的每一組,給出患有•一個或多個腫瘤的老鼠的百分比。 b.給定a=0.05,檢驗對於三個處理組患有一個或多個腫瘤的老鼠的百分比分佈是否存在顯著差異。 c.就這種葯物來說,是否存在與腫瘤有關的藥物問題?也就是說,隨著藥物劑量的增加,患有腫瘤的老鼠的比例是否增加? 10.79 下面是針對練習10.78中資料的SAS計算機輸出結果。將其與你在練習10.78 中所得的結果進行比較。 RAT_GRP N_TUHORS Freguency Expected Cell Chi-Square Percenl Row Pct Col Pct I NONE I ONE-MORE Total

CONTROL HIGHDOSE LOHDOSE - — Total 十 II+-I 90 85.667 0.2192 30.00 90.00 35.02 | 81 | 85.667 | 0.2542 27.00 — 81.00; 31.52 一一 86 | 85.667 | 0.0013 一 28.57 | 86.00 | 33.46 | •一一十 257 85.67 STATISTICS FOR TABLR OF RAI_GRP EY NL TUMORS Statistic DF Value Chi-Square Likelihood Ratio Chi-Seuare Mantel-Haenszel Chi-Square Fhi Coefficient Contingency Coefficient 2 2 1 3.312 3.327 0.649 0.105 0.104 10.9 小 - --+ 10 | 14.333 1.3101 3.33 10.00 23.261 -+ 19 | 14.333 | 1.5194 | 6.33 19.00 | 44.19 | -1-+ 14 | 14.333 | 0.0078 | 4.67 | 14.00 | 32.56 1 --+ 43 14.33 結•573• 100 33.33 100 33.33 100 33.33 300 100.00 Prob 一0.191 0.189 0.420 ---

• 574• 第十章型別資料 cramer's t 0.105 Sample Size = 300 10.80(社會)一項社會研究旨在考察藍領工人呆在第一份工作上的時間與他們所受的教育之間是否存在一定的關係。根據工會會員的記錄,隨機抽取一部分工人,將其分類。資料如下。 第一份工作上的年數 0~2.5 2.5~5 5~7.5 7.5 受教育的年數 0~4.5 5 15 22 28 4.5-9 21 35 16 10 9~13.5 30 40 8 13.s 33 30 30 10 a.利用下面的計算機輸出結果,挑出期望單元數。 b.檢驗研究假設,即變數“呆在第一份工作上的時間”與變“受教育程度”相關。 c.給出該檢驗的顯著性水平。 d.用a=0.05 得出你的結論。 YRS_J0B YS_ EDU Ereguency Expected Cell Chi-Square Percent Row Pct Col Pct l0~4.5 + 0-2.5 | 5 17.902 13.5 1 4.5~9 1 9~13.5 + I-t--+-----+-----+ 33 1 21| 30 | — 25.342 | 20.971 1 23.784 1 Total 89

2.5~5 -- 5~7.5 -- 7.5 Total | | 1!! 10.9 小結•575、 9.2988 1.44 5.62 | 7.14 | ~--+- 15 | 24.138 1 3.4594H 4.31 12.50 1 21.43 | -+ 22 | 16.695 1.6854 6.32 | 26.51 1 31.43 1 28 1 11.264 | 24.964 1 8.05 1 50.00 40.00 70 20.11 1.6829 | 3948-7 1 1.6243| 9.48 6.031 8.62 37.08 | 23.60 33.71 32.04| 25.61 | 32.26 111+311--+--11-+ 30 | 35 | 4 | 35.537 | 28.276 | 32. 069 0.857 1.599 1.9614 8.62 10.06 11.49 25.00 | 29.17 | 33.33 | 29.13 | 42.68 43.01 | ---+ --—+ ---+ 30 16 15 1 24.566 19.557 22.181 1.202 0.6471 2.3248 B.62 4.60 | 4.31 36.14 19.28 | 18.07 | 29.13 | 19.51 16.13 | +1 --~-+ --+ 10 | 10| 8 | 16.575| 13.195 | 14.966 | 2.608 0.7738 | 3.242 2.67 | 2.B7 | 2.30 17.86 1 17.86 14.29 9.71 1 12.20 1 8.60 | - -+-g!-|+ - -+ 103 82 93 29.60 23.56 26.72 STATISTICS FOR TABLE OF YRS_ JOB BY YRS_ EDU Statistic DE Value Prob 25.57 120 34.48 日3 23.65 56 16.09 348 100.00 |

• 576• 第十章型別資料 Chi-Sqare Likelihood Ratio Chi-Square Mantel-Haenszel Chi-Square Phi Coefficient Contingency Coefficient Cramer's t 9 9 1 57.830 55.605 31.376 0.408 0.377 0.235 0.001 0.001 0.001 Sample Size = 348 10.81(心理學)Johns Hopkins 大學的兩位研究人員研究年長者的用藥情況。在最近一次研究中,病人被耍求回答,就他們的藥物治療情況而言,醫生給他們提供了什麼樣的建議。研究者發現: • 25.4%病人說醫生並沒有告訴他們藥物起什麼作用。 •91.6%表示他們並未被告知藥物可能如何“煩擾”他們。 •47.1%表示醫生並沒有問他們在治療開始之後,葯物對他們如何“有用”或如何“煩擾”他們。 •87.7%表示在和醫生討論了治療如何有幫助或如何煩擾他們之後,藥並沒有改變。 a.假定在研究中,共接待了500位病人。用95%信區間總結上述每一個結果。 b,對這些結果的有效性,你作何評論? 10.82(醫學)40歲以上的人比較注意他們的消化系統,因為消化系統決定了他們吃什麼,吃多少。一項研究旨在考察我們這個社會不同種族的人是否都有這種傾向。經隨機抽樣得到盎格售撒克遜人,德裔,拉美裔,義大利裔,西班才裔以及非洲商美國人的樣本。抽樣資料如下: 種族盎格魯撒克遜德飴拉美義大利西班牙非洲響應人數每組聯絡了60個人 $5 58 52 54 30 49 消化系統不正常的人數 7 6 34 38 20 31

10.9 小結•577• a. 是否存在因響應比率而產生的偏離? b.用95%信區間比較盎格魯撒克遜人和德商美國人的比率,即相應的T;。 10.83 參看練習 10.82。似乎有兩種不同的比率——一種圍繞著12%,另一種圍繞著70%。合併前兩組樣本資料,同時也合併後四組樣本資料。利用這些的比率, 2對應十第一組混合樣本的比率。給出檢驗的值。 10.84(商業) 隨機地從某期刊出版社未經閱讀的毛條校樣中抽取40頁作為樣木,下面列出了每頁錯誤的頻數資料。 錯誤/頁 0 1 2 3 4 5 6 7 8 9 10 觀察頻數 9 2 1 2 給定a=0.10,試檢驗每頁錯誤數是否服從均值為3.2的 Poisson 分佈。 10.85(園藝)••位昆蟲學家對研究大批滋生在密執根果園蘋果樹上的成年歐洲紅蟎蟲很感興趣。她從果園巾10顆相同的蘋果樹上分別隨機地選取50片樹葉,對它們進行檢測,並記錄下500片樹葉中每片樹葉上的蟎蟲數量。作為大型研究的一部分,她要模擬該果園蘋果樹上蟎業數量的分佈。基於所得到的資料,對子蘋果樹上歐洲紅蟎蟲的數量,Poisson 分佈似乎是一個合理的模型嗎? 每片樹葉的蟎蟲數 0 I 2 3 4 5 6 7 頻率 233 127 57 33 30 10 7 3 10.86 參見案例。分析資料,並回答總經理的問題,應包括置信區間,假設檢驗,以及任何相關的圖表。計算機輸出結果如下。

• $78、 第十章型別資料 ANALYSIS OF CASE STUDY TABLE OF BUILDING RATINGS BY GROUP BUILDING RATINGS GROUP Frequency Expected ce11 Chi-Squarel Fercent Row Pct Col Fct i 1G1 G2 G3 G4 111 8I 1 9.84131 10.6351 1 0.13641 0.65281 2.181 1.591 27.501 20.001 8.871 5.971 151 61 9.28571 10.2381 3,51651 1.7544! 2.981 1.191 37.501 15.001 12. B2I 4.651 •---+ 2 101 9.5952| 0.01711 1.981 25.6¢6 6.051 3 61 10.3691 1.8409 1.196 15.381 4.481 --+ 1851 9.05361 9.98211 8.84061 2.4866 3.571 9.991 46.151 12.621 15.381 3.88| 421 44.5321 0.93951 10.121 48.1231 0.07321 42.0181 46.3271 759E-81 1.49691 B,331 7.541 23.201 20.991 37.311 35.901 29.461 一一 4 251 401 33.7061 0,40761 5.951 21.901 24.191 36.4251 0.57471 8.131 29.931 30.601 31.8041 35.0651 1.0591 0.6944! 5.161 7.941 18.981 29.201 22.221 31.011 5 221 291 161 401 26.3251 2B.4481 24.8391 27.3871 0.31071 0.0107 3.1455: 5.8091 4.371 5.75k 3.17! 7.941 20,561 27.10b 14.951 37.381 17.741 21.64i 13.681 31.011 rotai --+ 20:6 26:5 117 129 23.21 25.66 STATI STICS FOR TABLE OF BUTLDING RATINGS BY GROUP DF Value 34-167 32.737 4.139 Phi Coefficiant Contingency CoefEicient Cramer'sV sanple size - 504 0.250 2.25 1.15 Tota2 40 7.94 ' 39 7.74 181 35.91 137 27.18 107 21.23 504 100.00 Prob

10.9 小結 • 579• ANALYSIS OF CASE STUDY TABLE OF SERVICE RATINGS BY GROVUP SERVICE RATINGS OROUE Frequency Epected ce11 Chi-Square Percent Rcw Pct col Pct G1 G2 G4 -+ 2 1.11 1 9,B4131 0.13641 2.181 27.501 8.871 •+- 101 9.5952 0.0171上 1.961 25.641 8.06| $1 10.6351 0.65281 1.591 20.001 5.97 1 -+ 61 10.3691 1.84091 1.191 15.381 4.481 151 61 9.28571 10.2381 3.51651 1.75441 2.981 1.191 37.501 15.001 12.821 4.651 - ~+ 181 S1 9.05361 9.98211 B.84051 2.48651 3.571 0.991 45.151 12.821 15.381 3.白白1 --+ --+ 511 501 •4.5321 4B.1231 0.93951.0.07321 10.121 9.921 28.181 27.621 41.131 37.311 $21 3月1 42.0181 4$.3271 759B-811.49691 6.331 7,541 23.201 20.991 35.901 29.461 -+ 301 33.7061 0.40761 5.951 21,901 24.191 411 261 401 36.4251 31.8041 35.0651 0.57471 1.0591 0.69441 B.13! 5.161 7.941 29.931 18.981 29.201 30.601 22.221 31.011 -+ 221 26.3251 0.71071 4.37! 20.561 17.741 291 161 401 28,4481 24.8391 27.3671 0.01071 3.14551 5.6091 5.751 3.171 7.941 27.101 14.951 37.381 21.641 13.681 31.011 --+ rotal 124 134 117 24.60 26.59 23-22 29: SHATISTICS FOR TABLE DE BUILDING RATINGS EY GROUP Statistic DF Value Chi-Square 12 12 1 34.167 32.737 4,139 Frob 0.001 0.001 0.042 Phi Coefficient Cont ingengy coefficient Cramer、s Samele size = 504 0.260 0.25 0.15 Total 40 7.94 39 7.74 161 35.91 137 27.18 107 21.23 100: 10.87 參見案例。寫一份非技術性報告,解釋你的分析揭示了什麼。

第六部分資料分析: 迴歸方法和模型的建立第十一章線性迴歸和相關