AI 新聞與投資
統計學方法與資料分析引論

第五章)注意,分層是利用一個輔助變,即個人收人的知識來實現的。透過把收

4 / 34

入分為高低兩層,我們增加了估計的精度。 比估計比估計是第二個利用輔助變數所含資訊的方法。比估計不僅使用對所關心的響應變世的測量值,而且把它與輔助變數的測量值結合起來。比估計同樣可用於分層隨機抽樣。 鏊群抽樣儘管我們在抽樣調查中希望得到的是個人的見解,但尤其在城市地區,抽取家庭、公寓樓或城市街區而不是抽取單個的選民可能會是一個更經濟的方法。抽取完這些單元以後,在抽中的單元內我們可以得到每一位合格選民的見解。這一方法稱為數群抽樣。儘管在整群抽樣和分層抽樣中我們都對總體進行分組,但這是兩種不同的方法。在分層隨機抽樣中,我們在每一組中抽取簡單隨機樣本,而在整群抽樣中,先抽取有關組的簡單隨機樣本,然後調查選中組(群)中的所有元素(詳細內容參見 Scheffer 等,1996,第八,九章)。 系統樣本有時,所關心的總體中人的名單可以從諸如登記表,或抽屜中的文件卡等這樣的列表中得到。對這種情況,一種經濟的抽樣方法是在列表的起始處選擇一個名字,然後依次每隔10或15個名字選一個人,從而得到一個樣本。以這種方式抽取的樣本我們稱之為系統樣本。正如你期望的那樣,系統抽梯提供了一

2.2 調查•23• 種獲得抽樣資訊的便利方法。不幸的是,在一定費用的前提下,我們未必能得到最多的資訊。(詳見 Scheffer 等,1996,第七章) 此處要理解的重點是,有多種不同的收集樣本資料的抽樣調查方法。在本書中,我們將討論簡單隨機抽樣和由此得到的樣本資料的分析和概括的方法。更復雜的抽祥調查導致在統計概括和分析資料階段更復雜的問題。 美與統計學會(ASA,網址:http://www.amstat.org, email: asainfo @ anstat.or8)出版了一系列有關抽樣調查的檔案:What Is u Survey (麼是抽伴調費)?How to Plan a Suruey(細何根計調疹),Hov to Collect Surzey Data (l何收第淨查裁據),Judging the Quality of a Surzey(判定調查的質盤),Hou to Crmduct Preesting(初何進行兩奇滑查),What Are Focus Groups (f 麼是焦點組)? 以及More Aboul Mail Surwey(百關通後調查的進一步討論)。這些檔案描述了許多對獲得有效和有用的調查起決定作用的因素,列出了許多在調查中常見錯誤的潛在根源,並且給出瞭如何避免這些錯誤的指導性原則。下面列出其中的一些內容。 與抽樣調查有關的問題即使恰當地選取了樣本,調查結果是否代表了從中取樣的總體仍可能並不確定。這種不確定性的兩個主要來源是無回答和測量問題。無回答發生在一部分被抽中的個人不能或不願參與調查。測量問題發生在對問卷中問題的回答不能提供設計調查時所預期得到的那類資料。 調查中的無回答調查中出現無回答可能會因為樣本不代表總體而使得調查產生偏差。Judging the Quality of a Survey 中指出,在對一般人的調查中,女人比男人更願意參與調查,也就是說,男人的無回答率要比女人高。這樣,在有關政治問題的民意調查中,如果總體中贊成某特定問題的女人的百分比大於總體中支援該問題的男人的百分比,該調查可能出現偏差。因為樣本中女人的比例比總體中女人的比例大,所以這項民意調查將會過高估計總體中贊成該問題的人的比例。 在所有的調查中,必須對無回答組進行詳細檢查,以斷定是否總體的某特定部分在樣本中可能有過多或過少的出現。對付無回答的措施有: 1.為參與調查的人提供某種獎勵物品以增加他們參與調查的積極性。 2. 對沒有回答第一次聯絡的個人給以提醒或打電話跟蹤採訪。 3. 利用統計方法,在考慮到樣本不同於總體的側面的基礎上,對調查結果予以調整。 測量問題測量問題是由於回答者沒有提供調查所尋求的資訊而造成的。這些問題常常可婦因於調查設計問題中的某些措辭、被調查者回答調查問題的方式, 及在採訪中採訪人表達問題的方式。特殊問題的例子及可能的措施如下: 1.網想不起問題的部案:被採訪者被問及去年他或她參觀某個城市公園的次

• 24• 第二章利用調查和科學餅究來收集資料數。這類問題常常導致低估一個家庭在去年參觀該公園的平均次數。因為人們往往低估普通事情或採訪時間很久前發生的事情的發生次數。 一個可能的措施是要求被採訪人在作出回答前檢視原先的紀錄或與家庭中其他成員商討一下。 2.付苔案有清導性的提問:有關觀點問題的提問方式可能會使回答並不真正的代表被訪者的觀點。這樣,調查結果就會朝著問題本身所傾向的那個方向偏倚。例如,把有關州里是否要對違反環保規定的化工廠徵收大筆罰款的問題表述為:“考慮到處罰會導致該廠轉移到另一個州,而該廠是我們地區主要的就業單位,你會支援州里處罰該化工廠嗎?”這類問題往往誘使人們回答:“不支援”,從而,造成對整個地區中人們關於徵收化工廠罰金的觀點的歪曲。預防措施是以客觀的方式仔細地寫出問題。 3.問題中不明碳的譜辭:某運動俱樂部試圖確定人們每週鍛鍊的次數。問題是這樣間的:“上星期你運動了多少次?”“運動”一詞對不同的個人有不同的含義。允許人們對調查問卷中問題的主要詞句給以不同的理解只會使得調查結果的精確性大大降低。一些可能的預防措施是:在進行調查之前,把問題在各種人中進行測試,以判斷問題中是否有含糊不清或會引起誤導的詞句;在對採訪人員進行培訓的過程中,讓所有采訪人員知道所有關鍵詞的“正確的“定義,並且建議他們把這些定義提供給回答者。 ASA 出!版的一系列小冊子中還有許多其他注意事項、問題及其對應措施。 圖2.1中包含了一項調查的設計、實施和分析的各個階段。該圖的早期版本可以 Cryer 和 Miller(1991)著的 What Is a Surzey?中得到。該圖表為恰當地進行成功的調查提供了指導。 資料收梟方法選擇了某個抽樣調查方法後,實際中如何來收集資料呢?抽樣調查中最常用的收集資料的方法是當面採訪和電話採訪。如果適當地培訓採訪者,謹慎地計劃再次訪問,那麼這些方法可達到60%至75%有時甚至更高的回答率。向我們感興趣的持定的人群郵寄調查問卷也能收得到較好的結果,但是一般來說,這種收集數據的方法的回答率是如此之低,以至於所有報告出來的結果都值得懷疑。通常,直接觀察比採訪或郵寄同卷更容易得到客觀的資訊。 當面採訪調查資料經常透過當面採訪得到。例如,我們可以利用對有資格選民的個人採訪得到有關公眾對社群公債問題看法的樣本。這一程式通常要求採訪者同一些預先準備好的問題並記錄下回答者的回答。這類採訪的最大優點是人們通常會因面對面的採訪而作出回答。另外,採訪者可以注意到回答人的特殊反映,排除他們對所問問題的誤解。當面採訪的主要侷限(除了費用高外)涉及到採訪人員。如果對他們沒有進行充分地培訓,他們可能背離所要求的有關事項,從而

2.2 調查 • 25• 招募調查人員培訓調人員編碼準備原始調查想法問卷準備」資料處理的修正 _酸據蛋後的遊析提綱基本實施計劃矅募調查人員墩後抽樣設計工列出清單初步抽樣方案報告的基本提綱樣本拂選鑣雄輸入朳裂湝理報售質量控制校驗分析方案 - 裘要求倒 2.1 調查的各個階段把偏差帶進樣本資料。調查員的任何動作、表情或陳述都會影響得到的回答。例如,像“你也支援公債嗎?“這樣對答案有誘導性的提問會導致肯定的回答。最後, 回答紀錄中的誤差也會導致錯誤的結果。 電話採訪也可以透過電話採訪樣本中的個人而得到資訊。隨著電話服務機構之間競爭的加劇,採訪者不用花費多少錢就可向國內的某個或某些地區打上無數次電話。由於省去了旅行費用,透過電話採訪進行調查通常比當面採訪的費用少。調查員還能監控調查,以確信定好的採訪方案被採訪人員採用。 電話調查的主要問題是很難找到與總體緊相符合的電話號碼本或電話號碼單。電話簿中有許多非家庭的電話號碼,而許多家庭電話的號碼又未列入電話本中。儘管有些家庭沒有電話,但在美國對大多數調查來說因缺少電話而給大多數調查帶來不便只是個小問題而已。避免由於未列入電話本而造成的問題的方法是隨機撥號,即先選定交換機號碼(七位電話號碼的前三位),然後隨機地選擇後四位號碼進行撥叫,直至接通的指定型別的家庭達到預先規定的個數為止。用此方法不但從目標總體中產生了樣本,而且避免了許多直接對電話簿進行抽樣所固有的問題。 電話採訪的時間一般應短於當面採訪的時間,因為回答者往往更容易在電話交談中變得不耐煩。如果問卷設計恰當,調查員經過了良好的培訓,那麼電話採訪會像當面採訪一樣的成功。 自主執行的問卷調查另一種收集資料的有用方法是自主執行的問卷調查, 問卷由回答人自己完成。儘管可以使用其他的傳送方法,但這些調查表通常是郵寄給包括在樣本中的個人。如果要想鼓勵回答者積極參與,那麼必須謹慎地設計調查表。

• 26• 第二章利用調查和科學研究來收集資料由於自主執行的問卷調查不需要調查人員,所以它的使用可以節省調查費用。 這一費用的節省通常是以降低迴答率為代價換來的。儘管在任何形式的資料收集方法中,都會出現無回答這樣的問題,但由於郵寄問卷的形式使得我們最小限度的跟回答者接觸,故我們經常得到最低的回答率。低迴答率會因為回答問卷的人不能代表研究人員所關心的總體而把偏差引進樣本。為消除這樣的一些偏差,調查員經常透過作為追加信件、電話採訪或當面採訪等形式與無回答者進行聯絡。 直接觀察收集資料的第四種方法是直接觀察。如果有興趣估計下午4-6 時交通高峰期間使用某特定路段的卡車的數量,我們可以派一個人去數一下這段時間內經過某指定地點的卡車數,或者也可以使用電子計數裝置。選用觀察者的缺點在於觀察中可能出現誤差。 直接觀察在許多不涉及對人進行測量的調查中使用。美國農業部為了得出作物產量的估計而直接測量田塊中眼作物有關的一些量。野生生物學家會透過數出動物、動物的足跡、卵或巢的數量來估訃動物種群的數垃。 與直接觀察密切相關的概念是從沒有受回答者影響的客觀物源處獲得數據。例如,有時可以從醫院的記錄中得到健康資訊,收入資訊(特別是州或聯邦政府的工作人員)可以從僱主的記錄中得到。這種方法可能花費更多的時間,但它會為重要調查帶來大量令人滿意的回報。 練習基本技能 2.1(社會)某實驗者想估計一城市每戶家庭的平均用水董。討論分別選擇單個的家庭、公寓樓和街區作為樣本單元時,各調查相對的優點。 2.2(環境)一個林業工作人員想估計一個林場中直徑超過12英寸的樹的總數。林場的地圖可以得到。討論抽取什麼樣本及如何抽取它們的問題。 2.3(工程)一個安全裝置專家想估計具有不安全花紋的汽車輪胎的比例。 在他的樣本中,他應選用單輛的汽車還是選用像停車場這樣的汽車的集合。 2.4(人力資源) 由遍佈全美的各小分工廠組成的一家企業的執行官員想調查該企業員工對企業休假政策的意見。你將為她的抽樣提供什麼建議? 2.5(農業)某州農業部門想估計該州玉米的種植面積。怎樣進行這樣的調查? 2.6(政治科學)•政治學者想估計某州成人居民贊成單院立法的百分比。 抽取什麼樣本?同時討論當面採訪、電話採訪、及郵寄式的問卷調查等作為收集數據方法的相對優點。 2.7 對下面的每一種情況討論使用如當面採訪、電話採訪、及郵寄式的調查問卷等作為資料收集方法的相對優點。

2.2 調查•27. a.一電視經理人員想估計某時刻全國正在觀看他們的節目的觀眾的比例。 b.某報紙的編輯想調查公眾對該報紙所刊登的新聞報道的型別的態度。 c.某城市一政府部門的官員想確定房主對提議的城市分割槽變動的看法。 d. 某縣衛生部門想估去年一年發狂犬病咬人的狗的比例。 2.8(社會)1984年秋季 Yankelovich、Skelly 和 White 所做的一項民意調查表明,被調查的2207人中有1/5的人承認在交納聯邦所得稅時有欺騙行為。你認為這一比例與真正的有欺騙行》的人的比例接近嗎?為什麼?(討論獲得有關這類問題的精確資訊的困難之。) 2.91商業)為衡量低脂花生醬廣告的效果做了兩個調查,在一個調查中,調查員.上門詢問他們是否購買了此種低脂花生醬。在另一調查中,調查員在被訪者說他或她購買了低脂花生醬時,要求他們拿盛花生醬的罐給調查員看。 a.你認為這兩種調查會產生類似的有關選用該產品的家的百分比的結果嗎? b,每種調查中會引入什麼型別的偏差? 2.10(教育)時代雜芯在20 世紀50年代期的一篇文章中聲稱“耶魯大學 1924年的那屆畢業生的平均收入是每年25111 美元”,這相當於如今的150000多美元。時代雜誌的這一估計是基於 1924 年那屆學生對郵寄給他們的抽樣調查問卷所做的回答,而收到問卷的這些人,是其地址記錄在20世紀50年代後期耶魯大學管理部門的文件中的人。 2.什麼是所關心的抽樣總體? b.抽選樣本所使用的方法能產生一組可代表所關心的總體的樣本嗎? c.獲得樣本的程式中什麼是產生偏差的可能的來源? d.基於樣本偏差的來源,你認為時代雜誌20世紀50年代對耶魯大學1924 年那屆畢業生的年薪估計過高、過低還是接近正確值? 2.11(人力資源)一家大型衛生保健機構想了解在其僱員當中,有多少人花費相當多時間照看年歲大的親戚。該機構要制定一項有關僱員為照料年歲大的親戚所需要的病假天數的政策。該機構中有數以幹計的僱員,因此決定抽取一部分僱員來填寫一份調查表。 a.你如何來定義“僱員”?是不是隻考慮全職的人? b.如何選取僱員樣本? c.應收集僱員的什麼資訊? 2.12(商業)某大學的護理學院正在制訂一項長期的計劃以確定該學院將來幾年所需的教師人員的數量。為此,學院需要確定往年許多畢業生於之就業的幾個地區中未來對護士的需求。於是學院決定調查醫療設施和私人醫生以幫助確定術來護人員的需求。

• 28• 第二章利用調查和科學研究來收集資料 a.你如何得到一張有關私人醫生和醫療設施的表,從中抽取一些醫生來填寫問卷? b.調查問卷中應包括什麼問題? c.你如何確定有執照而近期又沒被僱用的那些護士的數量? d.在有許多護理人員就業的這些地區,什麼可能是決定人口增長和影響健康因子的根源? e. 你如何抽查衛生保健設施和各類私人醫生的總體而不把任何醫療方面的人員排除在調之外? 2.3 科學研究科學研究中的試驗設計這一主題不可能在一門統計方法課程的開始階段就融會貫通。全面理解試驗設計的方法和概念需要開設本科生和研究生水平的一系列課程。即便如此,我們將努力對這一主題給你一個簡略的概覽,因為許多需要分析或概括的資料都來自於包含某種試驗設計的科學研究。 某商品檢測機構決定評估四種主要品牌輪胎的使用效能。對於該研究,這一機構選取了標準車型的四輛車,且每一品牌選了4個輪胎。這些輪胎將被安在4 輛車上,然後這些車在2英里的跑道上開30,000英里的路程。在開了30,000英裡後,各輪胎胎面的厚度磨損是研究中所關心的量。由4個不同的司機來開這四輛車,但他們都是具有同等的訓練經歷和經驗的職業司機。在研究期間,天氣條件、路面狀況及 4輛車的維護情況對於所有這四種輪胎品牌沒有本質差別,其他會影響輪胎磨損的外部因素也都基本相同。這樣,檢測機構有自信認為,如果在最後的觀察中發現四種品牌的輪胎的耐磨性之間有差異,那麼這一差異是真正源於品牌間的差異,而非由進行研究的方式而造成的。檢測機構有興趣紀錄其他因素,如輪胎的價格、廠家提供的保修期限、研究過程中輪胎是否失衡及輪胎斷面磨損的均勻性。在這個例子中,我們將只考慮胎面的磨損。應該記錄下每一輪胎的胎面磨損度,每一品牌4個輪胎共16個。為了在四種輪胎品牌中做出比較(或推斷),要利用第八章和第十五章提出的方法來分析和概括胎面磨損資料。一個可能感興趣的推斷是選出胎面磨損最少的輪胎品牌。如果同樣的試驗重複進行的話,能否期望在這次的樣本資料中表現最佳的輪胎品牌下次還呈現最佳的胎面耐磨性?這些研究結果適用於一般司機的駕車習慣嗎? 試驗設計有許多方法把輪胎分配給那4輛車。我們將考慮做這樣的試驗,其中四個品牌中每一品牌有4個輪胎。首先,我們需要決定如何把輪胎分配給汽車。我們可以隨機地給每輛車分配單一品牌的輪胎。但這樣做將使得測量單元變成每輛車上

2.3 科學研究•29• 四個輪胎總的胎面磨損而不是單個輪胎的磨損。因此我們必須隨機地把十六個輪胎分給4輛車。在第十五章我們將說明這一隨機化如何實施。一種可能的分配方案如表2.1 所示。 汽車1 品牌 B 品牌B 品牌 B 品牌c 表2.1輪胎奉損的完全隨機化設計汽車2 汽華3 品牌A 品牌A 品牌 A 品牌 B 品牌C 品牌C 品牌C 品牌A 汔車4 品牌D 品牌D 品牌D 品牌D 一般來說,完全隨機化設計用在我們對比較:種“處理”(上例中=4,處理是輪臉品牌)感興趣時。對每一種處理我們得到一組觀察樣本。對於各個處理,樣本量可以不同。例如我們可以對品牌A、B、C各檢測20個而對品牌D只檢測12個。 設由一種處理產生的所有可能值構成假定的總體,則從該處理得到的觀察值樣本被認為是從該總體得到的簡單隨機樣本的觀察結果。在我們的例子中,A品牌的 4 個輪胎磨損厚度樣本被認為是從由標準型號的吃車使用 A 牌輪胎執行30,000 英里後所有可能的輪胎磨損厚度構成的假定總體中抽出的有4個觀測的簡單隨機樣本的觀測值。 試驗中可能有某些變數的效應與如何進行試驗有關。我們有可能改變試驗的設計,使其適應於這種情況。在我們的例子中,我們假定了不同疙車、天氣、司機和各種其他因素的效應對四種品牌都是相同的。現在,如果4號車輪胎的磨損程度按其他三輛車的小,那麼我們的設計有沒有把這一效應考慮在內了呢?因為4號車上的4個輪胎都是D品牌的,D品牌觀察到的磨損可能會由於4個D品牌的輪胎均裝在“最好的“車上而比其他3個品牌的小。在某些情況下,分配處理之前觀測物件就已有所差別。例如,在評價一些降血壓藥效果的試驗裡,參與者的年齡或身體條件會降低藥的療效。為了避免這些因素掩蓋藥物療效,我們希望在設計試驗時把這些因素考慮在內。同樣,試驗過程中所退到的環境條件也可能降低處理的效應。 在我們的例子中,我們想避免因四輛車的差異而歪曲了四種品牌的比較結果。 用於實現這一目標的試驗設計方法稱為隨機化區組設計,這是因為我們要用劃分區組的方法排除四輛汽車差別的影響以得到四種輪胎的精確比較。在隨機化區組設計中,每一處理出現在每一組內。在血壓的例子中,我們將接照他們血壓問題的嚴重程度對病人分組,然後在每一組內隨機分配藥物給病人。由此看出,隨機化區

•30• 第二章利用調查和科學研究來收集數操組設計與抽樣調查中用的分層抽樣相似。在輪胎磨損例子中,我們將把四輛車看成四個組,並給四輛車中的每一輛車,在每一品牌的輪胎中隨機地分配一個輪胎。 如表2.2所示。 汔車! —- 品牌A 品牌 B 品牌C 品牌D 表2.2 輪胎磨損的隨機化區組設計汽車2 汽車3 品牌 A 品牌A 品牌B 品牌B 品牌C 品牌C 品牌D 品牌D 汽車4 品牌A 品牌 B 品牌C 品牌D 好了,如果汽車間有任何影響輪胎的磨損情況的差別,那麼這一效應會同樣的作用到所有四種品牌上。 如果車胎在汽車上的安裝位置影響輪胎的磨損會怎麼樣呢?車胎的位置有右前(RF)、左前(LF)、右後(RR)、左後(LR)。在表2.2中,我們假定4 個A 品牌的輪胎被安裝在車的 RF位置,B品牌安裝在 RR位置,C品牌安裝在L.F 位置,D品牌安裝在LR 位置。如果在RF 位置上的輪胎磨損最嚴重,那麼根對其他3種品牌而言,A牌輪胎處於極其不利的地位。在這種情況下,我們說品牌效應和車上位置效應混雜在一起了。也就是說,使用研究中的資料,我們不能把兩個或兩個以上因子的效應明確地歸因於單個因子。如果我們觀察到四種輪胎品牌之間的平均磨損存在很大差異,那麼這一差異是由於品牌不同造成的還是由於輪胎安在車上的不同位置造成的?利用表2.2給出的設計,無法回答這一問題。這樣,我們現在需要兩個區組變數:測試輪胎的汽車和車胎安在汽車上的位置。有兩個區組變數的設計稱為是拉丁方設計。對於我們的例子,一個拉丁方設計如表2.3所示。 輪胎安裝位鴛 RF RR L.F L.R 吃車1 品牌A 品牌B 品牌C 品牌L 表2.3 輪胎磨損的拉丁方設計汽車2 品牌B3 品牌C 品牌 D 品牌A 汽車3 品牌c 品牌D 品牌A 品牌 B 汽車 4 品牌D 品牌A 品牌 B 品牌C

2.3 科學研究•31• 注意,對於這一設計,每種品牌的輪胎都分別被安在四輛車上的四個不同位置。因此,如果位景或汽車對輪胎磨損有影響的話,那麼位置效應和/或汽車效應對四種品牌來說將相同。觀測到的磨損差異就能被歸因於四種汔車品牌之間的差異。 隨機化區組設計和拉丁方設計都是以比較:個處理為目標的完全隨機化設計方法的擴充套件。有關對完全隨機化設計收集來的資料的分析及由此作出推斷的討論,我們將在第十五、十七章給山。第六章給出了隨機化區組設計的一個特例,其中處理的個數:=2,並且還討論了資料的分析及如何從這些分析作出推斷。 析因試驗假定我們想考察兩個(或兩個以上的)變數(因子)對子某響應的效應。例如, 假定一試驗員要考察兩個變址,即氮和磷對選定的一個玉米品種的產量的影響。 何時假定每一因子有3個水平,即氮肥每塊地施40、50或60磅;磷肥每塊地施 10、20或30磅。對這個研究,試驗單元是一些面積較小而又相當類似的小塊士地,它們是把一定面積的農場進行劃分而成的。 一種考察兩種或兩種以上的因子對響應的影響的方法是一次一因予法(one at a time approach)。為了考察單個變數的效應,試驗人員在保持其他自變數水平恆定的同時,改變該變數的水平。這一過程一直繼續到每一變數對響應的效應都被考察完畢。 例如假定我們想確定使玉米產量達最高的氮肥和磷肥的組合。我們將選定磷肥的一一個水平比如20磅,變動氮肥的水平,然後觀察出哪種組合得到最大的產量, 其中產量以每英畝多少浦式耳計。其次,我們將使用有最大產的組合中氯肥的水平,變動磷肥的施肥量,然後觀察出最大產量的氮肥和磷肥的組合。這一組合稱為最佳處理。我們將用表2.4中給出的假定的產量值來說明與該方法有關的問題。假定對各種處理做了許多次重複試驗,這樣試驗的結果幾乎與產量的真值一樣。 40 50 60 表2.4 假定的總產量(浦式耳/英畝) 磷 10 125 155 175 20 -- 145 150 160 30 190 140 125 起先,我們用20磅磷肥分別和氮肥的三個水平40、50、60 來做試驗。我們會得到用60磅氮肥和20磅磷肥產出最大產量為160浦式耳/英畝。然後我們把氮

•32• 第二章利用調查和科學砑究來收集資料肥的水平固定在60磅,變化磷的水平,這將得到它與水平為10磅的磷肥有最高產量175浦式耳/英畝。因此,我們可能斷定10磅磷肥和 60磅氮肥產生最大的產址。這些試驗的結果概括在表2.5中。 表2.5 試驗結果中的產量磷產量 20 40 145 20 50 15S 20 60 160 10 60 175 30 60 125 基於用一次一因子法得到的試驗結果,我們可能作出這樣的結論,60磅氮肥和10磅磷肥是最優的組合。細細檢查表2.4中的產量我們發現最優的組合是40 磅氮肥和30磅磷肥,這一組合的產量是190浦式耳/英畝。出此看出,只要一因子對響應的效應在另一因子的所有水平上不保持相同,此類試驗就可能得出不正確的結果。在這種情況下,我們就說因子間有互動作用。圖2.2描出了氮肥和磷非對玉米產量的互動作用。注意當磷肥保持10磅,麗氮肥從 40 磅增加到 60磅時,產董隨之增加;在磷肥的水平為20磅處,增加氮肥的量,產量也隨之增加,但增量較小。在磷肥的水平為20磅處,當氮的水平從40磅變到60磅時,產董增加了 15浦式耳。然而,在磷肥的水平為10磅時,當氮的水平從40磅變到60磅時,產增加了50浦式耳。此外,在磷肥的水平為30磅處,氮肥水平的增加實際上導致產量的減少。當因子間沒有互動作用時,對丁磷的各個水平,增加氮肥量的水平將得到相同的產量變化。 200 180 160 產米 ¥ 140 120 100 -N-40 -N-50 -4-N-60 20 磷肥水平圖2.2 各種氮-磷處理的產量表2.6和圖2.3描繪出一種兩個因子沒有互動作用的情況。在這種情況下, 磷肥對玉米產量的效應對於氮肥的三個水平都是一樣的。也就是說,當我們增加

2.3 科學研究•33• 磷肥的量時,對氮肥的三個水平來說,相應的玉米產量的變化是完全相同的。注意在氮肥的所有水平,對於磷的給定的變化相應的產量變化是相同的。然而,氮肥量越高,產量也越高。因此,圖中的三條線雖不相同但互相平行。當因子間有互動作用存在時,這些線或老相交或者分道揚鑣。 40 50 60 表2.6 假定的總產量(無互動作用) 磷 10 125 145 165 20 145 165 185 30 150 170 190 2001 1901 180 170量 160 1 150球 1401301201101005 -N-40 N-50 -N-60 20 磷肥水平圖2.3 氮-磷各種處理的產量 (無互動作用) 從圖2.3我們可以看出對於兩個因子沒有互動作用的情況,一次一因子法是適用的。不論磷肥最初選擇何種水平,一次一因子法總會得出最優產量。然而,在大多數情況下,試驗之前並不知道兩個因子之間是否存在互動作用。如果事實上兩因子間確有互動作用而假定其沒有互動作用並執行了一次一因子法,那麼試驗的結果將不能識別出最佳處理的組合。 不論互動作用存在與否,析因試驗對於考察兩個或兩個以上因子對於響應值的效應都是很有用的。與前面一樣,每個變數選取幾個水平、這些變數的實際背景是什麼都很重要。當把因子水平的組合隨機地分配給試驗單元時,我們就得到

• 34• 第二章利用調查和科學研究來收集資料了•個完全隨機化設計,處理就是這些因子水平的組合。 定義2.1 析因試驗是指在自變數的所有因子水平組合上都對響應變數進行了觀測的試驗。 使用我們前面提到的例子,我們對考察氮肥和磷肥各水平對玉米產盤的效應感興趣,氮肥的水平為每小塊兒地40,50和60磅,磷肥的水平為每小塊地 10,20 和30磅。我們可以用完全隨機化設計,把表2.7中的9個因子混合水平(處理)隨機地分配給試驗單元(種植玉米的小塊土地)。 兩個困子不必具有相同的水平個數。例如,我們可以做一個試驗,其中磷肥有 2個水平,氮肥有3個水平,即2×3的析因試驗。因子的個數也可以不止兩個。 玉米產址試驗可能是由鉀肥4水平、磷肥3水平、氮肥3水平梅成的,即一個4×3 x3的析因試驗。因此,我們會有4•3•3=36 個因子水平的組合或者說處理。在第十四、十五、十七、十八章我們將討論隨機化方法及分析和推斷各種試驗設計中由析因試驗獲得的資料的方法。 處理磷舥氮肥 1 2 表2.7 3×3 析因試驗的因子水平組合 3 4 10 s 20 40 10 50 10 60 20 40 50 6 20 60 7 8 9 30 40 30 50 30 60 更復雜的設計有時研究的目標是我們想考察當把某些其他外部的變異根源透過“化分割槽組” 排除在外時,某些因子對響應值的效應。這種情況需要對來自析因試驗的處理進行區組設計,這一點可以用下例來闡明。 某調查人員想要考察兩種抑制幼犬犬惡絲蟲的藥物(A和B)的效果。尊醫猜想藥物的效果可能依賴於小狗吃的食物。三種不同的食物(因子1)和兩種藥物 (因子2)組合起來我們得到一個有6個處理的了×2的析因試驗。同時,藥物的效果還依賴於小狗從母犬那兒遺傳來的對犬惡絲蟲的抵抗能力。這樣,在試驗中選取每窩有6只幼犬的4窩小狗作為區組因子,因為對十特定的一窩小狗它們有相同的母親。這6因子的水平組合(處理)被隨機地分配到4窩中任一窩內的6只小狗,這一方案見表2.8。注意該設計是真正的隨機化區組設計,其中區組是窩,處理是3×2析因試驗的6個因子水平組合。

2.4 觀察研究•35• 表2.8 犬惡絲蟲試驗的區組設計窩幼犬 1 2 3 4 5 6 1 A•D! A- D3 R-D1 A-D2 B-D3 B:D2 2 A-D3 B-D1 A-DI B-D2 B-D3 A- D2 3 B-D3 A-D2 B-D2 B-D! A-DI A-D2 4 B-D2 A-D2 A-DI B-D3 A-D3 B- D1 其他更復雜的區組設計和析因試驗的組合也是可能的。儘管如此,類似於對抽樣調查的討論,在本書中我們只處理最簡單的試驗設計。我們想強調的一點是: 科學研究中有許多不同的試驗設計方案可用來收集樣本資料,每一設計方案各有利弊。我們將在第十四~十九章展開對試驗設計的討論。到時,我們將集中討論如何分析由這些設計產生的資料。對於那些需要更復雜的設計的情況,為了得到最恰當的調查或試驗設計方案,我們需要向專業統計學家諮詢。 練習基本技能 2.13 考慮表2.6給出的產量。在這種情況下,沒有互動作用。說明試驗人員使用一次一因子法可以找到氮肥和磷肥的最佳水平組合,即得到最大產量相應的氮肥積磷肥的組合。你的解答應包括你用於試驗的5種組合。 2.14 做一個2×3的析因試驗,得到下表中給出的總體的值。注意有兩個值丟失了。如果兩個因子間無互動作用,試確定丟失的值。 因子2 因子1 I A 25 B 45 30 s0 2.4 觀察研究在我們離開樣本資料收集這一話題之前,我們將在觀察研究和科學研究之間作一區分。在科學研究的試驗設計中,觀測條件是固定的或被控制的。例如,對用完全隨機化設計方法做的析因試驗,我們在每一因子水平組合處都作了觀測。類

• 36• 第二章利用調查和科學研究來收集資料似地,對於隨機化區組設計,我們得到了每個區組中每一處理的觀察。這些“受控的“研究非常不同於觀察研究。我們有時使用觀察研究是因為無法進行真正的科學研究。下例可以說明這一點。 許多研究和公眾的興趣集中於吸菸對肺癌及心血管病的影響。一個可能的試驗設計是我們隨機地把一定數量的個人(如,1000 名)分成兩組,要求其中一組在被研究期(如,10年)內堅持吸姻,而另一組人在整個被調查過程中不準吸菸。在研究的最後,比較這兩組人患肺癌和心血管病的情況。即使我們忽略道德問題,這類試驗也不可能做成。因為研究時間很長,我們不可能跟蹤所有參與者並保證他們都遵守研究協定。同樣,也難於找到願意冒險去吸菸組的不吸菸者。 另一可能的研究是抽取一定量的吸菸者和非吸菸者,比較這兩組間患脯癌和心血管病的情況。如果我們能找到志願參與者,這一研究在很短的時間內就可以完成。 這樣做,我們犧掛了什麼呢?實際上,觀察研究和科學研究之間的根本區別在於能夠從研究中得出的推斷是不同的。對於比較吸菸者和非吸菸者的科學研究, 假設兩組中的個人都遵守了研究協議,那麼觀察到的吸菸組和非吸菸組間的忠病區別可以歸因於吸菸的結果,因為這些人是被隨機地分成了兩組。因此從一開始就認為這兩組是可比的。 這、推理過程對有關吸菸的觀察研究並不適用。觀察結果中顯示的兩組間的區別未必能歸因於吸菸的結果。原因是,比如有些遺傳因素會使人易染上抽菸且使人易惠肺癌和/心血管病。這樣組間區別可能是由於遺傳因素、吸菸或兩者的綜合因素造成的。典型的情況是,觀察研究的結果常常就變之同的關聯作出報告。 對於我們的例子,如果觀察研究表明,與非吸菸者相比吸菸者肺癌和心血管病的發病率高,我們會說該研究表明吸菸與肺掘和心血管病的發病率增加有關聯,這種謹慎的措辭是為了避開“吸菸導致肺癌和心血管病”這樣的說法。 然而,觀察研究時常是我們所能做的惟一的一類研究。我們的任務是確實理解所做研究的型別,從而理解資料是如何收集來的。然後,我們可以評論從這類研究資料的分析中作出的推斷。 2.5 資料整理:為概括和分析準備資料這一部分,我們集中討論在資料收集完成以後,為把這些資料變成計算機可讀的形式並進而進行分析所要遵循的一些重要的資料整理方法。這裡給出的當然不是一本包含所有必備工具的完整的手冊,而只是對一位整理人員應該瞭解的各個步驟的綜述。作為一個例子,本節討論製藥工業中已經嚴格正規化了的標準方法。 這些方法在其他企業和其他背景下會有所不同。

2.5 資料整理:為概括和分析準備資料•37, 我們從處理研究資料開始對這些方法的討論。在實踐中,這些步驟可能要花費從原始資料的獲取到分析結果的得出所需總精力的75%。這些方法是什麼呢, 它們為什麼如此重要,為什麼如此的耗費時間呢? 為了回答這些問題,我們來列出從資料的獲取起,到統計分析開始之前,這一過程中的主要資料處理步驟。然後我們將分別討論每一步驟。 為概括和分析而處理資料的步驟: 1.獲得原始資料資源。 2. 從原始資料資源建立資料庫。 3.編輯資料庫。 4.校正和澄清原始資料資源。 5. 資料庫的最終確定。 6. 從資料庫建立資料檔案。 1.獲得原始資料資源。對於每一個將要作出分析和概括的研究,資料總是以某種形式到達我們手中的。我們將把這些形式的資料統稱為原始資料資源。對於一個臨床試驗,原始資料資料的形式通常是病歷報告,即記錄著進入研究的每一位患者的調查資料的規格為8當×11 英寸的紙。對於其他型別的研究,原始資料統源可以是實驗室筆記本上的幾頁紙,儲存資料的磁帶(或其他機器可讀的資料形式),手工繪製的表格等等。 保留原始資料資料是重要的,因為它是資料軌跡的開始。資料軌跡起始於原始資料終止於從研究中得出的結論。涉及分析和概括許多不同研究的很多諮詢工作都保留一份日誌,記錄與研究和原始資料有關的重要資訊。在某些正規化的環境中(例如製藥工業),可能必須在以前工作的基礎上重新產生資料並重新進行數據分析。藥廠以外的其他場合中,也可能會要求對研究分析所做的一切寫一份回顧總結。在這些場合下,研究日誌將會成為獲取研究資訊的寶貴資源。研究日誌中一般包括如下一些資訊: 研究資料日誌 (1)獲得資料的時間,資料從何處而來。 (2)調查研究者。 (3)指定來做研究的統計學家和其他工作人員。 (4)研究的簡單描述。 (5)所研究的處理(組合、 備等)。 (6)原始資料資源。 (7)所要測量的響應及測量方法(如何測量)。 (8)用於研究的參考數字。

• 38• 第二章利用調查和科學研究來收集資料 (9)估計得到的(或實際的)完成日期。 (10)其他的一些相關資訊。 隨後,當研究分析完畢並進行結果交流以後,可以附加一些內容,說明研究結果是如何交流的,這些結果記錄在何處,儲存了什麼資料檔案及這些檔案儲存在何處等。 2.從原始資料資源建立影據庫。對大多數計劃做統計分析的研究,一般都建立-個計算機可讀的資料庫。建立資料庫所採取的步驟及資料的最終形式隨具體情況而異,依賴於統計分析所用的統計軟體系統。然而,我們可以基於輸入系統的形式給出一些指導性原則。 當資料將要被輸入某終端時,首先要檢查原始資料的易讀性。任何難以辨認的數字或字母或其他的問題都應引起協作者的注意。然後,寫一份指定資料列數和變數名的編碼規則,其中也要給缺失值(例如得不到的數值)定義相應的程式碼。 另外,對每一變基做一簡單描述也是有幫助的。從絡端鍵入的資料檔案被稱為機器可讀的資料庫。應該列印出一張資料庫的清單,並且把它與原始資料資源進行細細地檢查。其中出現的任何錯誤都應當在終端上進行改正並對更新的列表進行核對。 有時我們得到的資料已是機器可讀的形式。對於這種情況,磁帶和磁碟檔案就被認為是資料庫。然而你要讀取資料庫就必需要有一個編碼指導書。利用該編碼指導書,得到資料庫的清單,然後仔細檢查一下,看一看是否所有數字和符號看上去是合理的,生成檔案的格式是否是適當的。在進一步做下去之前,必須解決掉出現的任何問題。 有些資料集是如此之小以至於我們沒有必要從原始資料資源建立機器可讀的資料檔案。相反取而代之的是手算或用電子計算器計算。對這種情況,要檢查任何計算,看它們是否有意義。不要輕信你看到的任何東西,重新驗算一下不是個壞主意。 3.編想資料牢。做什麼樣的編輯、何時算完成了編輯過程與研究的型別以及在分析之前你對資料的準確性和完全性的關心程度有關。例如,在使用統計軟體包(如 SAS,Minitab)過程中,觀察每一變數的最小值、最大值及頻率分佈以確認沒有不合理之處不失為明智之舉。 應該考慮使用某些其他手段進行核對,如透過資料圖去尋找問題。同樣,根據資料結構的不同,應該做一些邏輯檢查。例如,如果有關病人的資料是由幾次訪問記錄下的,那麼第二次訪問記錄的資料不可能早於第一次訪問記錄的資料。類似的,如果第二次訪問後病人失去跟蹤,那就不該有任何該病人後來再被訪問的資料記錄。 對於小的資料集,資料的管理可由手工完成。但是對於大的資料集,這樣的工

2.5 資料整理:為概括和分析準備資料•39• 作費時良多而且枯燥乏味。如果需要用計算機編輯,那麼應尋找一種允許使用者指定某種資料編輯方式的軟體。即便如此,對於更復雜的編輯和邏輯檢查,可能有必要編寫一個專門的編輯程式來編輯資料。程式設計是一項紛繁耗時的工作,在獲得數據之前應預先做好計劃。 4.按正積澄灣原始數姆深。在從收到原始資料到交出統計分析結果的任何一步中都時常出現有關原始資料的易讀性或精確性的問題。我們發現為了便於在研究中確定資料的軌跡,把有關這些問題和差錯列為一表保留下來是有益的。 如果需要對原始資料作出修正《或澄清),就把它記在表上,並對原始資料資料作適當的變化。如果不需作任何修正,也在表上記下來。記住,對應於原始資料資料的任何變動,應對機器可讀的資料做相應的變動。 5.資料年的最絲磅定。可能有人一直告訴你說一項研究的所有資料總是一次到齊的。當然,情況並不總是這樣。例如,對於市場銷售的調查,不同地理位置可能調查的時間不同,因此那些負責資料處理的人不是同時得到所有的資料的。 然而所有這些資料子集必須經過一個建立、編輯和修正資料庫的處理過程。最後, 該項研究完成並把這些資料進行編輯,寫進資料庫。此時應再檢查一下資料庫,並在分析之前作最後的修正,因為對於大型資料集,分析和概括此類的零碎工作要花費大量的人力和計算時間。對最終的資料庫進行分析當然比以後不得不對作了變動的資料庫重複所有的分析要強的多。 6.從數姆庫建立數援檔案。一般來說,有一組或兩組資料檔案是從機器可讀的資料庫建立來的。第一組檔案稱為原始檔案,反映資料庫的基本結構。列出一份這些檔案的清單並與資料庫清單進行核對,以驗證變址是否以正確的形式被讀入,並且預設值程式碼被保留了下來。對於某些研究,原始檔案實際上被用於編輯數據庫。 第二組資料檔案稱為工作檔案,它可以從原始檔案產生出來。建立工作檔案是為「便於分析。它們可能要透過插入、計算或變換來重新組織原始檔案,選擇重要變數,建立或增加新變數。列出一份工作檔案的清單並與原始檔案進行核對以確認已經進行的重新組織和變數選擇是對的。透過手工計算來檢查計算和變換得來的變數以核對程式程式碼。 如果原始檔案和工作檔案是 SAS 資料集,你應該儘量利用SAS提供的檔案管理特性。在建立 SAS資料集時,應該給它們分配一個長度不超過40個字元的描述標識。該標識能和資料集一起儲存,而資料集的內容可在程式中隨時用SAS過 contents”列印出來。可以給所有變數起描述性的名字,長度不超過8個字元, 這些名字應具有與專案中有關變數相應的含義。另外,長度可達40個字元的變數標識可用來提供附加的資訊,“title”語句可以包括在SAS 程式碼中以標識該專案及描述每一項工作。對每一檔案可保留一份清單(用 proc print)和分析字典(用proc

•40• 第二章利用調查和科學研究來收集資料 contents)。 對於用其他軟體包建立檔案的情況,你應該使用該計算機程式中可用的標識和檔案管理特性。 即使運用了適當的統計方法,從研究中得出的結論也不能僭越分析所使用的資料,因此你得作出判斷。在分析之前,你在這些資料處理的零碎工作上所花費的時間總量,真切地依賴於研究的特性、原始資料資料的質量及你對資料的精度和完全性所要達到的信度。 2.6 小結從資料中學習的第一步是聰明地收集資料:指定資料收集活動的目標、確定所關心的變垃和為抽樣調查和科學研究選擇恰當的設計方案。這一章,我們討論了科學研究中各種各樣的調查設計和試驗設計。有了對進行調查或科學研究所需考慮的問題的基本瞭解,就能弄清楚為了達到資料收集活動規定的目標,該如何收集所關心的變數的資料。 我們還依據從樣本資料所能得出的推斷結論的不同,對觀察研究和科學研究作出了區分。在觀察研究中發現的處理組間的區別被說成是與處理的使用有光餅;另一方面,科學研究中發現的處理組間的區別則被說成是由子處理造成的。在下一章,我們將考察用來概括我們收集到的資料的方法。

第三部分概括資料第三章資料的描述第三章資料的描述 3.1 引言 3.2 計算器,計算機及軟體系統 3.3 單個變童資料的描述:圖表法 3.4 單個變數資料的描述:中心趨勢的度量 3.5 單個變數資料的描述:變異性度量 3.6 盒形圖 3.7 多變數資料的概括 3.8 小結 3.1 引言在前一章裡,我們討論了從資料中學習的第一步——如何智慧地從試驗或調查中收集資料。現在我們轉到第二步——-概括資料。 統計領域可以分為兩個主要分支:描述統計與推斷統計。在兩個分支中,我們都討論一個測量值的集合。在以資料描述為主要目標的情形,我們所擁有的測其億常常來自於整個總體。例如,假設要描述在2000年人口普查中登記的所有家庭的年收人的分佈,由於所有這些資料都記錄在計算機磁帶上,並可以隨時呼叫,我們不需要從這個總體中獲取隨機樣本,而是對整個總體的測量進行處理。我們面臨的主要問題是組織、概括和描述這些資料,即理解這些資料。同樣,大量的月份、季度及年份醫療費用資料可以從 HMO(保健組織)管理的健康護理業得到,這些資料由於包含疾病的型別,患者的年齡,住院和門診的護理,處方的費用,外界的補償以及許多其他型別的花銷等而龐雜紛繁。然而,為了把這些資料以有用的形式提供給HMO的管理者、國會、醫生以及消費者,需要對其進行組織、概括和描述。適當的概括性度量可以為原始測量值的集合提供一幅良好的、粗線條的描繪。 涵過把一大堆測量值縮減到幾個這樣的描述性統計量,我們可以理解資料所包含的資訊。 當我們關注統計推斷時,通常惟一可以利用的測量值集合就是一個樣本。我們利用樣本資訊對從中抽取樣本的總體做出結論。當然,在推斷的過程中,我們也需要組織、概括及描述這個樣本資料。

•44• 第三章資料的描述例如,與一些孤立的產品損害事件有關的悲劇導致了聯邦法案的產生,這些法案要求對某些供櫃檯上銷售的藥品進行抗損包裝。這些事件也促使工業界認識到產品及包裝質量的嚴格標準的必要性,認識到即使是在把這些產品運送到儲倉的過程中也必須保持產品及包裝的質量。某公司要了解在所有產品中不能被正確密封及運送過程中被損的產品比例。顯然不可能在所有山售這種產品的商店中檢查所有這種商品中的包裝,但是可以得到該產品的一個隨機樣本,並根據樣本中有缺陷的比例來估計密封不當或包裝被損的實際比例。 同樣,在對下一年的新住宅供應進行經濟預測時,要用來自各種經濟指標的樣本資料。 第三個例子是某食物學家的一個試驗。在該試驗中食物學家要研究兩種因素對面包塊的體積的影響。這兩種因素是脂肪型別和表面活性劑的型別(表面活性劑是這樣一種物質,把它摻入製作麵包用的麵糰中,能降低麵糰的表面張力,從而使生產出的麵包塊增大一定的體積)。試驗中,在烤麵包之前,把一種型別的脂肪與一種型別的表面活性劑摻入麵糰中,然後,測定所得麵包的體積。每一對脂肪與活性劑的組合都被重複試驗幾次。在這個試驗中,科學家想從試驗的結果對這種麵包的商業生產做出推斷。在許多這種型別的試驗中,科學家不僅給出他們的推斷,而且附之以適當的圖形顯示。 無論我們是在描述觀測到的總體還是在使用樣本資料對總體進行推斷,在從資料得到結論的過程中,重要的一步是對其進行有見地的描述。無論我們的目的是統計推斷還是總體描述,首先我們必須充分描述我們手頭所有的測量值集合。 描述一組測量值有兩個主要方法,即圖形方法和數值描述方。在3.3節中講解描述單變數的資料的圖形方法。在3.4,3.5和3.6節,討論了描述資料的數值方法。3.7節是關於資料描述的最後一個題目,即關於多變數資料的一些描述 (概括)方法。 3.2 計算器、計算機及軟體系統電子計算器對於完成本章後面提出的一些計算有極大的幫助,尤其是對小規模的資料集合。對大規模的資料集合,由於輸入資料所需要的時間太長,很少使用手持計算器,這種情況下計算機可以幫得上忙。即使對於很大的資料集合,在利用計算機終端、磁帶或磁碟把資料輸入計算機後,使用特定的程式或更一般的軟體系統,幾乎在一瞬間即可完成對資料的統計分析。使用這些特定程式或軟體系統進行統計分析,不必瞭解計算機程式設計——它們大多都附有使用指南,對於如何使用給予了詳細指導。另外一些程式則開發了使用者終端介面,可以指導使用者透過選擇完成分析。

3.2 計算器、讓卯機及軟體系統•45• 使用計算機時,有許多統計軟體包川供選擇,其小常用的三個系統是 Minitab, Sas 和Spss,每-個系統都有個人計算機版本及上機敬本,由下軟體系統是一組共同工作的程式,我們討以一舉得到圖形、數幫描述和復朵的統計分析。雖然大多數人最初遇到過挫折,但他們會發現白己可以很輕鬆地使用作何特定的系統。這些系統對於大量資料進行復雜的資料分析的能力,遠勝了對能初的時間花費和挫折的回報。 通常,使用一個系統只需瞭解你感興趣的程式。在上作中典型的步驟包括:對所使用的軟體系統描述你的資料;若你的資料沒有適當的形式,或想得到原始資料的子集合,就要對資料進行一些操作;然後,用你所使用的軟體的特有的關鍵問,去呼叫適當的一組程式或過程;最後,從呼叫的程式中得到的結果,顯示在計算機終端上或由印表機輸出。 如果你有一些計算機的入門知識,並對使用計算機感興趣,不妨試試赤清楚如何得到一個賬戶,什麼程式和軟體系統可用來做統計分析,以及從何處能夠得到關於使用這些程式和軟體系統時,如何進行資料輸入的指示。 由於計算機的配置、作業系統以及文字編輯器因地而異,最好與一些計算機系統知識比較豐富的人進行討論,以得到訪問系統的方法。一旦你掌握了在…個軟件系統中執行程式的命令,你就會發現,在不同的地點用同一個軟體系統處理一項工作是很相似的。 由於這不是一本關於計算機使用的教科書,我們沒必要在這方面花費過多的時間和空間。計算機的使用方法還要在使用中學習,實踐出真知。我們的主要興趣在於解釋這些程式的結果。由於程式的設計者想在輸出中括一切使用者想了解的方面,結果,在任何特定的情況下,會有部分輸出結果是不相干的。當閱讀計算機輸出結果時,要尋求你想婆的東西;如果你不需要,或是不理解某個輸出統計基,不必擔心。當然,你學的統計知識越多,就能理解更多的輸出結果。同時,要尋求你所要的,忽視其餘的。 粗心地使用這些統計軟體是危險的。計算機是一個沒有頭腦的東西,無論結果多麼荒謬,它都會做任何被要求的事情。例如,假設一組資料包括年齡、性別(1 一女,2=男)、宗教(1=天主教,2=猶太教,3=耶穌教,4=其他或無宗教)以及… 組人的月收入。就像我們計算年齡和月收入的平均一樣,若我們要求計算機去計算宗教和性別的平均,我們就會得到這個平均數,即使它沒有任何意義。如果使用得聰明,這些軟體包是方便、強有力而實用的,但必須檢查從計算機得到的任何結果,確信它是有意義的。結果是不是有錯誤?是不是有何疏漏?換言之,要保持警覺。計算機技術的一個重要縮寫詞仍然適用,即,GIGO:Barbage in, garbage out (如果輸入是有問題的,那麼輸出也是無意義的)。 在本書中,我們總是在介紹瞭如何計算之後,再用計算機軟體包作一些十分冗

• 46• 第二章資料的描述長而乏味的統計計算。透過使用計算機以及有關的圖形和統計分析軟體包,使得我們把更多的時間用來解釋分析的結論,而不是去作分析。 3.3 單個變數資料的描述:圖表法 • 在收集到感興趣的測量值後,可以透過各種圖形技術,對資料進行合理地組織、顯示及考察。就常規而言,應當對資料進行分類,使每一個娜盤值都數升人這些類中其一類,且是性一一類。這一方法可以消除不這樣做時測量值分類中可能出現的模糊之處。例如,假設有一起性別歧視的案件,原告的代理律師需要總結一個大公司所有僱員的工資。為了檢查是否存在工資上的不公現象,律師事務所決定把1997年所有女僱員的年收入以美元為單位舍入到整數後,接如下分類進行總收入水平工資 1 少於 20,000 美元 2 20,000~39,999 美元 3 40,000~59,999 美元 4 60,000~79,999美元 5 80,000~99,999美元 6 100,000 美元以上每一個女僱員的收入落入其中一類,且惟一一類中。然而,若各類定義為: 收入水平工資 1 少於20,000美元 2 20,000~40,000美元 3 40,000~60,000美元 4 60,000~80,000 美元 5 80,000~100,00美元 6 100,000美元以上那麼,當把一個收人歸類時就可能發生混亂。例如,收入40,000 美元的僱員可以被分在第2類或第3類。重申一下,若將資料整理分類,重要的是定義其中的類, 使每一個測量值都只可以歸入其中的一類。 當按以上準則整理資料時,有幾種圖表法可以把資料顯示出來。首先,按這種方式:理資料的最簡單的方法是餅圖法。透過把一個圓分割(近似於一張餅), 餅圖法很有效的展示丫測量值落進每一類的總數的百分比。 表3.1是一項研究的總結,該項研究統計了在重要的公益組織中,負最高責任

3.3 單個變數資料的描述:圖表法•47• 的人通向權利頂峰的路徑。利用他們的傳記中的資訊,根據他或她是如何被選拔到當前的中堅位置,把1,345個人進行分類。 從何位堂上選拔上來社團公益政府其他衰3.1 最高公益位置的選拔人數 501 683 67 百分比 37.2 50.8 7.9 5.0 雖然你可以流覽表3.1中的資料,但用餅圖更容易解釋這些結果。透過圖 3.1,我們可以對人們通向官宦之路作出某種推斷。例如,與從其他組織的中堅位置出身的人數比起來,更多的人來自公益組織。 政府 7.0% 其他 5.0% 公益 50.8% 社團 37.2% 圖3.1 表3.1中資料的餅圖圖3.2 和圖3.3給出了餅圖的其他變化形式。可以從圖3.2明顯地看出,從 1980年到1990年,可樂軟飲料的人氣上升,而一些其他的軟飲料的市場份額下降。類似,從圖3.3中可見,丟失了一家主要的食品連鎖店使得百事可樂公司的銷量受到影響。總之,餅圖可以用來顯示變數中每一類所佔的百分比。下面的指南可以使你把餅圖做得更清晰易有。

•48• 第三章資料的描述 63.6% 12..7% 6.3% 3.0% 5.8% 8.6%4 可樂檸檬汁 Dr Pepper-type 飲料果汁飲料無醇飲料, -其他 69.5% 10.5% 5.1% ~ 3.8% ~ 3.3% - 2.0% ≥ 5.8% 1980 1990 圖 3.2 1980年和 1990年各種軟飲料所佔市場的大致份額轉換前轉換後 60% 4 •可口可樂- -65% 14% 其他 -14%. 26%-—百事可樂— 一21% 圖3.3 連鎖店轉換供貨商前後佔美國市場份額的估計* 餅圖的作法指南 1. 選擇較少的變數分類數,因為分類太多會使得餅圖難以解釋。 2. 在任何可能的情況下,按百分比上升或下降的順序作餅圖。 按前面介紹的將資料分類的準則組織資料的第二種圖表法是條形圖。圖3.4 * 一家大型快餐連鎖店的供貨,從百事可樂轉移到了可口可樂。

3.3 單個變數資料的描述:圖表法•49• 給出了在 Cincinnati(辛辛那提)州及 Ohio(俄亥俄)州最大的五家外國投資者的工人數目。據估計,總的勞動力是680,000人。條形圖有許多形式。有時,條形圖平行地排列,如圖 3.5(a)和3.5(b)。條形圖也可根據時間排列資料,如圖3.6。用下面給出的指南,條形圖是很容易作成的。 7,000 - 6,500 6,000 5,000 4,000 3,000 2,0001,450 1,200 1,000 200 英國西德日本荷蘭 138 愛爾蘭圖3.4, 主要外國投資者的工人數目愛爾蘭英國澳大利亞美國加拿大 9.8 8.7 丹麥 4.6 西德 2.0 法國 1.1 西班牙 00.4 (a)早餐穀類(磅) 15.4 12.8 12.3 美國丹麥瑞典英國法國挪威荷蘭西德瑞士 53.9 51.7 48.2 40.5 38.3 34.8 33.4 33.2 (b) 冷凍食品(磅) 圖3.5 各個國家人均消費的最大值 92.4 條形圖作法指南 1. 把頻數列在一個軸上,變數的類別列在另一個軸上。 2. 在變數值的每一類別上,利用頻數(觀察值的數目)作相應高度的矩形。 3. 為了加以區別、分開各類以及使描述更清晰,在各類之間留出空隙。 下面我們將討論頻數直方圖和頻率直方圖。這兩個圖表法都僅適用於定量的 (可測量的)資料。像餅圖中一樣,我們必須在作圖之前組織資料。 —名動物學家正在做一個試驗,調查在雞食中加入抗生素後比沒有抗生素的

• 50• 第三章資料的描述 250 200 元150 美萬百100 50 0 直接成本間接成本 231百萬美元 125 百萬美元 87 百萬美元 54 百萬美元 1976 1982 1987 1990 估計的年份圖3.6 某些年份中開發一種新藥直接或間接的成本的估計值標準食物是否更能提高雞的生長速度。動物學家相信,100只雞可以為證實這個試驗的結論提供足夠的資訊。(在第五章,我們將給出若干方法,以確定在一項研究中,為了達到某個指定的目標所需要的適當的樣本容量)。從以前的研究中知道,透過八週用標準飼料的餵養,一隻雞平均增重3.9g。在這個研究中,科學家想把雞的增重與標準值3.9g作對比。為了清除其他影響雞增重的因素,動物學家在同一房子中,餵養了 100只雞,每隻雞都有不同的人來喂。表3.2記錄了100只雞的增重。 4hzhos604zcs 4.2 3.8 4.2 4.2 4.4 4.2 4.2 4.0 4.4 4.4 4.8 4.5 表3.2 雞的增重(克) 4.3 4.2 4.6 3.9 4.5 3.6 4.4 4.1 4.4 4.3 4.1 4.0 4.8 4.5 4.3 4.0 4.9 4.8 3.9 3.8 對增重資料的初步考察顯示最大增重是:4.9g,最小增重是3.6g。雖然我們可以進一步考察表中的資料,確定雞的增重是否顯著地大於3.9g,但很難描述測量值是如何在3.6到4.9 這一區間上分佈的。大多數的測量值大於3.9?集中於

3.3 單個變數資料的描述:圖表法•51• 3.6附近?還是集中於 4.9附近?或是在這一區間上均勻分佈?對於這些問題, 得到答案的一種方法是把資料組織在一頻數表中。 要構建頻數表,首先我們把3.6到4.9這一區間分成任意個數的子區間,稱之為分組區間。所選擇的子區間的數量依賴於集合中測量值的數量,但我們通常提倡用S~20個分組區間。資料越多,我們用的組數越多。這裡給出的規則可用來構建合適的分組區間。 分組區間構造指南 1.利用所希望的分組區間的大致數目,除測量值的極差(最大與最小測量偵之間的差)。通常,要求S~20個區同。 2. 利用所希望的子區國的數目除極差之後,把結果中的資料四捨五入到便利(易於處理)的單位。這個單位表示分組區間的共同寬度。 3. 選擇第一個分組區間,使其包含最小的測量值。建議為第一個區間選擇一個始點,使得沒有測量值落在兩個子區間的分點上,從而避免在確定一個測量值的分組區間時發生模校兩可的情況(一種方法是選取這些邊界點,使得它們比資料多一位小數)。 對於表3.2中的資料,極差=4.9 3.6=1.3。 假設我們想取大約十個區間,把這個極差除以 10並四捨五入到一個方便的單位,得到1.3/10=0.13~0.1。分組區間的寬是0.1。 很方便地選擇第一個區間是3.55~3.65,第二個區間是3.65~3.75等等。 注意,最小的測量3.6落入了第一個區間,並且沒有測過值落入分組區間的端點上(見表3.3)。 分組 1 2 4 7 9 10 11 12 13 14 總和表3.3 小雞資料的頻數衰分組區間頻數f 3.55~3.65 1 3.65~3.75 1 3.75-3.85 6 3.85~3.95 6 3.95~4.05 10 4.05~4.15 10 4.15~4.25 13 4.25~4.35 L1 4.35-4.45 13 4.45~-4.55 7 4.55~4.65 6 4.65~4.75 7 4.75~4.85 5 4.85~4.95 4 1=100 頻率 f:/n 0.01 0.01 0.06 0.06 0.10 0.10 0.13 0.11 0.13 0.07 0.06 0.07 0.05 0.04 1.00

• 52• 第二章資料的描述確定了分組區間,我們開始作資料的頻數表。第一列列出了組號,第二列說明了分組區間。然後,檢查表3.2中的100個測量值,記錄落入每一個區間的資料個數。落入某一個區間的測量值的個數叫做分組頻數。這個資料記錄在頻數表第二列中(見表3.3)。 一組的頻率定義為此組的頻數除以資料集合中測量值的總個數(總頻數)。因此,若f:表示第訁組的頻數,n表示測量值總數,則第;組的頻率為f:/n。所有組的頻率都在表3.3中的第四列列出。 我們已經把表3.2中的資料整理為一張頻數表,現在可以用頻數表作頻數直方圖或頻率直方圖。要作一個頻數直方圖,先畫兩個軸:橫軸標出分組區間,縱軸標出頻數。然後,用與落人某個子區間的測量值數目相對應的高度,在這個分組區間上作矩形。表3.3中資料的頻數直方圖如圖3.7(a)中所示。 頻率直方圖的作法與頻數直方圖類似。所不同的是,在頻率直方圖中,縱軸標出頻率。在每個分組區間中,取與頻率(表3.3中的第四列)對應的高度作矩形。 表3.3中資料的頻率直方圖如圖3.7(b)所示。顯然,直方圖3.7(a)與3.7(6)形狀相同。若縱軸相同,那麼它們是完全相同的。我們通常把兩者都簡稱為直方圖。 在此,指出作直方圖時應注意的幾點。首先,條形圖和直方圖之間的區別在於定性變數和定量變數之間的區別。定性變數值的不同在於其種類不同,而不在於程度上的不同,因此不是測量值。例如,黨派這一變數可按共和黨,民主黨和其他黨派分類。雖然我們可用1,2,3標出每一黨派的人士,但這些值僅是一種程式碼,沒有數量意義。相反,定量變數有實際測量單位。例如,每畝穀類的產量(以蒲式耳為單位)這一變數可取特定的數值。餅圖和來那圖用來表示來自定性變戲的頻微資料,直方圖用來表示定盤吏量的鄉我栽據。 第二,在後面章節中,我們將要討論統計推斷。而直方圖在統計推斷中具有童要的作用,因此它是我們介紹的最重要的圖形方法之一。第三,對於一個特別大的測量值集合,如果用許多寬度很小的分組區間作一個頻數直方圖,直方圖將近似於一條平滑曲線。第四,在一個區間中的測量值的個數所佔總數的比例,等於對應的矩形的面積所佔整個區同上直方圖面積的比例。例如,若在表3.3小雞資料中, 考慮增重大於3.9克的區間,會看到這些區間包含有100個度量中的86個。因此,落入這些區間中所有測量值的比例0.86,等於直方圖中這些區間上的矩形的面積所佔整個直方圖總面積的比例。 第五,若從樣本測量值集合中隨機選擇一個測量值,它落在特定區間的機會或機率,等於落在那個區間的樣本測量值個數佔測量值總數的比例。這一比例也可用來估計從總體中隨機選擇—-個測量值落入所感興趣區間的機率。例如,從表 3.2中的資料中,選擇一隻增重大於3.9g 的小雞機會或機率是0.86。0.86 可看作所有喂含抗生素的食物的雞增重大於3.9g 的比例的近似值,3.9g 是喂標準食

3.3 單個變數資料的描述:圖表法•53, 物所得的增重。 145 1210繳 86 42- 3.55 3.75 3.95 4.15 4.35 4.55 墫璽的分組區間 (a)表3.3中小雞資料的頻數直方圖 4.75 4.95 0.140.120.10-. 0.08率類o.06t 0.040.023.55 3.75 3.95 4.15 4.35 增重的分組區同 4.55 4.75 4.95 (b)表3.3 中資料的頻率直方圖圖3.7 由於區間數、起始值和區間長度選擇的任意性,對於同一個資料集合,尤其是小的資料集合,直方圖可以被做成不同的形狀。當資料很多時,比如50或更多時, 用直方圖來描述資料集合是很有用的。在圖3.8(a)~(d)中,用5,10,14 和18個分組區間建立的小雞資料的一組直方圖,可以說明在建立直方圖過程中所遇到的

• 54• 第三章資料的描述一些問題。這些圖是用 Minitab 軟體得到的。 當端點數相當小且區間數目很多時,直方圖會有若下區間沒有數值。見圖 3.8(d),這會導致不能對總體做出真實描繪的直方圖。當分組區間的數目很小時, 資料中的大多數模式或趨勢都無法反映出來,見圖3.8(a)。在3.8的圖集中,有 14個分組區間的直方圖可能是最恰當的一個。 最後,由於在頻率直方圖中用到的是比例而不是頻數,所以對兩個不同的樣本 (或總體),即使它們的容量不同,也可透過檢查它們的顏率直方圖,對它們加以比較。當描述來自許多樣本的頻率直方圖或比較這些圖形時,我們檢查直方圖的整體形狀。圖3.9描述「頻率直方圖的—-般形狀。 35 30251 103.6 3.9 4.5 4.8 雞增重(g) (a) 小雞資料的類率直方圖(5個區間) 20米100: 3:60 3.75300 405 4.20 435450 4.65 4.80 495 雞增重(g) (b)小雞資料的率直方圖(10個區間)

3.3 單個變數資料的描述:圖表法•55、 10、 百分比 3.5 4.0 4.5 5.0 雞增重(g) (c) 小雞資料的頻率直方圖(14個區間) . 101 01 口口 3.5 4.0 4.5 5.0 鴻墡重(g) (d) 小雞資料的頻率宣方圖(18個區間) 圖3.8 小雞資料直方圖有一個峰的直方圖稱為單峰直方圖,見圖3.9(b),(c)和(d)。如圖3.9(e)和 (f)中有兩個主峰的直方圖稱之為雙峰直方圖。在許多情況下,雙峰直方圖實際上是樣本資料來自兩個截然不同的總體的一種暗示。最後,當在每個區間上都有基本相同的個數的觀測值時,這種直方圖稱為均勻直方圖,見圖3.9(a)。 如果一個直方圖的左邊和右邊有基本相同的形狀,則直方圖是對稱的,因此, 圖3.9(a),(b)和(e)有對稱形狀。當直方圖的右邊包含觀察資料的大多半時,比左邊伸展的遠,則稱之為右偏的,見圖3.9(c)。同樣,當直方圖的左邊比右邊伸展的更遠時,稱它是左偏的,見圖3.9(d)。由本書後面的論述可知,若知道分佈的形

•56. 第三章資料的描述狀,將有助於我們選擇適當的概括資料(3.4~3.7節)和分析資料的方法(第五章及其以後的章節)。 200150織100500- 0.0 0.4 0.6 (a)均勻分佈 0.8 正0 400300f0 200100-。-- o ()對稱,單峰(正態〉分佈

600500400 - 橫300200100 - 0 L 6 60500400數300200 100 0 d 3.3 單個變數資料的描述:圖表法•57• st I0 (c) 右偏分佈 20 s 10 y (d)左偏分佈 15 20

•58• 第二章資料的描述 400300鑽201000- -2 o 2 (e)雙峰分佈 4 8 500400 3002001000 -20 -15 -10 (f) 左偏的雙峰分佈圖3.9一些常見的分佈形狀

3.3 單個變數資料的描述:圖表法•59• 表3.4 來自南部、北部和西部90 個標準大城市的暴力犯罪率南部犯罪率北部犯罪率西部 Albany,GA 876 Allentown, PA 189 Abilene,TX Anderson,SC 578 Battle Creek,M! 661 Albuquerque, NM Anniston,AL 718 Ferton Hacbor,MI 877 Anchorage, AK Athens,GiA 388 Bridgeport,CT 563 Bakersfield,CA Augusta,GA 562 Buffalo, NY 547 Brownsville,TX Balon Rougc, 1.A 971 Canton,OH 447 Denver,CO Charleston,S: 698 Cincinnati,OH 336 Frcsno,CA Charlettesville, VA 298 Cleveland, OH 526 Galveston, TX Chartancwga, TN 673 Celumbus,OH 624 Houstom, TX 犯罪率 570 928 $16 885 751 561 1,020 592 814 Columbu, GA 537 Dayton,OH 605 Kansas City, MO Dthan,Al. 642 Tes Moines, IA 496 Lawton,OK Florence,SC 856 Dubuque, IA 296 J.ubbock, TX Fort Smith, AR 376 Gary,IN 628 Merced,CA Gadsden, AL 508 Grand Rapids,MI 48L Modesto,CA 498 562 739 Grcensbore, NC. 529 Janesville, W1 224 Cklahoma Ciy. OK Hickery,NC 393 Kalamnazoo,MI 868 Reno.NV Knoxvile,TN Lake Charles,l.A 354 J.ima,OF 804 Secramento, CA 735 Madison, WI 210 St.louis,MO L.ittle Rock,AR 811 Milwaukee, WI 421 Salinas,CA Macon. GA 504 Minnenpolis,MN 435 San Diego, CA Monroe, I.A 807 Nassau,NY 291 Santa Ana, CA Nashville, TN 719 New Britain,CT 393 Scattle,WA Norfolk, VA 464 Philadephia, PA 605 Sioux City, IA Raleigh,NC: 410 Pillsburgh, PA 341 Stockton,CA Richmond, VA 491 Portland, ME 352 Tacoma,WA Savannah, GA 557 Racine, Wi 374 Tucson,AZ Shreveport, L.A 771 Reading, PA 257 Victoria,TX Washington,DC. 685 Saginaw,MI 684 Waco,TX Wiimninglon,DE 448 Syracuse, NY 685 Wichitd Falls, TX Wilmington,NC 571 Worcester, MA 460 Yakima,WA 706 631 626 639 585 注:犯罪率指每100.00D房民中暴力(謀殺、強姦,搶劫及暴力襲擊)犯罪的數量,並四捨五入到整數。 資料米源:司法部,美國統一犯罪報告,1990年。 本章介紹的下一個圖形方法,是來自子稱為探索性資料分析(EDA)領域的一種顯示資料的技巧。John Tukey 教授(1977)是這一資料分析的實用方法的倡導者,這種方法的目的在於探索和理解資料。 莖葉圖是—種簡單、靈活的圖形方法,即作一個像直方圖一樣的頻數分佈圖。

•60• 第三章資料的描述可以透過包含在頻數分佈中的資訊,知道記分(這裡指觀測值一譯者注)的範圍,記分的集中之處,分佈的形狀以及是否有一些特殊值或記分未表示出來,是否有離群值或異常值。莖葉圖不遵循前面提到的直方圖規則。我們將用表3.4中的資料說明如何作莖葉圖。 表3.4中的原始資料是3位或4位數字。用第一個或首位上的數字作莖(見圖3.10),其後位上的數作為葉。例如,奧爾巴尼(Albany 市,美國紐約州的首府) 的暴力犯罪率是876,首位是8,後位是76。而對於 Fresno 市,則首位數字是10,後位是20。若有6位數字,如104,328,可用前兩位作莖,其後的兩位作葉,最後兩位可忽略。 在這些有關暴力犯罪的資料中,最小的犯罪率是189,最大是1,020。首位數字分別是1,2,3,•,10。與分組區間確定一個測量值在頻數表中的位置類似,首位(記分的莖)確定一個記分在莖葉圖中所處的行。其後位上的數寫在相應的行中。按照這種方法,把每一個記分都記入莖葉圖,就像暴力犯罪資料的莖葉圖 3.10一樣。 1 89 2 98 96 24 1091 67 3 88 7693,54 36 93 41 52 74 4 64 10 91 47 96 81 21 35 60 66 9880 578 62 37 08 29 04 57 71 63 26 70 16 61 92 62 62 59 05 85 6 98 73 42 85 61 47 24 05 28 05 84 85 90 31 26 39 7 18 35 19 71 51 39 20 58 31 03 06 8 76 56 11 07 77 68 04 85 14 43 17 09 9 71 28 10 20 圖3.10 表3.4 中暴力犯罪率的莖葉圖可以看到,每一個莖決定一個分組區間,這個分組區間的上下限分別是該組中可能的最大與最小記分。由每個葉所代表的數值必須在區間的上下限之間。 注意,蓋葉圖看起來像橫向放置的直方圖,如圖3.10。若將一行(莖)中的數據(葉)按從小到大的順序排列(圖3.11),基葉圖可能更有用。莖葉圖比直方圖重有利,它不僅反映了頻數,記分的集中,分佈的形狀,而且它描述了實際記分。不利處是對於大量的資料集合,莖葉圖會很龐大。

• 3.3 單個變數資料的描述:圖表法 • 61• 1 89 2 10 24 67 91 9698 36 41 52 54 74 76 88 93 93 4 10 21 35 47 48 60 64 66 80 81 91 96 98 5 04 05 08 16 26 29 37 57 59 61 62 62 62 63 70 71 78 85 92 6 05 05 24 26 28 31 39 42 47 61 73 84 85 85 9098 7 03 06 18 19 20 31 35 39 51 58 71 8 04 07 09 11 14 17 43 56 68 76 77 85 9 2871 10 20 圖3.11 按葉序排列的莖葉圖莖葉圖的作法指南 1.把每個記分或數值分為兩套數字。第一或前幾位數字的集合是莖,第二或其後的數字是葉。 2. 從小到大排列所有可能的基數字。 3.對於大量資料中的每一記分,在適當的基數字所確定的行中寫下葉數字。 4.如果排列太擁擠,可以把每個基的位置擴為兩行,例如,葉數字 1,2,3和4 放在莖的第一行,5,6,7,8和9放在莖的第二行。 S.如果出現太多的位數,如6位或7位記分,可去掉最右面的尾數字,使排列更清晰。 6、作基葉圖的規則和建分組區間的規則有所不同,分組區間的規則用在傳統的頻數分佈及後面章節將考慮的各種過程。在某種意義上講,莖時圖的分組區間是不規則的。 下面的基葉圖是從 Minitab 中獲得的。資料描述了威斯康星州 Wisconsin 批發和零售商業中僱員的數目,是在5年中每月測一次而得到的。 資料排列 Frade 322 317 319 323 327 328 325 326 330 334 337 341 322 318 320 326 332 334 335 336 335 338 342 348 330 326 329 337 345 350 351 354 355 357 362 368 348 345 349 355 362 367 365 370 371 375 380 385 361 354 357 367 376 381 381 383 384 387 392 396

• 62• 第三章資料的描述字元莖葉圖 Sten-and Icaf of Trade A= 60 Leaf Unit = 1.0 31 789 32 0223 32 5666789 33 00244 33 556778 34 12 34 55889 35 0144 35 5577 36 122 36 6778 37 01 37 56 38 01134 38 57 39 2 39 6 注意,由於葉數字分為兩組:0~4及5~9,大多數莖都重複了兩次。 本節介紹的最後一個圖形法用來顯示某個變數是如何隨時間而變化的。對於宏觀經濟學資料,如可自由支配的收入,以及微觀經濟學資料,如特定商店中特定商品的周銷售量等,它們隨時間變化的資料圖對於商業管理是十分重要的。同樣, 社會研究者常感興趣於證實變數如何隨時間而變化;或感興趣於對各種種族團體的態度、美國的儲率、城市的犯罪率如何隨時間變化。表示變數如何隨時間而變化的圖形法稱為時間序列。圖3.12 是一個時間序列,它表明了在1970年到 1986年,年齡在30~34歲之間沒有孩子的白人婦女的百分比。 通常,時間點按年代順序排列在橫軸上(橫座標),感興趣的變數的數值(顏數、 百分比、比率等)沿縱軸標出(縱座標)。時間可按年、另、日或任何合適的單位計。 憑經驗而言,一個時間序列的時間點不少於四、五個時間點:一般地,這些時間點之間有相等的間隔。然而,為了表明變數隨時間變化的更完整的影象,希望有比這多得多的時間點。 時間序列中時間軸的排列通常依賴於得到資料的時間間隔。例如,美國人口普香局以年為基礎報告美國平均家庭收入。當要研究的變數的資訊可按不同的時間單位獲得時,必須確定哪個或哪些時間單位在該項研究中是最恰當的。在大選之年,政治學象很可能按周或月檢查候選人在登記的選民中受歡迎程度的變化。

3.3 單個變數資料的描述:圖表法,63• 年齡在30~34 歲無子女的婦女的百分比 5 1074 10761978 1980 "1982 1984 1986 1978 1980 年份圖3.12 1970~1986年間,年齡在30~34歲無子女的婦女的百分比另一方面,一個機械工具的生產商可能會記錄月、季度、年的銷傳情況(按美元和銷售數量)。圖3.13表明了過去3年中機械工具的季度銷售址(以幹為單位)。從時間序列看出,在過去3年中,公司經歷了銷售數量的漸進而穩定的增長。 130 125H120- $ 115110銷 105- • •• •• • • ••:; 圖 3.13 季度/年季銷售量(以1,000計)

•64• 第三章資料的描述 AT&T AildSgnl Alcoa AmExprss Boeing Caterpillar Chevron Citigroup CocaCola Disney 30 STOCKS IN INDUSTRIAL. AVERAGE-NYSE CHG. - 3/8 Dupont + 3/16 EKodak + 1/8 MeDonalds 1/8 Merck + 3/16 Exxon + 1¾ MinnMnMf - 1/8 GenElec 1⅜ MorpsanJ - 1⅓ GienMotor 亠 S/16 Goodycar - + 1/2 PhilipMor 3/16 Proct Gnm + 5¼ HewlettPk 7/16 Sears + 9/16 [BM 3⅜ UnCarbide - 1% IntPaper + 1/16 UtdTch + 1% Johnslohns 13/16 WalMart COMPONENT VOL.29,109,6040 PREV.58,201,700 MARKET CAP. $2,430,764,995,688 + •5/16 - 1⅞ 1⅝ 3/16 1 + + + + 1¼ 1/4 3/8 9/16 工業官9400 三9300 三9200 每9100 minip $9000 -8900 -8BO1 13700 205古182310市公引7府2站41商282日後交動合作站2040 {六月)(七月)〔八月)(九月)(月)(十一月) 圖3.14 道瓊斯工業、公共事業和運輸平均指數的時間序列圖

3.3 單個變數資料的描述:圖表法•65, 時間序列對於檢查變化的總趨勢、季節性及週期性是很有用的。例如,華爾街雜誌(Wall Street Journal)的“金融與投資”欄目以六個月為一期,給出道瓊斯工業、運輸和公共業平均指數的每個工作目的值。圖3.14是以某一期的資料為典型畫出的圖。從圖中可以看出,在1998年中,運輸指數和工業指數從六月到七月中旬呈增長趨勢,隨後直到九月份呈下降趨勢,從十月到十一月則呈急劇上升趨勢。與這兩個指數相反,公共事業指數則從六月到九月相當平穩,至十月早期有所上升,然後直到十一月又保持平穩。研究季度性或週期性,必須有數年的每週或每月的資料。 有時,比較同一變數在兩組或多組中隨時間變化的趨勢是很重要的。圖3.5 記錄廣從 1976 年到1980年的兩組比值:非洲裔美國人中位家庭收入與英商美國人中位庭收入的比值,及拉丁美洲人中位家庭收入與英裔美國人中位家庭收入的比值。 15 STOCKS IN UTHL.ITY AVERACF-NYSE CHG. AEP - 1/16 Edisonint - 1/8 PubSvcEnt CalmEngy +I EnronCp - 1/2 SouthernCo ConEd - 9/16 Houstnind - 5/16 Tex Util ConsNat + 15/16 PECO Engy 7/16 UnicomCp DukeEngy - 5/8 PG&E ~ 3/8 WillmsCos COMIONENT VOL.3.283,900 PREV.7,217,700 MARKET CAP.$175.964,191,750 - 1/8 + 1/16 1/2 + 3/16 + 3/8 公共事業 -325 -320 F315 W310 305 ¥300 F295 29 512 1926 310 724 31 714 21 284 1118252 9 1623306 132027 (六月)(七月) (八月)(九月)(1月)(1一月)

• 66• 第三章資料的描述 20 STOCKS IN TRANSPORTATION AVEXAGE•NYSE CHG. AMR + 1/4 FDX CP 1/16 SowestAir AirbroFrt - 1/16 GATX UAL Cp AlxBldwn•- 1/8 HuntJB* + 5/16 BurlNthSF +3/8 NorflkSo t UnPacific US Airways CNF Tmsp … NowestAir' 7/16 USFrb:* CSX + 1/16 RoadwEx' + $/16 YellowCp* DeltaAir + 1/8 RyderSys - 5/16 ^Nesdag COMPONENT VOL..3.598.500 PREV.9, 572, 100 MARKET CAP. $107,744.107.125 + $/16 + 5/8 - 1/8 + 1% + 3/8 + 1/4 NMS 運榆 ITTT3700 ¥3600 3500 mm: -3400 量3300 13200 3100 3000 2900 喜2800 -2700 號 2600 2500 號2400 2300 29 3121926 310 17 2431 71421 284 1118252 916233061320 27 2200 (六月)(七月)(八月)(九月)(十月)(十一月) 來源:華爾街雜誌,1998年11月30日圖3.14 道瓊斯工業、公共事業和運輸平均指數的時間序列圖(續) 中位家庭收入是把家庭收入分為兩組的一個收入水平。這兩組分別是高收入的一半和低收入的一半。1987 年非洲裔美國人的中位家庭收入為$18,098,即指所有非洲裔美國人的家庭中,50%的家庭收入高於$18,098,50%的家庭收入低於 $18,098。中位數是中心趨勢的度量方法中的一種,將在以後的章節中作充分的討論。 圖3.15 表明,在1976年至1988年間,非洲裔美國人和拉丁美洲美國人相對

3.3 單個變資料的描述:圖表法•67• 家庭收入比 0.75 0.70 0.65 0.60 0.55- —×— 非洲商美國人拉丁美洲美國人 4一4。 × 上 1976 1978 1980 1982 1984 1986 1988 年份圖3.15 非洲商美國人和拉丁美洲美國人相對於英裔美國人中位家庭收人的比價:1976~1988 下英裔美國人中位家庭收人的比值有波動,但兩個比值的整體趨勢說明,整個時間段中的比值是呈下降趨勢的。社會研究者將其解釋為,非洲裔美國人和拉丁美洲美國人的庭收入相對於英裔美國人家庭收入遂漸下滑。 有時候資訊不是在等時間間隔中獲得的。例如,民意測驗組織,像蓋洛普 (Gailup)民意測驗中心或國家公眾意見研究中心(National Opinion Research Center)等,不必每年都問美國公民對同一個問題的態度或行為。有時,再問這個問題時,與前次的時間間隔已大子兩年。 當資訊不是在等時間間隔中獲得的時候,橫軸上時間點間的間隔寬度能夠反映這一點是很重要的。例如,社會研究者繪製一個變數在1985,1986,1987 及 1990年的數值圖,橫軸上在1987 和1990間的間隔寬度應是其他年份間隔寬度的 3倍。若均勻地隔開,所得到的趨勢線會使人誤解。圖形變形的其他例子將在第二十章加以討論。 圖3.16描繪了從1954年至1988年,美國天主教徒和新教徒參加教堂活動的人數的趨勢。時間點的間隔寬度反映出並不是每年都對天主教徒調查了他的出席情況。 在結束描述資料的圖形方法的介紹之前,列出幾個有益於作圖的一般規則。 這些規則注重於圖的設計和繪製技巧,將有助於你做出更好、含有更多資訊的圖形。

•68• 第三章資料的描述 74 70 66 62 58 天塵教 50 46 42 382n L. 基督教上 1954 5758 61 6364 66 68 70 72 7476 78 80 8283 85 88 年份密料來源:Giallup(蓋洛普) 圖3.16 1954年~1988年間,某一週中天主教徒和新教徒的教堂出席率成功作圖的一般規則 1.在作圖前確定出你的重點。看圖的人應當在圖中得到什麼資訊? 2.選擇圖形型別(餅圖,條形圖,直方圖等)。 3. 注意題目。圖形最重要的一個方面是它的題目。題目將使看圖的人瞭解圖形的主旨,起到畫龍點睛的作用。 4.防止過多的字型型號、風格及顏色改變的應用。不加選擇地過度地應用不同的字型型別,風格和顏色將使看圖者感到混亂。一般地,我們提倡用兩種字型,顏色變化和斜體字僅在一,兩個地方用到。 5. 透過顏色和格式的應用傳達圖形的基調。熱烈、溫暖的顏色(黃色、橙色種紅色)比藍色、紫色更加生動,並有助於激起看圖者的熱情。相反,柔和的淡色(尤其是灰色)傳達一種保守的商業基調。同樣,簡單的形式顯示保守的調子。然而,繁複的樣式則給人以刺激。 6. 不要低估了一個簡單易懂的圖形的效果。 7.經常練習作圖,像做任何事情一樣,熟能生巧。 練習基本技能 3.I(教育)大學行政官員定期考察各個學院中在校大學生的專業分佈,以便

3.3 單個變數資料的描述:圖表法•69• 在學院內的各系之間公平地分配資源。在一次考察中得到如下資料: 系農業文理工商管理教育 T程學生人數 1,500 11,000 7,000 2,000 5,000 t.做出這些資料的餅圖。 b.做出這些資料的條形圖。 3.2(商業)因為基本原料的進口是美國經濟實力的一個指標,商業部對鋼鐵進口進行管理。下面是 1985年到1996年鋼鐵進口量的有關資料(以百萬噸計): 年份 1985 1986 1987 1988 進口量 27.6 22.7 21.9 20.4 1989 1990 1991 1992 1993 1994 1995 1996 19.7 21.9 21.8 21.9 21.8 32.7 27.3 32.1 a.講圖是否是描述這些資料的適當的圖形方法? b.做出這些資料的條形圖。 c.你能觀察到鋼鐵進口的有關趨勢嗎? 3.3(農業)繪出下表中關於生活費用在各類別中的分配的資料圖,嘗試•下餅圖和條形圖,哪個更好? 其生活費的去向日常產品軟飲料蔬菜和水果其他食物百分比 13.4 8.9 15.6 17.5 3.4(商業)俄亥俄州立大學基於對在45,000個商業的調查,做了一項大規模的關於就業趨勢的研究。若假設失業率為5%或更少,該項研究曾經預育,在 1980年到1990年間將有210萬個就業機會被創造出來。就業的增長可由主要工業群體顯示出來。作餅圖顯示以上資料。

• 70• 第二章資料的描述上業群體 • 服務業製造業零售業金融、保險、不動產批發業建築業歧府其他 1980~1990 年就業增長百分比 33.2 25.0 17.9 6.6 4.8 4.6 2.7 1.3 3.5(社會)在練習3.4所提到的研究中,得到從 1980年到1990年間就業機會的資料,用這些資料做出條形圖。 職業辦事員管理者勞T 技工售貨員專業技術人員服務人員手藝人 1980~1990 年間就業機會的百分比 20.9 9.5 3.7 13.1 7.3 16.3 18.1 11.1 3.6(環境)某個州的健康委員會規定:氟化物的含量不能超過1.5ppm。這兒給出了一個 25天的樣本的氟化物含量。雖然每天都不止一次地測過氟化物的含量,但這些資料都是指抽到的25天中早晨的氟化物含。 0.75 0.86 0.94 0.89 0.88 0.78 0.72 0.92 0.81 0.85 a.確定這些測值的極差。 0.84 0.84 0.77 1.0s 0.97 0.85 0.83 0.76 0.94 0.93 0.97 0.89 0.82 0.83 0.79

3.3 單個變數資料的描述:圖表法 •71 • b.選擇子區間的數目為7,把極差除以7並四五入,得到寬度為0.05的一組分組區間,用0.705作為第一個區間的下限(左端點),作頻數直方圖。 c.計算每個區間的頻率,做頻率直方圖。注意到頻數和頻率直方圖的形狀相同。 d.如果25天中隨機選擇一天,讀數大子0.90ppm 的機會(機率)是多少?試猜想(預言)明年有多大比例的天數的氟化物含量大於 0.90ppm? 3.71政府) 國家公路交通安全域性研究了汽車後座安全腰帶和肩帶的應用情況。按照兩種帶子使用的百分率,把可能因使用兩種安全帶而得以救助的人員數量列出如下: 使用兩種安全帶而得以救助的人員數使用的百分率只使用腰帶腰帶和肩帶 100 529 678 80 423 543 60 318 407 40 212 271 20 106 136 10 85 108 用不同的方法作資料圖,並指出哪一種更恰當,為什麼? 3.8 作表3.4 中資料的頻數直方圖, a.把直方圖與3.11中的基葉圖作比較。 b.用真方圖的標準術語描述直方圖的形狀。 c.解釋怎樣設計一個直方圖,使它和這些資料的莖葉圖有相同的形狀。 3.9(社會)作下表中資料的一個頻率直方圖。用直方圖的標準術語描述直方圖的形狀。 人均公共福利消費,按州的個數列出美元 50-74 75~79 100~124 125~149 150~174 175~199 200~224 225~249 250--274 州數 3 6 14 11 2 5 2 5 1 275~299 總和 50 3.10(社會)下表給出了美國24個大城市1994年人均城市稅的數額。

• 72• 第二章資料的描述 2470 1305 4904 1682 $20 512 572 784 561 467 498 298 資料來源:Statistical Abstract of the United States, 1997 488 270 382 643 986 360 271 947 359 451 634 686 2. 用合適的分組區間數作一個頻數分佈圖。 b.作資料的頻率直方圖。 c.描述顏率直方圖的形狀。 d. 若你因調動工作而進入24個城市中的一個,你的城市稅多於900美元的機率是多少? 3.11 作練習3.10中資料的莖時圖,頻率直方圖和基葉圖哪一個可提供更多的資訊?並解釋你的理由。 3.12 用一個計算機軟體做出練習3.3中資料的頻率直方圖和莖葉圖。 敘述一下用計算機作圖和人工作圖的區別。 3.13(醫學)嚴重的慢性左心室疾病有兩種不同的治療方法,患者用這兩種方法治療的存活時間(月)如下表: 4 14 29 6 15 2 6 13 24 16 12 21 標準療法 10 32 18 20 1 7 14 8 27 13 15 3 31 5 17 18 27 24 9 20 15 14 18 29 19 10 33 新療法 15 35 16 30 7 10 32 16 29 31 36 39 16 27 a. 對兩種治療的存活時間分別作頻率直方圖。 b.對比兩個直方圖,說明新療法是否能延長存活時間,並解釋你的理由。 3.14 把練習3.13兩種療法中的資料放在一起,作聯合資料的頻率直方圖。 這個圖能否暗示資料來自兩個不同的總體?說明你的理由。 3.15(政府)許多公益組織宣稱,聯邦政府在國防方面的開支在國家資產中的比童呈上升趨勢。下表給出了自1980年以來國防部的費用(以10億美元為單位)以及所佔國民生產總(GNP)的百分比(%GNP)。

3.3 單個變數資料的描述:圖表法 •73• 年份費用 %GNP 篳份費用 %GNP 1980 134 4.9 1989 304 291 $.7 4.5 1985 253 6.2 1994 282 4.1 1986 1987 282 6.1 1996 266 3.6 資料來源:Statistical Abst act of the LInited States, 1997 a.繪出開支的時間序列圖,並描繪開支的趨勢。 b.繪出%GNP 的時間序列圖,並描繪出%GNP 的趨勢。 c.這兩個時間序列趨勢相同嗎?這兩個圖都支援公共利益團體的論點嗎? 3.16(數育)教育研究者調查了 SAT分數的趨勢,以評估人們關於男女生的考試成績有所差別的說法。分別做出四個時間序列圖。 年份性別/類別 1967 1980 1985 男/語彙 506 514 女/浯匯 498 503 男/數學 535 515 $22 女/數學 495 473 480 資料來源:Statistical Abstract of the Urited States, 1997 a.分別做出嗎個時間序列圖並描述它們的趨勢。 .男生和女生的趨勢一樣嗎? c.你從圖上觀察到男女生有何差別? 3.17(教育)有關公立學校系統如何提高辦學質量的研究常常指出,教師是需要增加工資收入的一個主要領域。下列是公立學校教師的平均工資(以 1,000 美元計)。用這些資料,作一個時間點均勻分佈在橫軸上的時間序列圖。 年份工資年份工資 1970 8.6 1990 31.4 1975 11.7 1991 33.1 1980 16.0 1992 34.1 1985 23.6 1993 35.0 1986 25.2 1994 35.7 1987 26.6 1995 36.6 1988 28.0 1996 37.7 1989 29.6 3.18 用練習3.17表中的資料作一個時間序列圖,要考慮到其中不等的時

•74• 第三章資料的描述間點,並將其與3.17中的時間序列圖作比較。就“若時間點間的間隔寬度與資料點間的實際長度不符,時間序列將如何使人誤解“這一點進行討論。 3.19(社會)公益調查中為了得到人們的隨機樣本,任意地撥打電話是常用的抽樣方法。通常認為,50個州內,每幹戶居民的電話數是基本相同的。用下列附表中的電話資料(每幹戶居民的電話數)作一個頻數直方圖。這50個州有士要區別嗎? 州州電話 Alabama Alaska Arizona Arkanss Cailiforia Colorado Connecticut Delaware Florida Gieorgia Hawaii Idaho Ilincis 610 Massachusett Mississippi Missouri $70 W.Virginia Wisconsin Wyoming 540 $80 3.201社會) 下表給出了1985年及1996年各州擁有房產權住戶的百分比。 這個比例是指所有擁有房產權的居住者與居住者總數的比例。

3.3 單個變數資料的描述:圖表法•75• 州 Alabama Alaska Arizona Arkanses California (xcloracko Connccticut Deliware Tist.ol Coluombia Florida Ceorgia Hawaii Idaho Hlinoiss Indiana lowa Kansas Kentucky l.ouisiana Maine Maryland Massachuseets Michigan MinmesortA Missisippi Missouri • 1985 70.4 61.2 64.7 66.6 54.2 63.6 69.0 70.3 37.4 67.2 62.7 SE.0 710 60.6 67.6 69.9 68.3 68.5 70.2 73.7 65.6 60.5 70.7 70.0 69.6 69.2 1996 州 71.0 62.9 62.0 66.6 $5.0 64.5 69.0 71.5 40.4 67.1 69.3 50.6 71.4 68.2 74.2 72.8 67.5 73.2 64.9 76.5 66.9 61.7 73.3 75.4 73.0 Montana Nebraska Nevada New Hampshire New Jersey New Mexico New York North Carolina North Dakota Ohio Oklahoma Oregon Pennsylvania Rhode Island South Carolina South Dakota Tennessee Texas Utah Vermont Virginia Washington Wesi Virginia Wisconsin Wsoming 1985 66.5 68.5 57.0 65.5 62.3 68.2 $0.3 68.0 69.9 67.9 70.5 61.5 71.6 61.4 72.0 67.6 67.6 60.5 71.5 69.5 68.5 66.8 75.9 63.8 73.2 70.2 與料來源:美國人口1警查局網址:http://www.census.gov/fup/pub/bhes/ www/hvs.html. 1996 68.6 66.8 61.1 65.0 64.6 67.1 $2.7 70.4 68.2 69.2 68.4 63.1 71.7 56.6 72.9 67.8 68.8 61.8 72.7 70.3 68.5 63.1 74.3 68.2 68.0 a. 作出表中列出的 1985年及1996年的資料的頻率直方圖. b.這兩年的圖形存在什麼主要區別? c.你認為,11年中圖形為什麼會有所變化? d.國會如何利用圖中的有關資訊,制定一部允許房產稅大幅減免的法律? 3.21 做出練習3.20 的資料的莖葉圖。 3.22 描述練習3.20及3.21中房產擁有者比例的直方圖及基葉圖的形狀, 要用到有關術語如“形態”,“偏度”及“對稱”。 3.23(商業)一名汽車裝置供應商,記錄了揚聲器及擴音器五年中的月銷售紀錄:如下表中的資料(千臺/月)。做出資料圖,你能觀察出資料的整體趨勢嗎?是

• 76• 第三章資料的描述否有周期或季節影響? 年份 1 2 3 4 J F M A M J JAS OND 101.9 93.0 93.5 93.9 104.9 94.6 105.9 116.7 128.4 118.2 107.3 108.6 109.0 98.4 99.1 110.7 100.2 112.1 123.8 135.8 124.8 114.1 114.9 112.9 115.S 104.5 105.1 105.4 117.5 106.4 118.6 130.9 143.7 132.2 120.8 121.3 122.0 110.4 110.8 111.2 124.4 112.4 124.9 138.0 151.5 139.5 127.7 128.0 128.1 115.8 116.0 117.2 130.7 117.5 131.8 145.5 159.3 146.5 134.0 134.2 3.24(商業)一家為製造商提供各種產品的機械工具公司以季節為單位記錄了前8年的生產活動。表中的資料反映了有關活動而不是價格,與通貨膨脹無關。 季書伻份 I 2 8 97.2 106.1 116.5 126.1 133.2 144.2 155.8 171.1 2 100.2 107.8 117.3 125.7 133.8 146.1 158.6 172.6 3 102.8 110.5 119.9 128.3 141.1 151.6 165.8 176.5 4 102.6 110.6 119.3 132.1 142.1 154.0 167.0 179.7 a.作出上述資料對時間的圖(第1一第32個季度)。 b.是否有清晰的趨勢?若有,你應選擇什麼樣的趨勢方程? c.你能觀察出其中的週期或季節特徵嗎? 3.4 單個變數資料的描述:中心趨勢的度量數值的描述方法常用來傳達對圖形、物體及其他現象的理性反映。之所以如此,有兩個主要原因。首先,圖形描述方法對於統計推斷是不太恰當的,因為它很難描述樣本頻數直方圖和相應的總體頻數直方圖之間的類似之處。用資料描述的第二個理由是出於便利——我們不可能隨身帶著適當的圖形或直方圖,必須藉助於語言表達能力去進行恰當的描繪。我們尋求幾個數字,稱之為數值描述性度量, 這些量將使我們對一組測量值的頻率分佈有一個大致的印象。 最常用的兩類數值描述性度量是中心趨勢度量和變異性度量。也就是說,我

3.4 單個變數資料的描述:中心趨勢的度量•77• 們希望描述測量值分佈的中心,並弄清測量值是如何相對於分佈中心變化的。為了把總體的數值描述性度量和樣本的數值描述性度量區別開來,稱前者為引數,後者為統計量。在統計推斷的有關問題中,不能計算各種引數的數值,但可以計算來自樣本的相應的統計量,並用所得到的數值去估計相應的總體引數。 在這一節中,我們將討論各種中心趨勢度量,下一節(3.5節)將討論變異性度甘。 第一種中心趨勢度量是眾數。 定義3.1 一組測量值的眾數是指出現次數最多(有最高頻數)的測量值。 下面舉例說明眾數的應用及其確定方法。 例3.1 抽取15 頭食用牛作為一個樣本,記錄下它們的屠宰重量(單位:英鎊)。資料如下: 962 1,005 1,033 980 965 1,030 975 989 955 1,015 1,000 970 1,042 1,005 995 求屠宰重量的眾數。 解答對以.上資料、1,005這一重量出現兩次,其他的重量只出現一次,因此, 眾數是1,005。 例3.1 中眾數的確定是很容易的,因為我們可以數出每一個測量值出現的次數。當處理分組資料—以頻數表的形式出現的資料的時候,我們可以把具有最高頻數的分組區間定義為眾數區間。但是,由於只知道有多少測量值落入每一個區間,而不知道實際的測量值,就把眾數區間的中點當作眾數。它是實際樣本測值的眾數的近似值。 眾數常被認為是人氣所在,反映中心傾向或觀點。例如,我們可以談論最受歡迎的股票,最受享愛的洗衣機樣式或最受愛戴的候選人。此中均指分佈的眾數。 在前一節圖3.9中,頻數直方圖(b)、(c)及(d)都有眾數,它位於有最高頻數的區間的中心。因此,直方圖(b)的眾數是0.25,(c)是3,(d)是17。還應注意,有些分佈有不止一個具有最高頻數的測量值。比如,我們可能遇到雙峰、三蜂分佈等。圖 3.8給出的小雞資料的頻率直方圖是雙峰分佈,眾數是 4.2g 和 4.4g。在圖3.9 中,直方圖(e》和(f)都是雙峰的。 我們要談到的第二個中心趨勢的度量是中位數。

•78• 第三章資料的描述定義3.2 一組測量值的中位數是指把這些測量值從小往大排列時的中間值。 中位數最常用於衡量一大組測量值的中點。例如,我們常談到工會成員爭取到的工資增長的中位數,收到社會福利保障的人員的年齡的中位數,在某個月中屠宰的牛的重址的中位數。這些情況中的每一種都涉及到一大組資料,中位數反映了資料的中心值,即中位數把這些測量值分為兩組,每一組都有相等數目的測量值。 然而,對於小的測量值集合,可以據中位數的定義做如下約定:對於偶數個測址值的中位數,是將其從小到大排列後中間兩個數值的平均;奇數個測量值的中位數仍是中間值。因此,無論在偶數個還是奇數個測量值的情況,在中位數兩側都有等個數的測量值。 例3.2 對二年級的十個孩子做閱讀能力測試,分數如下: 95 86 78 90 62 73 89 92 84 76 寫出測試分數的中位數。 解答首先,按大小順序排列這些分數,由於是偶數個測量值,中位數是中間兩數的平均: 中位數=(84+86)/2=85 例3.3 作一個試驗以考察修剪葡萄的新方法的效果。有13個工人,每人分了修剪一英畝的任務。生產紀錄如下(以人小時/英畝計)。 4.4 4.9 4.2 4.4 4.8 4.9 4.8 4.5 4.3 4.8 4.7 4.4 4.2 寫出這些值的眾數和中位數。 解答按從小到大的順序排列這些測值: 4.2 4.2 4.3 4.4 4.4 4.4 4.5 4.7 4.8 4.8 4.8 4.9 4.9 這組數中有兩個測基值出現了三次,因此,資料是雙峰的,眾數是4.4和4.8。奇數個測量值的中位數是中間的值,即4.5。 分組資料的中位數較難識計算。中位數位於一個特定的分組區間中,但由於測量的實際值未知,我們無法確定中位數位於這個區間的何處。若假設測量值在將個區間上是均勻分散的,可得到如下緒論。令

3.4 單個變數資料的描述:中心趨勢的度量•79• 1.=包含中位數的分組區間的下限 n=總頻數 cf。=包含中位數的區同前所有區間的頻數之和(累積頻數) fm =包含中位數的分組區間的頻數 =區間寬度則對於分組資料, 中位數 +聲(0.5n+cf.) 下例說明如何尋找分組資料的中位數. 例3.4 表3.5是表3.3 中小雞資料的頻數表。由這些資料算小雞增重的中位數。 分組區間 3.55~3.65 3.65~3.75 3.75~3.85 3.85~3.95 3.95~4.05 4.05~4.15 4.15--4.25 4.25~4.35 4.35~4.45 4.45~4.55 4.55~4.65 4.65~4.75 4.75~4.85 — 4.85~4.95 總計 1 1 6 6 10 10 13 11 13 7 6 7 5 4 =100 表3.5表3.3 的小雞資料頻數表果加A 1 2 8 bI 24 34 47 58 71 78 84 91 96 100 fi/n 0.01 0.01 0.06 1.06 0.10 0.10 0.13 0.11 0.13 1.07 0.06 0.07 0.05 1.04 1.00 累加 fi/n 0.01 0.02 0.08 0.14 0.24 0.34 0.47 0.58 0.7 0.78 0.84 0.91 0.96 1.00 解答令j組的累加頻率等子第1組到第j組的頻率之和。為了確定包含中位數的區間,需要找出累加相關頻數超過0.50的第一個區間,此即含中位數的區間。對於以上資料,區間4.25~-4.35 是第一個頻率超過0.50的區間,如表3.5中第5列所示。所以這個區同包含中位數。於是

• 80• 第三章資料的描述 1=4.25 =100 cf=47 fm=11 we =0.1 從而中位數=1.+ c(0.5n-cf6)/fm =4.25+0.1 (50-47)/11= 4.28 注意從表3.2 中的未分組資料得到的中位數是4.3,因此,近似值與來自未分組數據的值幾乎相等。樣本中位數的這兩個值之間的差異會隨分組區間的增加而減小。 第三個,也是最後要討論的中心趨勢度量是算術平均值,簡稱之為均值。 定義3.3 一組測量值的算術平均值或均值定義為:測量值的總和除以測量值的總個數。 當人們談論平均數時,常指均值,它是資料集合的重心。由於均值住後面章節的統計推斷中的重要角色,我們給樣本均值及總體均值以特定的符號,總體均值用希臘字母x表示(按英文讀作 mu),樣本均用符號表示(讀作 y-bar)。如第一章中所指出的,一個測量總體是我們感興趣的測量值的整個集合,而一個測量樣本是從感興趣的總體中選取的測量值的子集合。如果以 y1•32 Y表示容量為的測量樣本的觀察值,則樣本均值記為其中山現在分子中的符號乙》:表示n個測量值y:的總和: 2%:=31+32+:+3 對應的總體均值是p。 在多數情況下,總體均值未知,此時常用樣本均值對相應的總體均值作出推斷。例如,一家大型連鎖店的會計科對拖欠的賬目進行清查。這家商店有幾千筆這樣的賬目,這就產生了拖欠數額均值為p的拖欠賬目的總體。嚴的數值只有通過花幾天的時間進行大規模地查賬才能確定。透過在每天的拖欠賬目中隨機抽取 n筆賬目,計算樣本均,並用這個樣本均值“估計當日所有的拖欠賬目的均值p,會計可以檢查每天的逾期賬目。估計的準確度及確定合適的樣本容量的方法將在第五章加以討論。 例3.5 一家大型商店抽取了容:=15的拖欠賬目的樣本,下表給出了這些賬目拖欠款的數目(美元):

3.4 單個變數資料的描述:中心趨勢的度量•81• 55.20 4.88 18.06 180.29 28.16 399.11 44.14 97.47 61.61 56.89 271.95 365.29 807.80 9.98 82.73 a.求出所抽取的 15筆賬目的平均拖欠款。 b.若共有150筆拖欠賬目,用樣本均值去估計所有150筆拖父賬目的總數。 解答 a.樣本均值計算如下: $5.20+18.06+:+82.73 2483.56 = 165.57(美元) b. 從(a)中看出,抽取到的15筆賬目拖欠款的平均數為165.57美元,由此可以推斷,150筆賬目的總計拖欠款為:150(165.57)=24,835.50美元。 分組資料的樣本均值公式比剛提到的未分組資料的公式稍微複雜些。在某些情況下,原始資料會在頻數表或直方圖中給出,因此,個體的樣本測量值未知,只能知道它所在的區間。在這種情況下,對於分組資料的均值公式只是實際樣本均值的近似公式。因此,當樣本測量值已知時,應使用未分組資料的公式。若有欠個分組區間,且》:=第;個區間的中點 f-第;個區間的頻數 *=測量值的總數那麼, 這兒,三表示大約相等。 例3.6 表3.6是用例3.4中的資料經分組作成的,並在其中增添了三欄—J> 和f:(y)2—這將有助於計算概括統計量的近似值。試計算這組分組資料的樣本均值。

•82. 第=章資料的描述表3.6 小雞資料分組區間 3.55~3.65 3.65~3.75 3.75~3.85 3.85~3.95 3.95~4.05 4.05~4.15 4.15-4.25 4.25~4.35 4.35-4.45 4.45~4.55 4.55~4.65 4.65~4.75 4.75~4.85 4.85~4.95 總和 1 6 6 10 10 s1 =1 13 7 6 7 3.6 3.7 3.8 3.9 4.0 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4 100 fo 3.6 3.7 22.8 23.4 40.0 41.0 $4.6 47.3 57.2 31.5 27.6 32.9 24.0 18.6 429.2 0.478864 0.350464 1.452384 0.921984 0.852640 0.368640 0.110032 0.000704 0.151632 0.302848 0.569184 1.165248 1.290320 1.478656 9.493600 解答把f»:欄中的值相加之後,將其帶入公式,得到樣本均值是 100 -9392=4292 樣本均值的實際值為 -2≥-222-4292 100 這正是用分組資料公式得到的實際值。從未分組資料得到的樣本均俏和從分組數據得到的樣本均值的數值並不總是相同的。然而,當分組區間的數目相當大時,這兩個值相當接近。 均偵是對一組測鐵值中心的常用的度,但它會由於在集合中一個或多個極端值的出現而發生失真。在這樣的情況下,極端值(又稱作離群值)會使均值偏向自己一方以找到資料的平衡點,因此而歪曲了均值作為中心值度量的意義。對均值的一種變通的方法是截尾均值,即去掉最大和最小的若干數值,對其餘的數作平均。例如,5%的截尾均值就是去掉5%最大的測量值和 5%最小的測量值,然後對其餘的90%的測量值求平均。同樣,10%的截尾均值則是去掉10%最大和最小的數值,平均其餘的數值。在例3.5中,要求10%的截尾均值,就要去掉最大和最小值,得到均值: =2,483.56-4.88-807.8= 128.53(美元)

3.4 單個變數資料的描述:中心趨勢的度量 •83• 透過剪截資料,可以減少特別大(或特別小)的值對均值的影響,得到集合中心的更可靠的度。當樣本均值用來預測總體均值時,這一點尤其重要。 注意,在極限的意義上,中位數是50%的截尾均值。因此,當資料集合中有極瑞值時,中位數常被用來代替均值。例3.5中,值807.80比起其他值相當大的, 這導致15 個數中有10個小於均值,僅有5個大於均值。15 個數的中位數是 61.61。有7個數比中位數小,7個數比中位數大。因此,在選擇有代表性的拖欠賬目時,中位數比均值更合適。然而,若我們想估計150筆賬目的拖欠款總數時, 將用均值而不是中位數。當估計總體中所有測量值之秤時,不必排除樣本中的極值。假設樣本中含有一些極大的值,若這些極大的值被截掉了,那麼,用樣本截尾均價或用樣本中位數來代替樣本均值估計總體之和,將嚴重低估被估汁的過。 任本節中,我們討論了眾數,中位數,均值和截尾均值。對於某組測過值,這些中心趨勢度址之間有何聯絡呢?答案依賴於資料的偏倚程度(偏度)。若分佈是丘形的,並且關子單峰對稱,則眾數(Mo)、中位數(M』),均值(x)和截尾均值(TM) 是相同的。這可以用圖3.7(a)中的光滑曲線及總體的各中心趨勢度量來說明。 若分佈是偏斜的、有一長尾且單峰的,均值被拖問長尾的方向,中位數落在眾數和均值之間,截尾均值常落於中位數和均值中間,其位置依賴於截尾的比例。圖 3.17(b)和(c)分別給出了左偏和右偏的分佈。 Ma TM (a) 丘形分佈 / M M。 H TM (b) 左偏分佈 TM (c) 右偏分佈圖3.17 均值、被尾均值、中位數、眾數間的關係

•84• 第二章資料的描述要記住的重要一點是:我們不能侷限於僅用一種中心趨勢度量。對某些資料集合,有必要用多種度量,才能對資料的中心趨勢作出準確的描述性的概括。 中心趨勢的各種度量的性質眾數 1.它是資料集合中出現最多,或者說出現的可能性最大的測量值。 2.一個資料集合可能存在不止一個眾數。 3. 不受極端測量值的影響。 4. 予集的眾數不能聯合起來確定整個集合的眾數。 5.對於分組資料,眾數的值隨所用的類別而改變。 6. 對於定性資料和定量資料均適用。 中位數 1.它是中心值,50%的測量值比它大,50%的測量值比它小。 2.一個資料集合僅有一箇中位數。 3.不受極端測量值的影響。 4.子集合的中位數放在一起不能用來確定整個集合的中位數。 5.對分組資料,即使用不同的方法對資料進行分類,它的值也是相當穩定的。 6. 僅適用於定量資料。 均值 1.它是資料集合中測址值的算術平均值。 2. 一個資料集合僅有一個均值。 3.其值受極端測量值的影響。截尾有助於減少這種影響。 4. 子集合的均值放在一起可以決定整個集合的均值。 s. 僅適用於定量資料。 中心趨勢度量並未為我們提供一幅關於一組測量值頻數分佈的完整的描繪。 除了確定分佈的中心,我們還必須有關於資料的分散性的度量。在下一節,我們將討論變異性度甘或離中趨勢。 練習基本技能 3.25 計算下列資料的均值,中位數及眾數。 11 17 18 10 22 23 15 17 14 13 10 12 18 18 11 14 3.26 將練習3.25 中的測量資料22 和23用42和43代替,重新計算均值, 中位數及眾數,討論這些極端值對三個中心趨勢度量的影響。 3.27 參見練習3.25 和3.26。計算兩組資料的10%的截尾均值。極端值

3.4 單個變數資料的描述:中心趨勢的度量•85 • 對10%的截尾均值有影響嗎?5%的截尾均值呢? 3.28 確定下列測量值的中位數、眾數和均值。 10 21 5 1 5710 3 4812 56 8 9 3.29 確定下列頻數表中資料的均值,中位數及眾數。 分組區間 0~2 3~5 6~8 9-11 12~14 頻數 1 3 5 4 2 應用 3.30(工程) 在一項汽車的可靠性試驗中,檢查了191 輛汽車的可靠性[參見 "I.arge sample simultaneous confidence intervals for the multinomial probabilities on transformation of the cell frequencies, "Tehcnometrics(技術度量)(1980)22:588], 記錄了第一次重大發動機故障之前所行駛的里程(以1,000英里計),並將之分類, 得到下表: 行駛距離(1,000英里) 0-20.0 20.1-40.0 40.1~60.0 60.1~100.0 100.1~120.0 120.1-140.0 140.1~160.0 160.1~200.0 頹數 6 11 16 59 46 33 16 4 a.作里程數的頻率直方圖並描述其形狀。 b.估計191 輛汽車行駛里程的眾數,中位數和均值。 c三種資料中心度基趨勢間的關係對於其頻數直方圖的形狀暗示了什麼? d.你認為三種度量中哪一種是這191輛汽車行駛里程的最恰當的描述?並

•86• 第二章資料的描述解釋你的理由. 3.31(醫藥) 在美國統計學家(American Statistician) [(1974), 28:115~ 122]刊登的一篇報告中,調查了1,329名男性,將其按血清膽固醇的含量及血壓分類。把408名血壓低於127mmHg的人又按血清中膽固醇的含量分類,結果如下表。 血清膽固醇(mg/100cc) 0.0~199.9 200.0~219.9 220.0-259.9 大於259.9 頻數 119 88 127 74 8.估計血清膽固醇讀數的眾數,中位數及均值(若可能)。 b.三種概括統計量中,哪一種關於這群人的血清膽固醇的含量包含更多的信息?說明你的理由。 3.32(環境)鳥蛋中DDE(與DDT有關)與PCB 的濃度比在生態學上是一個很有意義的量。這一比例可用作汙染透過食物鏈傳播的指標。文章“大湖的銀鷗蛋中 DDE 與 PCB 的濃度比及其在解釋環境汙染資料中的應用”[五大湖研究雜誌 CJournul of Great Lakes Research)(1998)24(1):12~31]報告了從五大湖的十三個地點收集的鳥蛋中的這一比值。這些鳥蛋來自於陸地及水生鳥類。 陸地餵養水生餵養 DDE 與 PCB 的比 76.50 6.03 3.51 9.96 4.24 7.74 9.54 41.70 1.84 2.50 1.54 0.27 0.61 0.54 0.14 0.63 0.23 0.56 0.48 0.16 0.18 a.忽略飼養方式,計算21 個數值的均值和中位數。 b.分別計算每種飼養方式下的均值和中位數。 c.透過(a)(b)中的結論,評論一下均值和中位數對於資料集合中極端值的相對敏感性。 d. 對於這兩種飼養方式,你認為中位數和眾數哪一個是最合適的測量?為什麼? 3.33[醫學) 在 Woolson 和 Lachenbruch[生物統計學(Biometrika)(1980) 67:597~606]的文章中,調查了燒傷患者移殖皮膚的存活時間。有兩個患者在移

3.4 單個變數資料的描述:中心趨勢的度量 •87• 殖皮膚敗壞前退出,他們的移殖皮膚的存活時間比所給值要長。 存活時間(犬):37,19,57*,93,16,22,20, 18, 63,29, 60' {“*”表示患者在敗壞前退出,給出的值是患者退出研究時的天數) a. 若可能的話,計算11 個患者的中心趨勢度量。 b.若退出研究的患者的存活時間可得到,這些新值如何改變了(a)中算出的概括統計望的值? 3.34(機械) 為了研究柴油發動機的可靠性,對14 臺發動機進行了試驗。在實驗室中運轉這些發動機,試驗進行了300天后結束。下面給出了各臺發動機到失效時運轉的天數(天),其中那些在試驗中沒有失效的發動機用300*記,即這些發動機失效天數大於300天。 失效時間(天)130,67,300*,234,90,256,87,120,201, 178,300*,106,289,74 8.計算14 臺發動機的中心度量。 b.當一部分發動機的準確失效天數未知,計算的中心度量值意味了什麼? 3.35(農業)氮是許多植物結實的制約因素,尤其是蘋果樹的生長直接與樹葉中氮的含量有關,必須仔細管理以保護果園中的果樹。研究表明,氨含量大致為 2.5%可獲得最好的收成。注意,一•些研究人員在報告他們的結論時用了 ppm(百萬分之一),1%=10,000ppm。 為了確定果園裡樹中銀的含量,從整個果園中的樹上剪下生長有150 個葉子的樹梢。把這些葉子磨碎形成混合樣品,研究人員透過化驗這些樣品來獲得氮的百分比。在全州隨機抽取了36個果園,這些果園的混合樣品的含氮量給出如下: 2.0968 2.8220 2.1739 1.9928 2.2194 3.0926 2.4685 2.5198 2.7983 2.0961 2.9216 2.1997 1.7486 2.7741 2.8241 2.6691 3.0521 2.9263 2.9367 1.9762 2.3821 2.6456 2.7678 1.8488 1.6850 2.7043 2.6814 2.0596 2.3597 2.2783 2.7507 2.4259 2.3936 2.5464 1.8049 1.9629 8.將每個測量值四捨五入到百分位。 b.確定四捨五入後的樣本眾數。 c. 確定四捨五入後的樣本中位數。 d. 確定四捨五入後的樣本均值。 3.36 對於練習3.35中四捨五入到百分位後的資料,用29.40代替2.94,計算這些資料的樣本方差,中位數及眾數,並與練習3.35得到的結論作比較。 3.37(政府)對於三組大城市中居民財產的有效稅率(每100美元),按居民財產稅率的大小排列,給出如下資料。

•88• 第三章資料的描述第1組稅率第2組稅率第3組 Delroit,MI 4.10 Burlington,VT 1.76 Little Rok, AR Milwaukee, WI 3.69 Manchester, NH 1.71 Albuquergue, NM Newark,NJ 3.20 Fargo,ND 1.62 Denver,CO Portand,OR 3.10 Portland ME 1.57 L.as Vegas,NV Des Moines, IA 2.97 Incianapolis,IN 1.57 Oklaboma City, OK Baltimore,MD 2.64 Wilmnington,DE 1.56 Casper,WY Sioux Falls, IA 2.47 Bridgepori,CT 1.ss Birmingham, AL Providence,R! 2.39 1Chicago,IL 1.55 Phoenix,AZ Philadelphia. PA 2.38 Houston,FX 1.53 Los Angeles, CA bmahe, NE 2.29 Atlanta,GA 1.50 Honolulu, H! 稅率 1.02 1.01 0.94 0.88 0.81 0.70 0.70 0.68 0.64 0.59 資料來源:哥倫比亞區政府,金融稅收部,哥倫比亞特區的稅率及稅務負擔:全國對比,年鑑(Tax Rates and Tax Burdens in the District of Columbia: A Nationwide Comparison, annual) a. 分別計算三組資料的均值,中位數和眾數。 b.計算全體30 個測量值的均值,中位數和眾數。 c.哪些度甘最好地概括了這些分佈的中心?給出解釋。 3.38 參見練習3.37。對三個組均值,三個組中位數和三個組眾數,分別求平均,並把所得結果與(b)作比較,並闡述你的發現。 3.5 單個變數資料的描述:變異性度量僅用中心度如均值和中位數描述資料是不充分的。例如,我們要檢驗一名義上厚度為3mm 的塑膠布,若隨機從工廠產品中選擇100張發現平均厚度為 3mm。這能說明所有的塑膠布厚度如我們所希望的為3mm嗎?有可能出現這樣的情況,即有50 張塑膠布的厚度為1mm,其餘50張的厚度為5mm。此時得到的平均厚度為3mm。因此,我們需要確定塑膠布的厚度是如何在均值3mm 的問圍分散開來的。 利用圖3.18 中的圖形,我們可以看出引入變異性度量的必要性。在圖3.18 的幾個頻率直方圖中,其均值都相同,但每個圖都有不同的分散程度,或者說變異性都不同。在圖中,為了便於說明,我們已經把直方圖用光滑曲線表示出來。假設三個直方圖描繪了大量一升水的樣本中PCB(多氯化聯二苯,這裡以 ppb 為單位) 的含址,這些樣本分別取自於靠近化工廠的三個湖中。三個湖中一升水裡 PCB的平均數是相等的。然而,PCB含量的變異性的差別是相當大的。與直方圖(c) 所描述的 PCB 值相比,直方圖(a)中有較少的樣本含有很少或很多的 PCB。僅知道三個湖中 PCB含量的均值將誤導調查者對當前三個湖中PCB含量的認識。

3.5 單個變數資料的描述:變異性度量•89• (a) 頻率八 -y (b) 率一) (c) 類率 -y 圖3.18 變異性不同但均值相同的頻率育方圖極差是最簡單但也用得最少的資料變異性度量,在3.2節中曾提到過,現給出其定義。 定義3.4 一組測量值的極差是指此集合中最大與最小測值之間的差。 例3.7 確定例3.5中15筆拖欠款項的極差。 解答最小測量值是4.88,最大測量值是807.80。因此,極差是 807.80 -4.88=802.92(美元) 對於分組資料,由於不知道個體的測量值,極差取為最後一個區間上的上限和第一個區間的下限之間的差。 雖然極差易於計算,但它依賴於最極端的值,所以很易受離群值的影響。極差並未給出變異模式的更多資訊。對於例3.5描述的情形,若在目前的預算期內1.5 筆拖欠賬目中有10筆為4.88美元,3筆為807.80美元,1筆為5.36美元,1筆為 6.00美元,則均值將是165.57 美元,,極差是802.92美元,均值和極差都與例3.5 中相等。然而,目前預算期中的資料相對於均值的分散程度比以前預算期中的數據大。我們要尋求的是一種能夠辨別資料在均值附近集中程度的變異性度量。 第二種變異性的度量方法是用百分位數。

• 90• 第三章資料的描述定義3.5 n 個按大小排列的測量值集合的p%分位數是指這樣一個數值, 集合中有至多p%的測值比它小,有至多(100-p)%的測量值比它大。 頻率 -40%以上 60% 以下 60%分位數圖3.19 一組測量值的60%分位數例如,圖3.19說明了一組測量值的60%的分位數。百分位數常用來說明考試成績的結果以及和其他參加考試的人相比某個人的排名。人們特別感興趣的百分位數是25%,50%,75%分位數,分別稱之為四分之一升位載,二分之一分位載 (中位數),四升之三分位數。(見圖3.20) 頻串 25% 25% 25% 25% 中位數 -IQR-。 四分之一分位數四分之三分位數圖3.20 分佈的分位數百分位數計算如下:每一個資料值都對應於一個百分位數,這個百分位數的百分比等於資料集合中值小於或等於它的資料值所佔的百分比。記Y()•3(2),⋯, y(n)為資料集合的順序觀察值,也就是, 341)≤Y(2)≤ ≤y() 第;個觀察值yes對應於100(j-0.5)/n 百分位數,用公式100(j-0.5)/*代替 100j/n,以避免y(m)作為100%分位數,否則,將意味著我們在這個資料集合裡觀察到了總體中可能的最大資料取值,而這是不大可能發生的事。例如,在一項血清膽固醇含量(mg/1)的研究中,記錄了20個成年患者的膽固醇含量,資料如下表。 於是,每個順序觀察值都對應於100(j-0.5)/n = 100(2j- 1)/2x = 100(2j-1)/40的一個百分位數。

3.5 單個變資料的描述:變異性度量 •91. 觀察管(j) 1 2 3 6 9 10 11 12 13 14 15 16 17 18 19 20 膽固醇含量(mg/]) 133 137 148 149 152 167 174 179 189 192 201 209 210 211 218 238 245 248 253 257 百分位數 2.5 7.5 12.5 17.5 22.5 27.5 32.5 37.5 42.5 47.5 52.5 $7.5 62.5 67.5 72.5 77.5 82.5 87.5 92.5 27.5 22.5%的分位數是152(mg/l)。因此,在研究中22.5%的人血清膽固醇的含量小於等於152。同樣,上面集合的中位數,即50%的分位數,是192和 201 的中點。也就是說,中位數=(192+201)/2=196.5.因此,在本項研究中大約一半的人膽固醇含量低於 196.5,一般的人膽固醇含量高子196.5。 當處理大量資料時,常將百分位數推廣到分位數。所謂分位數,記作Q(s), 是這樣的一個數,它把容量為n的樣本分為兩組,使得在,個資料值中有:這麼大的比例小於或等於該數,即 Q(w)。分位數Q(w)作為的函式的影象,提供了估計樣本所在的總體的分位數的方法.我們可以用下列步驟作出分位數圖: 1,在圖形橫軸上標上包含(0,1)區間的刻度。 2.在圖形縱軸上標上刻度,並使之包含從最小值 y,到最大值 3的範圍。 用 Minitab 軟體我們可以得到膽固醇資料的圖3.21。注意,用Minitab 軟體畫出的圖,縱軸標註的是Q(),而本是y)。對畫出y1)得到分位數圖。可以從圖上讀出特定的分位數。 對任意值x、用如下方法可得到相應的分位數。首先,透過分位數圖上的點

…•— •92. 第三章資料的描述作出一條光滑曲線,然後讀出所希望的w值所對應的數值。 為了解釋這個方法,假設我們想確定膽固醇的80%的分位數———也就是說, 在總體中有80%的人膽固醇的含低於該值,即 Q(0.80)。 250- •: ….… 150- • 0.0 ••• • 0.2 0 o4 o's o6 ci 0'8 0.9 1.0 圖3.21 膽遨醇資料的分位數圖在圖3.21中,找出橫軸上=0.80的點,然後作垂線與分位數圖相交,再作水平線與縱軸相交,則交點就是80%的分位數的估計值。(見圖3.22)。由此可以粗略地說,大約80%的人膽固醇含量低於243。 對於分組以後的資料,可用下列公式近似原始資料的百分位數。令 P=要求的百分位數 1. =包含所求的百分位數的分組區間的下限 "=總頻數 cf=百分位數所在區間前的所有分組區間上的累積頻數 fp=包括所要求的百分位數的分組區間上的頻數 re=區間寬度那麼,以65%的分位數為例,將用下面這個公式計算: P-1.+¥(0.65n- cf.D 為了確定1,f,和cfo,從最低區間開始,找出累積頻率超過 0.65 的第一個區間, 這個區同將包含65%分位數。

3.5 單個變數資料的描述:麥異性度量•93• • 250 - 2(x).mg/1 200- • ….•‘ •‘ 150- • • …•‘ 2 a 圖3.22 膽固醇資料的80%的分位數例3.8 對錶5.3中的小雞資料計算90%分位數。 解答由於第12個區間是第一個累積頻率超過0.90的區間,我們有, L= 4.65 #= 100 cfo=84 fso = 7 w= 0.1 因此,90%的分位數是: Fso=4.65+0.1 [0.9(100)- 84]/7=4.74 這意味著90%的測量值在該值以下,10%的測量值在該值以上。 現定義變異性的第二個度量——四分位數間距。四分位數間距的另一個略有區別的定義隨盒形圖給出(3.5節)。 定義3.6 一組測量值的四分位數間距(1QR)是指在四分之和四分之一分位數之間的差異,即 IQR=75%的分位數—25%的分位數雖然四分位數間距對於數在中點的集中比極差更敏感,但對於我們的研究目的而言仍是不夠充分的。實際上,當資料在中位數附近高度集中時,IQR可能會使人產生誤解。例如,假設由10個資料組成的樣本:20,50, 50, 50, 50, 50, 50, 50,50,80。均值,中位數,四分之一分位數和四分之三分位數都等於50。因此, IQR=50-50=0,這是很易使人產生誤解的,因為一個變異性度量等於0,將意味著n個資料是相等的,而例子中並非如此,IQR完全忽略了資料集合上的極端值。 事實上,IQR僅度量了為覆蓋中間的50%的資料所需要的距離,因此,完全忽略了

• 94• 第三章資料的描述最低端的25%和最高階的25%的資料的變異性。總之,IQR不能就單獨一組測量值的變異性提供太多的有用資訊,但對於比較兩組或多組測量值的變異性則相當有用。尤其當資料集合有偏倚時,就更是如此。我們將把1QR作為盒形圖的一部分,在3.6節做進一步的討論。 在大多數情況下,為了對資料集合進行最低限度的描述,至少需要五個概括性的量,即最小值 y(1),四分之一分位數 Q(0.25),中位數,四分之三分位數Q (0.75),及最大值 y(*)。當資料集合有一個單峰、鐘形並對稱的頻率直方圖時,只用樣本均值及一個變異性度量即樣本方差就可以描述該資料集合。現在介紹樣本方差。 現在來尋找變異性的一個靈敏的測量方法,不僅可以用來比較兩組澳值的變異性,而且,也可以用來解釋單個測量值集合的變異性。為此,我們使用y一了, 即測量值y與這組測量值的均值的離差。 為了說明起見,假設有五個樣本測量y1=68,y2 =67, y3=66,y4=63,及 ys=61。這些值表示五個城市中過去至少行使過一次選舉權的註冊選民的百分比。這些測量值在點圖3.23中標出。每個測量值在圖中橫軸上方用一個點標出, 用梯本均值 22 = 229-65 作為集合的中心,在圖3.23上作橫線代表樣本測量值與它的均值之同的離差。這些測量值的離差是用來計算的。這五個測量值及其離差如圖3.23所示。 3 一 -4 L 61 63 64 65 66 67 68 圖3.23 五個城市中註冊選民的百分比點圖一個變異性很小的資料集,其大多數測量值都位於分佈的中心附近。而對於一組有更大變異性的測量值,其相對於均值的離差就會相當大。 許多不同的變異性的度歷可以用離差y一來構造。第一種想法是用平均離差。但如例中所示,它總是等於0。第二種可能是省略負號,計算絕對值的平均。

3.5 單個變數資料的描述:變異性度量 •95• 然而,一個更易解釋的離差的函式,是這些測量值相對於均值的離差的平方和,稱之為方差。 定義3.7一組均信為的n個的測量值的方差定義為離差的平方和除以 1,即 7- 1 像樣本均值和總體均值一樣,對於樣本方差和總體方差,我們也分別用特定的符號記之。樣本方差記為,對應的總體方差記為。 一組測量值的方差的定義依賴於視這組資料為測量值的樣本還是總體。在上述定義中,我們是針對樣本而言的,因為通常得不到總體的測量值。許多統計學家的分母不是隨意的,這個樣本方差的定義使其是總體方差。的一個無偏估計。這大致意味著,若從研究的總體中抽取大量樣本,每組容量為n,計算每個樣本的s、 則平均的樣本方差將等於總體方差。。若在樣本方差的定義中除以7,從大量樣本計算的平均樣本方差將小於總體方差,因此,相應的。“將低估。。 另一個有用的變異性度量是標準差,指方差的平方根。定義標準差的一個原因是,它產生了與原始資料具有相同量綱的變異性度量,然而方差的單位卻是測量值單位的平方。 定義3.8 一組測量值的標準差定義為其方差的正的平方根。樣本標準差記為s,相應的總體標準差記為d。 例3.9 在某種試驗中,記錄下五隻老鼠在用電火花刺激和為了避免震驚而按壓一下壓條之間的時間間隔如下,計算樣本方差和標準差。 電擊避免時間(秒):5,4,3,1,3 解答樣本均值為 =3.2,離差及其平方如表所示。 總和 s 4 3 1 3 16 3-3 1.8 0.8 -0.2 -2.2 -0.2 0 3.24 0.64 0.04 4.84 0.04 8.80

•96• 第三章資料的描述用離差平方的總和,可知樣本方差為: $2 = 二,6:-)2 1-1 8-80-2.2 4 若只有分組資料時,可對樣本方差公式作簡單調整求得近似樣本方差。回憶求分組資料的樣本均值的近似值的方法,令yf分別表示第;個分組區間的中點標準差是/。 例3.10 關於例3.6中表3.6的小雞資料,計算這些資料的樣本方差及其標準差。 解答從表3.6中可知, () 的總和是9.4936。用這個值可近似求得 s和S。 5= V0.095895 =0.3097 若有最初的100 個數值計算s,s的值到第四位小數都和上述結果相同。從原始資料和從分組資料計算所得的s值一般不同。然而,當頻數表中的區間很多時,從頻數表中得到的s的近似值是很精確的。 我們已經討論了變異性的幾個度量。每一個都可用來對比兩組或多組測量值之間的變異性。其中標準差尤其受歡迎,原因有二:(1)可以用標準差對比兩個以上的資料集合之間的變異性;(2)可用從下面的準則所得到的結論解釋一組測量值的標準差。這個準則適用於大體上有“丘形”直方圖的資料——也就是說,其直方圖單峰、對稱並在尾部逐漸降低。由於很多資料集都可歸為“丘形”類中,這個準則應用得很廣泛,由此稱之為經驗準則。 經驗準則: 若一個含有,個測量值的集合擁有“丘形”直方圖,那麼, 區間 s大約包含有這組測量值的68%, 區間士25大約包含有這組測值的95%, 區間 3s大約包含有這組測量值的99.7%。 例3.11 來自某個牲畜圍場的年度報告給出了每磅牛肉的平均日批發價格為0.61 美元,標準差為0.07美元。對畜場的每日牛肉價格可得到什麼結論?由於不能得到

3.5 單個變數資料的描述:變異性度域•97• 原始的日價格資料,不能提供更多的每天牛肉價格的資訊。然而,由過去的經驗可知,日價格有一個“丘形“頻率直方圖。應用經驗準則,可以從日牛肉價格分佈圖中得到什麼結論? 解答應用經驗準則可知,區間 0.61 0.07 或0.54 美元至0.68 美元含有大約68%的測值。區間 0.61 0.14 或者0.47 美元至0.75 美元含有大約95%的測量值。區間 0.61+0.21 或者0.40美元至0.82 美元含有大約99.7%的測量值。 在英國,大約2/3的牛肉售價在每磅0.54美元和0.68 美元之間,95%的牛肉轡價在每磅0.47美元和 0.75美元之間,最低及最高售價大約為每磅0.54 美元和0.68美元。 為了增加對經驗準則的信賴,看一下它對圖3.24 中的五個頻數分佈的描述情況。計算五個資料集合(這裡沒有給出)的均值和標準差,這些值已標在每一個頻數直方圖的旁邊。圖3.24(a)給出了關於一個變數的測址值的頻數分佈,該變量可以取值y=0,1,2,,10,並具有對稱丘形分佈,均值和標準差分別是可= 5.50及s=1.49。由此計算出區間士2S,並在圖形中橫軸的下方標出。我們發現,94%的測量值落在這個區間中—即落在均值的兩個標準差的範圍內。注意,這個百分比很接近幹經驗準則給出的95%。我們還計算了落在均值的一個標準差的範圍內的測量值的百分比,大約為60%,與經驗準則中給出的 68%相差不大。因此,可認為經驗準則為圖形 3.34(a)中的資料提供了一個充分的描述。 圖形3.24(b))給出了另一個丘形頻數分佈,但它比圖3.24(a)的分佈的峰路低,如圖的右側所標註的,這個分佈的均值和標準差分別是5.50和2.67。位於均值的--和兩個標準差範圍內的測量值的百分比分別是64%和96%。這些百分比也和經驗準則中提到的很好地相符。 現在看一下另外的三個分佈,圖3.24(c)中的分佈完全是平的,然而圖3.24 (b)和(d)中的分佈是不對稱且向右偏的。這三個分佈中,位於均值的兩個標準差之內的測量值的百分比分別是100%,96%和95%。所有這些百分比都合理地接近於經驗準則中給出的95%。在均值的一個標準差範圍之內的測量值的百分比分別是60%,75%,87%,與準則中68%有一定程度的差異。 總之,可以看出,在圖3.24所有五個分佈中,經驗準則精確地預測了落在均值的兩個標準差中的測量值的百分比,儘管圖3.24(c)中的分佈是平的,或圖3.24 (e)中的分佈右偏很嚴重。經驗準則對預測在均值的一個標準差範圍之內的測量

•98• 第三章資料的描述值的百分比精確性略差。但是,預測68%對於3.24(a),3.24(b)及3.24(d)中的丘形分佈相比較之下是合理的。 0.30p 0.20- -5.30 $=1.49 率顏Q.100 125-|+28- (a) 0.20 F=$.50 $=2.07 率頻 0.10 0 12345678910 (b 0.20- =5.50 $=2.89 0.10 1 2345678910 (c) 0.30 0.20 =3.49 s=1.87 0.10 0 12 3456 78 910 (d 0.30 0.20 0.10- =2.57 s= 1.87 0 Lharurn 123456789 10 128-41-284 (e) 圖3.24 經驗準則的應用

3.5 單個變數資料的描述:變異性度量•99• 經驗準則的結論可使我們很快地得到樣本標準差:的近似值。經驗準則提到大約95%的測量值位十區間士28內。因此,這個區間的長度是4S。由於測量值的極差約是 4s,可以透過用極差除以 4得到:的近似值: s近似值=極差/4 有人可能奇徑,由於區間士3s包含差不多所有測量值,為什麼不令極差等於6s?這個方法得到的。的近似值將比前面方法得到的值小。若註定要犯錯誤 (像我們處理任何近似值一樣)的話,我們寧願過度估計樣本標準差,以便不要被誤導為比實際情況有更小的變異性。 例3.12 下面的資料描述了家庭月收入在食品支出上的百分比,是從一個由30名顧客組成的樣本得到的。 26 28 30 37 33 30 29 39 49 31 38 36 33 24 34 40 29 41 40 29 35 44 32 45 35 26 42 36 37 35 對十這些資料,乙y=1,043且乙(3:)2=1069.3667。計算花在食物上的收入百分比的均值,方差和標準差,並檢查s的計算結果。 解答梯本均值是 ≥Y 30 -129-34.31 對應的樣本方差和標準差是 S^= -二6-52 = 2(1.069.3667) = 36.8747 36.8747 =6.07 用極差近似值可以檢查:的計算結果。最大測量值是49,最小測量值是24。 因此,s的近似值是 S2極差/4=(49-24)/4=6.25 可見近似值很接近計算值。 雖然不能總是如例3.12 中近似得很好,極差近似值提供了一個有用且快捷的檢奇s的計算結果的方法。 當比較不同型別的總體的變異性的大小時,標準差可能使人發生誤解。在某些總體中,一個單位大小的方差可能被認為是很小的,而對於另一些總體,同等大

•100• 第三章資料的描述小的變異性則可能被認為很大。例如,假若要比較向容器中裝產品的兩個生產流程。流程A是裝化肥袋,要求每袋重80磅,而該流程封裝的袋子,平均重為 80.6磅,標準差為1.2磅。流程B 是裝24 盎司的玉米片盒子,要求裝入的重是 24 盎司。而流程B裝盒的實際平均重量為24.3盎司,標準差是0.4盎司。1.2是 0.4的3倍,我們是否可由此認為流程A 比流程B 有更強的變性呢?為了比較兩個很不相同的流程或總體的變異性,需定義另一個變異性度 ——變異係數,它在數基上度量了一個總體的變異性相對於其總體均值的大小。在一個均值為p, 標準差為。的流程或總體中,變異係數定義為 CY=iM 此處假設p子0。因此,變異係數是單位均值上總體或流程的標準差。若兩個封裝流程有相同的CV,那麼,它們就有相同程度的變異性。對於裝化肥的流程,CV= 1.2/80=0.015。而對於裝玉米片的流程,CV=0.4/24=0.017。兩個流程相對於它們均值的大小,有很相近的變異性。在許多實際應用中,CV用百分比的形式表達:CV=100(a/l l)%。因此,若一個流程的CV 是15%,那麼,這個流程的輸出的標準差就是其輸出的均值的15%。透過來自總體的樣本資料,我們可以用100 (s/i)%來估計CV。 練習基本技能 3.39(工程) 在 Goosty 和 Campbel 的一篇論文中[適應體育活動季刊 (Adapred Physical Activity Quarterly)(1998)15:36~50],調查了機動腳踏車的推進系統的效能。為此,在一個機動腳踏車比賽中,考察了8名輪椅參賽者。8名參賽者的參賽年數為參賽經歷(年):6,3,10, 4,4,2,4,7 8,試驗證平均參賽經歷是5年,這一數值是否充分描述了資料集合的中心? b.證明二,(y) 二,(2:-5)2=46。 c.計算這些經歷資料的樣本方差和標準差。你如何相對於樣本均值來解釋標準差的數值? 3.40 在練習3.39描述的研究中,調查者也記錄了8名參賽者的年齡。 年齡(年):39,38,31,26,18,36,20,31 a.計算8名參賽者年齡的標準差。 b.為什麼你能夠期望參賽者年齡標準差比他們的經歷標準差大? 3.41 對於練習3.39的比賽經歷資料,用極差除以4估計其標準差。這個估計值與你在練習3.39計算所得的結果接近嗎?對練習3.40中的資料進行同

3.5 單個變數資料的描述:變異性度量•101• 樣的計算。 3.42(醫學)一家健康診所中,對患者的治療時間(分鐘)如下: 21 20 31 24 15 21 24 18 33 8 26 17 27 29 24 14 29 41 15 11 13 28 22 16 12 15 11 16 18 17 29 16 24 21 19 16 12 45 24 21 12 10 13 20 35 32 22 12 10 計算治療時間的標準差。(提示:可驗證對於上述50 個治療時間≥》:= 1,016及二,(y-)2=3.434.88) 3.43 用練習3.42 中的資料,作該診所中治療時間的分位數圖。 a.找出治療時間的25%百分位數,並解釋這數值。 b.該健康診所的廣告宣稱:90%的患者治療時間不超過40分鐘,這些資料是否支援其宣傳? 3.44(環境)為了幫助估計一片林地中的木材數量,林地主人決定在隨機選擇的50×50 英尺正方形的面積中,數出直徑超過12英寸的樹木的數量。從林地中隨機選擇了70個50×50英尺正方形的面積,並數出直徑超過12英寸的樹的數量,資料如下: 7 8 6 4 9 11 9 9 8 11 8 5 8 9 8 3 10 5 8 7 10 7 8 9 8 6 9 8 9 9 7 9 8 9 7 8 13 10 8 11 8 9 7 9 9 7 5 6 9 8 8 4 7 10 2 710 4 81067 7 6 5 8 9 7 8 a.作出頻率直方圖描述這些資料。 b.計算樣本均值以估計p,這裡 p是林地中所有50× 50方塊面積中直徑超過12英寸的樹木裸數的平均值。 量落在三個區間中的方塊的百分比,並與經驗準則給出的對應區間的百分比作比較。 3.45(政府)一個城市計劃為運輸部門買汽車,為了正確預算汽車的維修費,必須確定汽車的可靠性。用練習3.30的資料,這個城市可以估計愾車出重大發動機故障前的平均行駛里程。 2.估計 191 輛車行駛里程的極差。

•102• 第三章資料的描述 b. 估計 191 輛車行駛里程的標準差。 c.用均值和標準差的估計值,作出區同(s),(25)和(3s)、分別計算其行駛里程落在蘭個區間中的汽車的百分比,並與經驗準則中提到的相應的百分比比較。為什麼在此例中,經驗準則是適用的? 3.46(商業) 在 Consumer Reports 雜誌1998年6月號中,報告了6個豪華賓館及9個廉價賓館的日住宿費。住宿費如下表。 豪華賓館(美元) 廉價賓館(美元) 175 50 180 50 120 150 120 125 49 45 36 45 50 $0 40 8.分別計算豪華賓館和廉價賓館的均值和標準差。 b.驗證豪華賓館比廉價賓館的住宿費有更大的變異性。 c.就為什麼豪華賓館比廉價賓館的費用有更大的變異性,給出一種符合實際的解釋。 d.有沒有一個更好的變異性度量,能用來對豪華賓館和廉價賓館的住宿費作比較?並給出你的理由。 3.47(環境) 許多海洋顯花生物對於環境條件的變化極為敏感,在文童 "Posidonia oreanica : A biological indicator of past and present mercury contamination in the Mediterranean Sea"[海洋環境研究(Murine Environmental Research),45: 101~111]中,調查者報告了過去20年的時期內,地中海中幾個地點的水銀含量。 Posidonia oceanica 的樣本是由佩帶水下呼吸器的潛水員潛入水中10米處收集的。 在每一個地點,採集了45 個直生性嫩芽,並測定其水銀含量。下表中記錄了每一個樣本年的平均水銀含量。 年份 1992 1991 1990 1989 1988 1987 水銀含量(ne/g千面) 地點1 14.8 12.9 18.0 8.7 18.3 10.3 地點2 70.2 160.5 102.8 100.3 103.1 129.0

3.6 盒形圖 • 103• 續表年份 1986 1985 1984 1983 1982 1981 1980 1979 1978 1977 1976 1975 1974 1973 1972 1971 1970 1969 水銀含量(ng/g千重) 地點 1 19.3 12.7 15.2 24.6 21.5 18.2 25.8 11.0 16.5 28.1 50.5 60.1 96.7 100.4 * * * * 地點2 156.2 117.6 170.6 139.6 147.8 197.7 262.1 123.3 363.9 329.4 542.6 369.9 705.1 462.0 S$6.1 461.4 628.8 489.2 8.作水銀含量的時間序列圖,把兩個地點上的時間序列連線畫在同一個圖中;說明跨越這些年的連線所具有的趨勢;對於兩個地點其趨勢相同嗎? b.選擇量合適的水銀含量的中心度量,並比較兩個地點水銀含量的中心度量的值。 c.用CV比較兩個地點中水銀含望的變異性。並說明為何比用標準差更恰當? d.當比較兩個地點的中心和變異性時,地點2中的年份1969~1972的資料能用嗎? 3.6 盒形圖如本章前面所提到的,莖葉圖是一組記分的圖形表示,可用來檢查分佈的形狀、記分的極差及記分聚集的位置。盒形圖(又譯為箱線圖)是建立在莖葉圖所顯示的資訊的基礎上的,它更多地關注分佈的對稱性,並結合中心趨勢及位置的數字度量研究記分的變異性以及在分佈的尾部記分的分佈情況。

• 104• 第三章資料的描述在講解如何做盒形圖及解釋盒形圖之前,需解釋幾個探索性資料分析(EDA) 的特定術語。我們已經熟悉了本章前面提到的第一,第二(中位數)和第三個四分位數。盒形圖用到了一個分佈的中位數和四分位數。 現用例子介紹骨架盒形圖。 例3.13 圖3.25 是表3.4中90個大城市的暴力犯罪率的基葉圖,由此作一骨架盒形圖。 1 89 2 10 24 67 91 96 98 3 36 41 52 54 75 76 88 9393 4 10 21 35 47 48 60 64 66 80 81 91 9698 5 14 05 08 16 26 29 37 57 59 61 62 62 62 63 70 71 78 85 92 6 05 05 24 26 28 31 39 42 47 61 73 84 85 85 90 98 7 03 06 18 19 20 31 35 39 51 58 71 8 04 07 09 11 14 17 43 56 68 76 77 85 9 28 71 10 20 圖 3.25 莖葉圖解答:當記分按從小到大的順序排列時,中位數為第45個和第46個記分的平均值,對於這些資料,第45個記分(在圖3.25 中從小到大計數)是571,第46個記分是578,因此,中位數是 M = S71 , S78- 574.5 為尋找這個分佈的四分之一和四分之三分位數,需要確定25%和75%分位數。我們可以用3.5節介紹的方法計算Q(0.25)和 Q(0.75)。然而,透過下列步驟,可以很快得到這兩個百分位數的近似值,並且所得值與上述方法近乎相同。 1.從最小值到最大值將這些資料排序。 2. 用中位數作為分點,將這些有序資料分為兩組。 3. 把由較小資料組成的集合的中位數,作為四分之一分位數。 4.把由較大資料組成的集合的中位數,作為四分之三分位數。 在本例中,資料集合有90個值。因此,可以分為兩組,一組含有90/2=45個最小的值,一組含有45 個最大的值。四分之一分位數是第(45+1)/2=23 個最小值,四分之三分位數從最大值數起的第23 個數值。第23個最小記分和第23個最

3.6盒形圖•105• 大計分分別是464 和 719。 四分之一分位數,Q1=464 四分之三分位數,Qg=719 資料集合中的這三個描述性度量和最大最小值一起被用來做骨架盒形圖(見圖 3.26)。骨架盒形圖的構造方法是,在四分之一和四分之三分位數之間畫一個盒子,並在中位數的位置上畫一條實線穿過盒子;然後,用一條直線連線盒子與最大值,第二條直線連線盒子與最小值。這些直線有時稱為須,整個圖形則稱為盤形圖。 2」 0 200 400 M 1600 800 T 1,000 圖3.26 圖3.25 資料的骨架盒形園瀏覽一下骨架盒形圖,很容易對資料的如下方面得到大致印象: 1•四分之一和四分之三分位數,即Q,和Q3: 2.四分位間電(IQR),即四分之一和四分之三分位數間的距離; 3. 極值(最大和最小值); 4.記分分佈的對稱與否。 如果未見到原始資料,而僅憑圖3.26的描述,我們將觀察到 Q1~475 Qg~725 IQR~725-475=250 M~575 極值:175 和 1025。 而且,由於中位數更接近於四分之一分位數,且上半部分的須比下半部分須略長, 分佈稍微有些不對稱。要看這些結論是否是對的,可作出這組資料的頻數直方圖 (或參考練習3.8的結果)。 骨架盒形圖可以進行拓展,使之包含分佈尾部的極值的更多資訊。為此,還需要下面的: 下側內分線:Q1-1.5(1QR) 上側內分線:Qs+1.5(IQR)

• 106. 第三章資料的描述下側外分線:Q1 3(1QR) 上側外分線:Q3+3(1QR) 任何一個超出下側或上側內分線的記分稱之為中度高群值(mild outlier)。 任何一個超出下側或上側外分線的記分稱之為奶碳璃群償(extreme outlier)。 例3.14 計算例3.13資料的內分線和外分線,找出中度離群值和極端離群值。 解答對這些資料,可發現四分之一和四分之三分位數分別是464 和719。 IQR=719-464=255。是, 下側內分線=464-1.S×255=81.5 上側內分線=719+1.5×255=1,101.5 下側外分線=464-3×255=-301 上側外分線=719+3×255 =1,484 從莖葉圖我們還可看出,最低和最高邊界值是189 利 1,020。由於上側內分線和下側內分線分別是1,101.S和81.5,沒有觀測值在內分線之外。因此,無中度離群值和極端離群值。 現在已經有了作盒形圖必需的所有資料。 作盒形圖的步驟 1.與作骨架盒形圖一樣,從四分之一到四分之三分位數劃出一個盒子。 2.過中位數畫一條實線穿過盒子。 3.用X標出上下邊界值。 4. 在每一個四分位數和它所對的邊界值間畫一條虛線。 5.用記號0標出每個極端離群值。 例3.15 由例3.13的資料作一個盒形圖。 解答盒形圖如圖3.27所示。 可從圖中得到什麼結論呢?首先,在盒形圖中,記分分佈的中心被盒形圖裡的中位數線所指明。第二,記分的變異性度量由四分位間距給出,即盒子長度。回憶一下,盒子是由四分之一和四分之三分位數構造出來的,因而,它包含了分佈中間的50%的記分,在盒子裡中位數線的每一邊有25%。第三,透過檢查中位數線的相對位置,可以測定中間50%的記分的對稱性。例如,若中位數線比起四分之三分位數來,更接近於四分之一分位數,則記分更多地集中在盒內比中位數低的一

3.6 盒形圖 • 107, M 2i T 0 200 400 600 800 1,000 - 圖3.27 例3.13 中資料的盒形圖邊。記分的對稱分佈將使中位數線位於盒子的中間。第四,關於偏斜的其他資訊可以從須的長度得到。一個須相對於另一個越長,在有長鬚的尾部就有越多的偏斜。第五,透過檢查劃為中度離群值和極端離群值的記分的個數,可以對離群值情況進行一般的討論。 盒形圖為對比來自幾個不同的處理或總體的樣本提供了有效的圖形方法。我們將用下面的例子來解釋這些概念。幾種新的過濾系統被建議用於小城市的供水體系。正在考慮的三個系統的初裝費和操作費用大體一致,現在比較透過這些系統後留在水中的雜質含量。在仔細地評估後,決定監控20天的操作,這將為確定三個系統間任何有意義的區別提供充分的資訊。水的樣本按1小時為間隔來收集。記錄透過三個系統後留在水中的雜質含量(以ppm 即百萬分之一為單位)。 把三個系統每天的平均值資料,作成並立(並列)形式的盒形圖,如圖3.28所示。 400 300 200質雜 100- * 0 A B 過濾嬲型別圖3.28 用三種過濾器除掉雜質檢查圖3.28中的盒形圖,可以得到由盒形圖所表示的三種過濾器的頻率直方圖的形狀。過濾器 A所對應的分佈是單峰、對稱的;過濾器B的分佈是一個單峰

• 108• 第三章資料的描述行偏的分佈;過濾器C的分佈是一個單峰左偏的分佈。過濾器A、B有幾乎相同的中位數。然而,過濾器B比起過濾器A、C來,有更大的變異性。過濾器C有比過濾器 A、B都大的中位數,但除了用過濾器C得到兩個很小的值外,它比過濾器A 有更小的變異性。從過濾器B、C得到的極端值,圖中用*表示出來。對於這些極端值,要予以考證,以確認它們都是有效的測量值。這些測量值可能是由記錄錯誤或操作錯誤造成的。由於它們對於概括統計有很大的影響,故應仔細檢查。過濾器 A 比過濾器B更穩定,比過濾器C過濾得更徹底。我們將在第八章介紹一些統討技術,這些技術將有助於我們區分三種過濾器。 練習基本技能 3.48 找出下列測量值的中位數及四分之一和四分之三分位數:5,9,3,6, 5,7,9.2, 8.10,4,3,9。 3.49 用下列測量值重複作3.48 中的練習:29,22, 26,20.19,16,24, 11,22, 23, 20,29, 17,18, 150 應用 3.50(醫藥)在獻血中心,記錄了連續20個週五自願獻一品脫血的人的數目。資料如下: 320 370 385 334 325 315 334 301 270 310 274 308 315 368 332 260 295 356 333 250 a.作出莖葉圖。 b.作出盒形圖並描述出獻血人數分佈的形狀。 3.51(商業)在雜誌消費者報告(Consumer Reports)1998年5月號中,給出不同種類的狗飼料消費 3.5+ 淼 3.02.5用2.0費1.S1.00.50.0罐裝型別幹詞料

3.7 多變數資料的概括•109• 了每天的狗飼料消費資料。這些飼料包括28 種幹飼料和23種罐裝飼料。用 Minitab 計算機程式,作出了這些資料的並立盒形圖。 a.從圖中,確定幹飼料和罐裝飼料消費的中位數及四分之一和四分之三分位數。 .指出兩種狗飼料日消費的分佈的相似和不同之處。 3.7 多變數資料的概括在前幾節,我們討論了用來概括來自單個變數的資料的數值描述方法和圖形方法。研究多個變數的情況也很常見,此時我們可能要對各個變數的資料分別進行概括,也可能要研究變數之間的相互關係。例如,我們可能對基本利潤率和消費價格指數感興趣,同時,也關注兩者之間的聯絡。在本節中,我們將討論概括來自兩個(或多個)變數的資料的一些技巧。本節的材料將為以後要介紹的x’方法 (第十章),方差分析(第八章及第十五~第十九章),和迴歸(第十一、十二和十三章)提供一個簡單的預覽和導引。 首先,我們考慮來自於兩個定性變數的資料的概括問題。對於這樣的資料,我們可以構造交叉列表,形成到聯表。表中的行給出其中一個變數取償的種類,而表中的列給出另一個變數取值的種類,表中的數值是兩個變數各取其一個可能的俏的次數。例如,調查1,500個人的電視收看情況。要求每一個被調查者說出他(或她)的居住地和喜愛的新聞網。調查結果列在表3.7中,如你所見,144 個城市居民喜歡 ABC,135個城市居民喜歡 CBS,等等。 衰3.7 電視收祝率調查資料居住地所喜歡的電視網一 ARC CBS NBC 其他總和市區 144 135 108 63 450 郊區 180 240 225 105 750 農村 90 96 54 60 300 總和 414 471 387 228 1500 在列聯表中尋求變數之間關係的最簡單的方法是比較基於行的總和,列的總和或所有數的總和的百分比。如果計算出表3.7中每一行內的百分比,我們便可以比較喜歡每一個電視網的居民的分佈。表3.8給出了一個這樣的基於行總和上的百分比的比較。

•110• 第三章資料的描述表3.8 各個電視網的居民分佈的比較居住地所喜歡的電視網 ABC CBS NBC 其他市區 34.8 28.7 27.9 27.6 郊區 43.5 50.9 58.1 46.1 農村 21.7 20.4 14.0 26.3 總種 100(n=414) 100(n=471) 100(n =387) 100(n =228) 喜歡收看 ABC的市區居民的百分比在各個電視網中最高。除此以外,各個電視網居民分佈的差異主要在郊區和農村。收看 ABC 的郊區居民的百分比為 43.5%,而對於 NBC,這一比例上升到58.1%,農村居民的百分比則有相應的下降。在第十章,我們將用x方法進一步探求兩個(或多個)定性變數之間的關係。 120 100 80 累加單元百分數 60 居住地 40 市區 20 郊區 0 農村 ABC CBS NBC 所喜歡的電視網 Other 圖3.29 各個電視網居民分佈的對比對於來自於兩個定性變數的資料,一種廣義的條形圖提供了方便的顯示資料的方法,這就是堆壘條形圖。圖3.29中的堆壘條形圖是由表3.8中的資料作出的。 在上圖中,基於電視觀眾所居住的位置,顯示了每一個主要電視網新聞節目觀眾的分佈。廣告商常用這種資訊去決定在哪個電視網上作商業廣告。

3.7 多變數資料的概括•111• 一個定性變數和定量變數之間的關係可以用條形圖的另一種擴充形式很方便地顯示出來。一個食物學家正在研究不同型別的脂肪和不同型別的表面活性劑的組合對子烘烤的麵包的體積所產生的影響。在這個試驗的設計中,使用了3種表面活性劑和3種脂肪,因而形成了一個3×3析因試驗。在試驗中,她用9種處理中的每一種,烘烤出不同數量的麵包(處理指一種表面活性劑和一種脂肪的組合, 關於析因試驗,請參見第十五章—譯者著)。試驗時,她在麵糰中按3種表面活性劑和3種脂肪的9種組合把表面活性劑和脂肪摻入麵糰來烘烤麵包。資料和概括統計量在表3.9中給出。 在這個試驗中,科學家想從試驗結果推斷商業生產過程。圖3.30是該試驗的集類條形圖。利用這種集類條形圖,試驗者可以考查這兩個因子,即脂肪型別和表面活性劑型別對所得麵包體積的同時的影響。因此,調查者可以檢查出烤麵包的 9種不同方式對面包體積的影響上的差異。 脂肪 2 3 總和表3.9 因變數麵包體積的描述性統計量表面活性劑 1 2 3 總和 1 2 3 總和 1 2 3 總和 1 2 3 總和均值 5.$67 6.200 5.900 $.889 6.800 6.200 6.000 6.311 6.500 7.200 8.300 7.300 6.263 6.644 6.478 6.469 標準差 1.206 0.794 0.458 0.805 0.794 0.849 0.606 0.725 0.849 0.668 1.131 0.975 1.023 0.832 1.191 0.997 N 3 3 3 9 3 2 4 9 2 4 2 8 8 9 9 26

•112• 第三章資料的描述 8.5 8.0 7.5 7.0 6.5 6.0 5.5 5.0 共表面活性劑 I ] T 2 脂肪型別 3 3 圖3.30 烘烤麵包試驗中的體積我們也可以作圖去總結兩個定量變數之間的關係。考慮下面的例子。一家小機械商店的經理考查他付給有z年工作經歷的機械師的每小時的起點工資y,數據如下。 (美元) (年) 8.09 1.25 8.70 1.50 9.10 2.00 9.00 2.00 9.79 2.75 9.45 4.00 10.00 5.00 10.6511.10 11.05 6.00 8.00 12.00 所付的小時工資和工作經歷之間有關係嗎?概括這些資料的一種方法是用散點圖,如圖3.31所示。圖上每一點都代表一個有著特定起始工資和工作經歷的機械師。圖中擬合資料用的光滑曲線,稱之為最小二乘線,概括描述了z和y之間的關係。利用這條線,可以預測其工作經歷年數未包含在資料集合中的機械師的小時起點工資。我們將在第十一和十二章討論如何得到這條曲線。總體說來,這條擬合的曲線表明,隨著工作經歷z的增加,每小時起點工資會增加至某一點,然後趨於穩定。我們將在有關回歸的章節(第十一至第十三章)中,討論關於多個定量變數之間關係分析的基本思想。 最後,我們可以用資料圖來概括幾個定量變數之間的關係。考慮下例。Thall 和 Vail(1990)對抗癲癇藥物氟柳雙胺作為標準化療的輔助藥物的效果作了一個評估。在臨床試驗中,有59個癲癇患者參與試驗。這些受輕微或嚴重的間歇發作折

3.7 多變數資料的概括•113• Y=8.09218+0.544505X-2.44B-02X"2 R-$q=93.0% • 每小時的工資 • 9 0 2 4 6 經歷年數 12 圖3.31 起點小時,工資和工作經歷的散點圖磨的患老被隨機指定去接受抗癲癇藥物或安慰劑。連續做了四次後隨機化(posurandomization)臨床診斷,每次都記錄了前兩週的發作次數。所觀測的變是 Y(=1,2.3,4)—四次臨床診斷中記錄的發作次數,Tr(1)—0指安慰劑,1 指輔助藥物;Base(z2),即基線發作次數,Age(xg),即患者的年齡。在表3.10和表3.11 中給出了資料和概括統計量。 第一種圖形是並立盒形圖,我們用這種圖來對比治療組思者和安慰劑組患者的基線發作次數和年齡。利用並立盒形圖的視覺效果,我們可以判斷,在臨床試驗之前,治療組患者和安慰劑組的患者的年齡和基線發作頻率是否有相同的分佈。 觀察3.32(a)可知,在臨床試驗之前,兩組患者的發作次數有相似的模式。兩組中只有一個患者的發作基數大於100。安慰劑組比治療組的基線發作次數有更大的變異性——它的盒子比治療組的盒子更寬。描述統計表與這一觀察結果相矛盾: 安慰劑組的樣本標準差為26.10,治療組的樣本標準差是27.37。這種看上去不一致的結論,是由於在治療組中有一個患者有很大的基線發作次數。治療組的基線發作次數的中位數比安慰劑組大,而兩組的均值幾乎相等。由於安慰劑組中中間 50%的資料右偏,而治療組中中間50%的資料幾乎是對稱的,故兩組的均值比它們的中位數有更好的一致性。圖3.32(b)顯示這兩組中的年齡幾乎是同分布的。 僅有的區別是:治療組的中位數年齡稍徽小一點,變異性稍微大一點。因此,這兩組在臨床試驗之前有相似的年齡和基線發作次數的分佈。

•114. 第三章資料的描述 ID 表3.11 癲癇研究的資料:59名寵癇息者連續兩週的發作次數,協變數是輔助治療 (0-安慰劑,1=氟柳雙胺),8周的基線發作次數和年齡(歲) y1 5 3 2 4 7 5 6 ½2 3 s 4 4 18 2 4 }3 3 3 0 1 9 8 0 Trt Base 3 3 0 11 0 11 0 6 • 4 21 7 2 12 0 8 66 0 0 27 12 52 26 10 10 28 2 4 29 13 11 24 15 14 1 12 17 S 13 9 9 19 7 0 1/1~1! 16 4 50 18 111 18 20 28 55 10 47 76 38 19 10 19 24 31 14 Age 25 36 22 29 42 24 26 32 21 $2 40 19 22 18 32 20 30 18 24 30 35

ID 117 }2 7 18 1 2 4 14 5 1 10 I 65 3 6 3 5 2 3 3 0 4 衰3.11 ¥3 7 2 4 25 8 72 28 4 4 19 3.7 多變數資料的概括•115, ¥4 4 7 5 0 0 3 15 8 7 3 8 0 63 4 7 5 13 0 1 0 2 Trt 1 1 1 1 1 1 1 1 1 Base 11 67 41 7 22 13 46 36 38 7 36 11 151 22 41 32 56 24 16 22 25 t3 12 描述統計量:癲癇病例子的 Minitab 輸出結果 (工作單大小:100,000個單元) 續表 Age 27 20 22 28 23 40 33 21 35 25 26 25 22 32 25 35 21 41 32 26 21 36 37 0 = PLACEEO 1=TREATED Variable TREATHEKT Y1 1 ¥2 0 1 Y3 0 1 N 28 31 28 31 31 Mean 9.36 8.59 8.29 8.42 8.79 8.13 Median 5.00 4.00 4.50 5.00 5.00 4.00 Tr Mean 8.54 5.26 7.82 6.37 6.54 5.63 StDer 10.14 18.24 8.16 11.86 14.67 13.89 SE Nean 1.92 3.28 1.54 2.13 2.77 2.50

• 116• 第三章資料的描述續表 Variable TREATHENT Y4 1 BASE 0 AGE 0 1 Variable TREATHEHT Y1 0 1 x2 1 ¥3 0 1 0 1 BASE 0 1 AGE 0 1 H 28 31 26 31 28 31 Min 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 6.00 1.00 19.00 18.00 Hean 7.96 6.71 30.79 31.61 29.00 27.74 Max 40.00 102.00 29.00 65.00 76.00 72.00 29.00 63.00 111.00 151.00 42.00 41.00 Hedian 5.00 4.00 19.00 24.00 29.00 26.00 21 3.00 2.00 3.00 3.00 2.25 1.00 3.00 2.00 11.00 13.00 24.25 22.00 T Mean 7.45 478 28.65 27.37 28.88 27.52 23 12.75 8.00 12.75 10.00 B.75 a.00 11.25 8.00 49.25 38.00 32.00 33.00 stDes 7.63 11.26 26.10 37.9日 6.00 6.60 SE Mean 1.44 2.02 4.93 5.03 1.13 1.19 * 150 3 基線次數 100 50 - 0 * 治療 1 (a)兩個治療組的基線次數的盒形圖

3.7 多變數資料的慨括•117• 40 30 20 1 治療 (b) 兩個治療組的年齡盒形圖圖3.32 練習 3.521社會) 論文“Demographic implications of socioeconomic transition among the tribal populations of Manipur,India(印度 Manipur 部落群體社會經濟變遷的人口統計學分析)”[人類生物學(Human Biology)(1998)70(3):597~619]中,作者描述了從 20 世紀初開始,印度所有 Manipur 部落的群體發生的巨大變化。Manipur 部落正處於在從傳統的生計型經濟向市場經濟的社會經濟轉變過程中。下表中的資料來自於印度Manipur部落中614個已婚男性和女性組成的樣本,資料顯示了他們的文化水平和生計群體的關係。 文化水平生計群體變遷的種植者安居的農業主城鎮居民無文化 114 76 93 基礎教育 10 2 13 中學以上 45 53 208 自.用集類條形圖描述表中的資料。 b.基於行和列的總和,作百分數的對比。對於文化水平和生計群體之間的關系你能得到什麼結論。 3.53(人力資源)一個大公司記錄了250次工作變更發生的原因及工作變更時人員的年齡,資料由下表給出。

•118• 第三章資料的描述年齡(歲) 變更原因總和辭職調動退休/解僱總和 ≤29 30 12 8 50 30~-39 6 9 60 40~49 4 4 52 60 ≥50 20 5 55 80 60 66 124 250 基十行的總機,作百分數對比,並由此描述這組資料。 3.54 在練習3.53中,用基於列總和的百分數對比,你會得到什麼不同的結論?實際做一下,並給出你的結果。 3.55(工程) 在隱形眼鏡鏡片製造中,鏡片的強度必須很接近規定的值。在論文“An ANOM-type test for variance from normal populations(正態總體方差的一個 ANOM 型檢驗)"[技術度址(Technometrics)(1997)39:274~283]中,比較了幾個供應商的透片強度的一致性。下表給出「用來自三個供應商的材料生產的鏡片強度與規定值的偏差: 供應商 1 2 3 189.9 156.6 218.6 191.9 158.4 208.4 190.9 157.7 187.1 183.8 154.1 199.5 與規定值的偏差 185.5 152.3 202.0 190.9 161.5 211.1 192.8 158.1 197.6 188.4 150.9 204.4 189.0 156.9 206.8 a.對每個供應商,計算相應的偏差的均值和標準差。 b.面出偏差樣本資料的圖。 c•描述三種鏡片對於指定強度的偏差。 d.使用哪個供應商提供的材料,可以生產出強度與規定值最接近的鏡片? 3.56(商業)聯邦政府極其關注貨幣增長與制定的增長目標之間的關係。下面列出反映美國貨幣供應量的兩種指標,即M2(私人支票存款,現金及儲蓄)和 M3(M2加上某些投資)的連續20月的資料。 a.散點圖能描述 M2 和 M3間的關係嗎? b.作散點圖。二者有明顯的關係嗎?

| 3.8 小貨幣供應(單位:1萬億美元) 結 • 119. 肖份 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 M2 2.25 2.27 2.28 2.29 2.31 2.32 2.35 2.37 2.40 2.42 2.43 2.42 2.44 2.47 2.49 2.51 2.53 2.53 2.54 2.55 M3 2.81 2.84 2.86 2.88 2.90 2.92 2.96 2.99 3.02 3.04 3.05 3.05 3.08 3.10 3.10 3.13 3.17 3.18 3.19 3.20 3.57 在練習3.56 中,其他什麼資料圖可用來描述和概括這些資料?作出這種圖並解釋你的結果。 3.8 小結本章討論了資料的圖形描述和數值描述方法。餅圖和條形圖尤其適合於定性變其資料的圖形顯示,而頻數直方圖、頻率直方圖及基葉圖是隻適用於定量變數數據的圖形方法。 資料的各個數值描述性度量使我們對測量值分佈的形態有一個理性的想象。 中心趨勢度量包括眾數、中位數和算術平均值。變性度量包括一組測量值的極差,四分位數間距和標準差。 我們還把資料描述的概念推廣到概括兩個定性變數之間的關係。其中用交叉列表法匯出了百分數對比的方法。我們還介紹了可以概括定性變數與定量變數及兩個定量變數之間的關係的各種圖。這裡提到的這些內容(即變數間的關係的概

• 120•