AI 新聞與投資
統計學方法與資料分析引論

第十一章 線性迴歸和相關

20 / 34

美 30 20100- -10- -2010 • • • • • • • 46 s6 60 70 86 擬合值 • 90 100 a.繪製價格對戶型的散點圖,這個圖顯示出一種增加的關係嗎? b.確定資料中明顯的離群點,它是高槓杆點嗎? c.求出包括這個離群點在內的資料的迴歸方程。 d.剔除這個離群點,求出新的迴歸方程。沒有這個離群點,斜率是怎樣變化的?為什麼? e.確定包括離群點的模型和不包括離群點的模型的殘差標準差。它們相差大嗎?為什麼? 11.90 求出練習 11.89的剔除離群點後的迴歸模型。 日. 解釋截臣(常數)項。在問題的背景下,這個數有什麼意義? b.在問題的背景下,斜率為零意味著什麼?等假設為零斜率是否能被顯著地拒絕? c.計算總體的斜率真值的95%置信區間。計算機的輸出結果應該給出估計的斜率以及標準誤差,但讀者可能需要自亡做剩下的計算。 11.91 a•如果可能,根據練習11.89的剔除離群點的迴歸模型,利用計算機程式求出一個5,000平方英尺的房屋的價格的95%預測區間。如果你必須是自已做這個計算,先從計算機的輸出結果中獲取戶型資料的均值和標準差, 然後計算 Sz=(n-1)s。根據這個資料所作的預測是明的嗎? b.繪製價格對戶型的散點圖,同方差的假定是合理的嗎?或者是方差隨戶型增大而增大? c.關F(b)的答案對(a)的預測區間有什麼影響? 11.92(商務)某個草種植公司想要預測不同郵政地區的服務需求,預測變量是郵政地區內住戶密度。公司經理收集了每個郵政地區的住戶數和地理位置, 並計算了每下戶的銷售和每英畝的住戶數。這些資料都存貯在出版社網站的資料集中EX1192.DAT 檔案,其中第一列是銷售資料,第二列是密度(住戶/英畝)。使

11.8小結•677• 用統計軟體讀出這個檔案。 2.求出這兩個變過之間的相關係數,這個數的符號意味什麼? b.求出因變數為銷售,自變數為密度的預測方程。解釋截距(這個解釋會有點奇怪)和斜率。 c.求出殘差標準差,關於預測的準確性,這個數說明什麼? 11.93 a.求出練習11.92 的迴歸模型的:統計量的值,有沒有確鑿的證據表明密度是銷售的預測變垃? b.計算斜率真值的95% 買信區間。 11.94 繪製練習11.92的銷售關於密度的散點圖,這個散點圖顯示出直線型的預測有意義嗎? 11.95 參照練習11.92。使用計算機程式讓算新的變數1/密度。 8.新變址的含義是什麼?特別地,如果新變數的值是0.50,對於這個特的郵政地區有什麼意義? B.繪製銷售關於新變望的散點圖,這裡用直線型的預測合理嗎? •求出銷售和新變數間的相關係數,並與練習11.92的銷售與密度的相關係數進行比較,二者的差別的解釋是什麼? 11.96 {工程)某個生產公路表面標識所用油漆的製造商,需要對開發的新配方的耐久力進行檢驗,其中關心的一個問題是油漆中顏料的濃度。如果顏料濃度太低,油漆就會很快褪色;如果顏料濃度太高,油漆在公路表面就不會持久。制造商將不同顏料濃度的油漆用於樣本公路表面上,並收集這些樣本公路的耐久力測量俏。這些資料都存貯在出版社網站的資料集中的EX1196.DAT 檔案,其中第一列是耐久力資料,第二列是顏料濃度。 2.利用計算機軟體求出用濃度預測耐久力的迴歸方程,並解釋斜率。 b.求出決定係數。關於濃度的預測價值,它說明什麼? 11.97 練習11.96的迴歸模型中,在a=0.01 下斜率顯著不為零嗎? 11.98 繪製練習11.96 的資料的散點圖,其中耐久力為縱軸,濃度為橫軸。 a. 關用直線型的預測這個散點圖表明瞭什麼? b.關於練習11.96的相關係數這個散點圖表明瞭什麼? 11.99(商業)以前,我們討論過一個建築商團體,這個團體研究了估計建設定製房屋的成本的方法。這個問題需要你的進一步的建議。 回想建築商用這個方法估計了10個“特別的“沒有客戶協議的房屋的成本。 建築商也狄得「完成每個房屋的實際成本(用Actual表示)(不包括土地成本),並與估計的成本(Estimated)比較。 “我們回到了會計那裡,他對資料進行了迴歸分析,並得出了結果。會計說估

• 678• 第十一章線性迴歸和相關計是十分準確的,且具有80%的相關性和很低的p值。我們仍然懷疑這個新方法是否給出了合適的估計。由於我們只有10%的利潤,很小的誤差也會造成損害。 你能介紹關於這個估計方法計算機輸出結果說明什麼?” 寫出一個簡潔的、非專業的介紹。介紹主要集中在建築商關於估計準確性的問題上。散點圖如下所示。 HTH> Regress "Actual'on 1 variable 'Fstimate'. The regression equation is Actual = - 34739 + 1.25 Estimate Predictor Constant Estimate Coef - 34739 1.2474 Stdev 60147 0.3293 t-ratio -0.58 3.79 P 0.579 0.005 s= 19313 R-$Q =64.2* B-sa(adj)= 59.7* Analysis of Variance SOURCE Regression Error Total DF 1 8 9 ss 5350811136 2983948032 8334758912 MS 5350811136 372993504 F 14.35 P 0.005 Unusual Obaervations Obs.Kstimate Actual Fit Stdev.Fit Residual st.Resid 2 186200 152134 197531 6286 -45397 -2.49R R denotes an obs. with a large st. resid. MIB > Correlation "Bstimate Actual’. Correlat ion of Estimate and Actual = 0.801 24,00023,00022,00021.,000- • 18.00- •..、、 1500 1a00 7fw0 106mg200 200m0 2100 20m 估計$

12.1 12.2 12.3 12.4 12.5 12.6 12.7 12.8 12.9 12.10 第十二章引富和業例一般線性模型估計多元迴歸係數多元迴歸中的推斷迴歸係數子集的檢驗用多元迴歸進行的預測比較幾系迴歸線的斜率 Logistic 回店多元迴歸的一些理論結果(任選) 小結多元迴歸與一般線性模型 12.1 引言和案例案例:設計一種電鑽,使其在高強度的使用下不發熱為家用電動工具製造商工作的工程師們要設計一種電鑽,這種電鑽在高強度的使用下不發熱。設計中三種關鍵的因子為:絕緣材料的厚度,馬達中所使用的線的質量以及電鑽鑽體上排風口的大小。 資料收集的設計這些工程師已經學習了一些線外質量控制的知識,所以他們用這些因子設計了一個試驗。在這三個設計因子的每個水平組合上製作了十把電鑽,並把它們分成兩批,對這兩批分別在兩個(假設它們是等價的)“痛苦的檢測” 下進行測試。每次檢測結束時測量鑽體的溫度,並對於每個批,計算其平均溫度以及溫度方差的對數。工程師們既要極小化這個均值,又要極小化方差的對數。 資料的整理對於這個試驗,有三個重要的因子: IT是電鑽的絕緣層厚度(IT=2,3,4,5或6) QW是馬達中所使用的線的質量(QW=6,7或8) 以及 VS,即電鑽鑽體上排風口的大小(VS=10,11或12)。 這些設計因子共有5×3×3=45個不同的組合。對於因子的每個組合,生產了十把電鑽,把這十把電鑽分成兩批,每批五把。對每把電鑽都要進行高強度的檢測, 並在檢測結束時記錄其溫度。下面的 avtem表示給定設計因子的組合下一批中五把電鑽的平均溫度。這裡統出90(5×3×3×2批)個平均溫度的測量值。資料集閤中還包括:

• 680• 第十二章多元迴歸與一般線性模型 logv = 對於給定的因子組合和批(lot),其溫度的方差的對數 12,Q2 和V2分別對應於三個設計因子的平方項,許算公式為: (設計因子-平均設計因子)? 174 163 170 169 163 178 165 167 171 166 166 161 162 169 162 159 8 9 8 3 3 3 3 4 0 3 3. 3.2 3.2 2.7 2.7 2. 8 2. 8 2.9 2.7 3.7 3.7 3.4 3 7 1.5 IT 12 2 2 2 3 3 4 4 4 QW 6 6 VS 12 7 7 7 8 8 8 8 6 6 7 8 8 6 6 6 6 10 10 11 11 12 12 10 10 11 12 11 11 12 12 11 10 10 11 1 12 12 10 10 11 12 12 10 10 11 11 12 Q2 4 4 4 4 4 4 4 4 4 4 1 1 1 1 1 1 0 V2 Lol 1 1 0 0 ①) 0 0 O 0 0 1 1 0 0 1 2 1 2 [ ①】 1 〔) 0 TZTE avler kgw ITQW Vs 3.4 4 7 2.9 4 3.1 4 4 8 11 12 12 10 4 7 8 4 3 7 8 3 4 2 4 5 5 s 2 .9 6 6 6 6 6 6 6 6 6 6 6 6 6 6 8 8 8 8 8 6 冇 6 6 7 7 7 7 7 8 O 0 0 0 0 0 U U 4 4 4 4 4 4 4 4 4 4 4 4 1 0 0 0 上 1 1 0 0 0 V2 Lot 0 2 I 00 0 0 T1 1 1 (2 1 2 2 2 0 2 2 2 2

avtEn! logv IT QW VS 12 168 3.4 4 6 12 169 3.1 4 7 10 0 165 3.2 4 10 163 3.2 4 11 0 Q2 V2 Lat 1 2 1 1 2 1 12.1 引言和案例 • 681• 續表 avtem logv IT QW VS 12 156 150 149 151 2.9 2.7 6 6 2.9 6 8 8 8 11 11 12 2.8 6 12. 4 4 4 4 Q2 V2 Lot 0 1 0 2 1 1 1 1 1 2 資料的分析工程師們要分析這些資料,並且要極小化溫度均值和溫度方差的對數。他們要求你找出哪個設計因子好像對均值有影響,影響到什麼程度,哪一個影響方差,哪一個平方項是重要的,最後,他們還想知道試驗結果與批號(相應子檢驗的型別)是合有關。對這些資料將使用本章中討論的方法,在練習12.65~ 12.67 中進行分析。 聯絡因變數和一個定量的自變數的最簡單的迴歸模型就是在第十一章中討論的模型 B+B +6 在假定“對於一個給定的x值e的均值(又稱為:的期望值)為 E(e)=0 ”的前提下,這個模型表明,對於給定的z值,少的期望值由直線 E(y)=B+B工給出。 地塊 1 2 5 10 11 12 13 14 表12.1 不同施肥量下14 塊大小相同的西紅柿田的產量產量(蒲式爾) 施肥量 (每塊地的磅數) 24 12 18 31 33 26 30 20 25 25 27 29 29 26 15 17 20 14 6 23 11 13 8 18 22 25

•682. 第十二章多元迴歸與一般線性模型並非所有的資料集合都能由期望為直線的模型來充分地描述。例如,考慮表 12.1 中的資料,這些資料給出了14塊大小相同的西紅柿田在不同施肥量下的產量(蒲式爾)。由散點圖12.1 容易看出,線性方程不能充分表示產量和圖中範圍上的施肥量的關係,其原因在於,儘管最大的施肥量確實提高了作物的產量,但施肥過量會造成損害。 對於這種情況,一個可能的模型是 Y=B+BE+BX2+E 我們仍然假定 E(e)=0,於是對於給定的值,y的期望值由 E0y)=B+B +B2x 給出。圖12.1中畫出了一條這樣的線。 40 E0y)=Bo+B +0x2 30 120 10 • 10 15 湳肥量 20 25 圖12.1 施肥量-產量資料的散點圖聯絡因變數,和一個定量的自變數x的一般的多項式迴歸模型為對於給定的x值,的期望偵為 E0y)=80+Bx+B +⋯+B P的選取,也即合適的迴歸模型的選取,依賴於具體的試驗。 聯絡因變數,和一組定量自變數的多元迴歸模型是一個自變數情形下多項式迴歸模型的直接推廣。多元迴歸模型寫為如下形式: 這裡任何自變數可能是其他自變數的冪,例如,z2可能是z。事實上,還有很多其他的可能性,z3可能是一個交叉乘積z1,22 4 可能是1ogz1,等等。惟一的限制是沒有一個是其他×的完全線性函式。 多變數回歸方程的最簡單的形式是一階模型,其中每一個自變數都出現,但沒

12.1 引言和案例 • 683• 有這些自變數的交叉乘積項或高次冪。例如,當有三個定量自變數時,一階多元回歸模型為 y=Ba+Biri+Bx+Bs s+E 對於這些一階模型,我們可以賦予各個日以某種意義。引數ho是y截距,表示當每個x均為0時y的期望值。對於令每個為0沒有意義的情況,Bo(或其估計)只用做預測方程的一部分,不對其做單獨解釋。 多元迴歸方程中的其他引數(B1•B2,“,&x)有時叫做偏斜率。線上性迴歸中, 引數B,為迴歸直線的斜率,它表示當x增加一個單位時,y的期望值的變化。在一階多元迴歸模型中,表示當x」增加一個單位,而其他的各個z都保持不變時, 的期望值的變化。一般地,B(j 0)表示當z,增加一個單位,而其他的各個 x都保持不變時,»的期望值的變化。對於一個多元迴歸模型,通常的假設如下。 定義12.1 多元迴歸的假設如下: 1•模型中關係的數學形式是正確的,從而對於所有的i,E(E:)=0。 2. 對於所有i,Var(E:)=d0 3. 各個e;是相互獨立的。 4.a;是正態分佈的。 當我們應用一階多元迴歸模型時,還有另外一個隱含的假設。由於z;變化一個單位時,»的期望值的變化是一個常數,與其他的取值無關,我們事實上是在假定這些自變數的效應是可加的。 例 12.1 一名商標管理人員收集了關於一個新產品的資料,其中y=商標認可程度(能說出該商品是什麼的潛在顧客的百分比),z1=一次電視廣告中介紹該產品的時間長度(以秒為單位), 2=兩週期間電視廣告的重複次數。如果這名管理人員用一階模型 Y = 0.31 +0.042×1+1.4172 來預測y,他做了哪些假定? 解答首先,他假定了一個線性模型,從而y隨其中任何一個變數的變化速率是⋯致的。他假定電視廣告每增加一秒,認可程度就增加0.042 個百分點,而不論是從 10秒增加到11 秒還是從59 秒增加到60秒。同樣,廣告每增加一次重複, 認可程度就增加1.41 個百分點,而不論是第二次重複還是第二十二次。 第二,他假定了沒有互動作用。他使用的這個一階模型假定了對於給定的廣告持續時間(即z」保持不變),增加一次廣告重複(即z2有一個增量)的效果不依賴於給定的廣告持續時間是多少(10秒,27秒,60秒還是任何其他什麼值)。

• 684• 第十二章多元迴歸與一般線性模型什麼時候可加性的假設是可以得到滿足的呢?圖12.2(a)顯示了y對工1的散點圖,而圖12.2(b)顯示的是同樣的資料散點圖,其中各點上有一個標識,標出 「第二個自變數 2的不同的水平(2 取值1,2或3)。從 12.2(a)我們看出, 關於x1近似成線性趨勢;圖 12.2(b)中相應於自變數x2 的三個水平的三條線平行,這表明,不論z2 在什麼水平上,對於z1的一個單位的變化,我們可以預期的y 的變化是一樣的。這樣的資料就表明了x,與z2 的效應是可加的,因而形如鄉= Bo+Biz1+Bzx2+e 的一階模型是合適的。 • 1 1 1 2 2 3 3 2 2 3 3 (a) 對x,的散點圖 (b)J對x,的散點圖, 表明了x,與x,效應的可加性圖 12.2 圖12.3表明了一種在 1 與z2間有互動效應存在的情形。雖然y對z1的散點圖與圖 12.2(a)類似,但圖12.3中的三條線不平行,這表明,對於z!的一個單位的變化,可以預期的y的變化與z2的水平有關。當這種現象發生時,我們就說自變數z1與×2是互動的。此時,假定效應具有可加性的一階模型是不適用的。 最粗淺的做法是在模型中加入交叉乘積項 z1 20 2 2 2 2 2 3 1 1 1 3 3 3 --x 圖12.3 y對!的散點圖,表明了 1與z2 效應的不可加性(互動效應〉 允許x1 與z2間的互動效應的最簡單的模型是注意,對於一個給定的z2 的值(比如說z2=2),»的期望值為

12.1 引音和案例 • 685• E(y)= Bo+ Bix1+B:(2)+B3z1(2) =(Bn+2B2)+(B1+203)x1 此處,截距和斜率分別為(B0+2B2)和(B1+2B)。對於×2 =3,相應的截距和斜率則分別為(Bo+382)和(B1+3Bs)。顯然,兩條迴歸線的斜率是不同的,因而兩條線是不平行的。 並非所有的試驗都可以用一階多元迴歸模型來刻。在這樣的情況下,高階的多元迴歸模型可能是適用的,此時,因為模型中包含自變數的交叉乘積項或高階項,各B的解釋也更加困難。我們將著重於找出對於樣本資料擬合良好的多元回歸模型,並把各個B放入整個模型進行考慮,而不把注意力集中於單個8的解釋。 我們剛剛討論過的模型,是針對這樣的迴歸問題的,即試驗者要建立一個模型,來反映一個響應變基與一個或多個定量自變數之間的關係。為一個試驗建立模型的問題不限於定自變數的情形。 考慮這樣的問題:建立響應變數y與一組定性自變數或既有定量自變數也有定性自變基的一組變址之間的關係模型。對於第一種情形(聯絡y於一個或一組定性自變數),假定我們要比較相距30英里的兩個觀測站所觀測到的一場暴風雨當中每分鐘的平均雷電放電次數。用y表示在一個示波鏡上記錄到的一分鐘期間的放電次數,我們可以寫出以下兩個模型: 觀測站1:Y= 1+E 觀測站2: =42+E 這就是說,我們假定觀測站1上的觀察值在總體均值p」附近隨機“波動”,同樣,觀測站2上的觀察值與總體均值p42 相差一個隨機的甘:。這兩個模型不是新的,在