SALES I 50f 40 一 30+ 20F 10% 1 ] 1 1 125 10.07.54 5.0| 2.5+ i 0.0+ -2.5+ 0 00 0 0 1 00 0 i.05 E.50 i.20 PRICR PER, GHLLCN OP GABOLINI 1$) - 0! -5.0+ -7.50 -1001 0 I • - 1 0 0 6。 1 0 0 0 0 01 1 I 1 1 i8 BRICE PER GALIOW OE GASOLTNE(SI 1 0 1.$5 1.%0 0 0 | 1 1 195
13.3 模型形式的確定(第步)•813• 1254 10.0 7.5t 5.07 2.51 0.0+ -2.5+ -5.0+ -7.51 0 1 0 0 000 -。 0 0 0 8。 ] 1 0 1 1 ] -」 1 THIEREST AAIE 燈於豪華型,每加侖價格和利率的殘差圖表明,當x1和z2 較小時,有低估現象,當工1租x2較大時,則有高估現象;相應的,普通型車的殘差圖則表明對資料擬合得很好,雖然也存在一些彎曲表明迴歸模型中需要加入x」和z2的更高次項。一個具有形式的迴歸模型就考慮到y與 1和22關係中的彎曲。這個模型對不同的車型也有不同的同歸係數。有些讀者也許還會考慮到加入兩個定量自變數的交叉項。這個模型的部分輸出如下: MULTIPIB REGRESSION ANALYSIS Dependent Variable:MONTHLY SAL.ES Analysis of Variance
•814• 第十三章多元迴歸續論 Source Model Error C Total Root MSE Dep Mean C.v. Parameter Estimates Variable TNTERCEP ERICE INTEREST TYPECAR PRICE_ 2 INTER_2 ER_TYPE PK2_ TYPE IN TYPE IN2.TYPE DE 1 1 1 1 1 1 1 1 1 1 Vaxiable INTERCEP PRICE INTEREST TVPECAR ERICE_ 2 INTER_2 PR_TYPE PR2_ TYPE IN_TYPE IN2_ TYPE DE 1 1 1 1 1 1 1 1 DF 9 26 35 3.00354 14.93333 20.11301 Sum of Squares 4203. 94588 234.55312 4438.40000 R-square Adj R-sq Parameter Estimate - 3.217629 28.494610 -3.490166 - 300.022301 - 7.965301 0.153829 389.508123 -112.642229 -5.030243 0.217441 Standard ETTOY 276.34988059 310.03429094 1.58442091 389.84323007 86.26524998 0.11736084 437.32299428 121.67435792 2.24082386 0.16597436 Variable Label Intercept PRICE OF GALILON OE GASOL.INE INTEREST RATE(&) TYPE OF CAR PRICE SQUARED INTEREST SOUARED ERICE TINES TYPE OF CAR PRICE SQUARED TIMES TYPE OF CAR INTERBST TIMES TYEE OF CAR INT'EREST SQUARED TIMES TYPE OF CAR Mean Square 467.09410 9.02127 0.9472 0.9289 F Value 51.777 Prob>F 0.0001 T Eor HO: Parameter=0 -0.012 0.092 -2.203 -0.770 - 0.092 1.311 0.891 - 0.926 -2.245 1.310 Prob≥1r| 0.9908 0.9275 0.0367 0.4485 0.9271 0.2014 0.3813 0.3631 0.0335 0.2016
8i 6+ 4+:2 i0 -2: -4、 -6: ok 6! 4、 •2+ -2、 10t OI REETDUN 13.3 模型形式的確定(第二步)•815• 1 0 10 0 ce 1 0 0 0 1 i6 1 9 I I 1 1 26 Pradiated VALu of NOaELY SALBS PTB4L OEed Va2Le Ot NCTRLY ZALES 1 1 0 1 0 0 0 1 0 1 1. 0 8 0 1 IHTEAEAT PATE(N]。, 1 1 t a:沒3262 1 0 0 0 1 “i
•816• 第+三章多元迴歸續論到目前為止,我們對擬合不足的原因只考慮了多項式係數和交叉項問題。而實際上,有時擬合不足是由下,不能表示為自變數子集元素的多項式的形式,這時,B的非線性模型可能更合適。 大多數基礎經濟學書中都指出,如果數量,在每單位時間以,的速率增長,在時刻1, 的值為 2= ye" 其中20為初始值。這一關係可以透過對數變換轉化成線性關係: logy= logyn +r 8| 61 4+ 0 R 2 io -2+ -4:。 i -6f 1.60 e:殺影g6看 1 0 1 1 0 0 1 0 0 1 00 1 -----]- 0 1 0 0 1 0 1 0 1 1 1 1 1.G0 PFTGE SER GALLON OE CASOLINE ($) 記 Bo=108y0.B1=r,使用第十一章講述的簡單線性模型即可對資料進行擬合。當y是一個經濟學變數,如總銷量時,對數變換常被用於多元迴歸模型: 10g3:= 8o+ Bizi1 + Bxn +. + Pkzik + e Cobb-Dougias 產量函式是另一類可以轉化為迴歸方程的例子:
13.3 模型形式的確定(第二)•817• 其屮,是產量,1是勞動力投入, 是資金投入,a和B是未知常數。同樣,我們對方程作對數變換,得: log.y = (logc) + a (logl) + B(logk) =B0 + B1(logl)+pz(logk) 它表示對數產量對對數勞動量和對數資金的迴歸是線性的。 例 13.11 經濟學的一個重要概念需求的價格彈性,即價格每變化一個百分點,需求數量變化的肖分點的負值。研究表明價格彈性為1表示一個(小的)價格變動不會引起總收入的變化。一個非彈性的需求(彈性小於 1)表示價格的微小增會引起收入的增加,彈性需求則相反。 以下是每天對萵苣的需求量y(每100人消費的包數),對不同價格z(每包) 的資料。其他一些影響需求基的因素都不變,如,商店都位於一般居住地區,沒有競爭者進行萵苣促銷等等。資料是匯: 0.79 0.79 0.84 0.84 0.89 鄉: 40.2 37.1 37.4 34.9 32.8 0.89 35.5 0.94 30.6 0.94 34.2 0.99 31.2 0.99 29.8 xy:31.758 29.309 31.416 29.316 29.192 31.595 28.764 32.148 30.888 29.502 a.zy 表示什麼經濟量? b.當x增加時,xy有沒有變化的趨勢? c.如果rV是常數,logx+logy 是否也為常數? d.如果一種產品的價格彈性為1,Log 對1ogz 的迴歸方程是什麼樣子? 解答日.x=每包價格×每100個人消費的包數,所以,它表示每100人的消費額。 b•資料圖沒有明顯的趨勢,收入(xy)接近於常數。 c.因為logry=log常數=logz+logy,所以logx+logy也為常數。 d. 價格彈性為1表示1ogy=常數—logz,迴歸方程以logy為因變數,log.x 為自變數,其斜率為-1(加或減一個隨機變數:)。因此,在彈性研究中,logy 和logx的迴歸模型是很有用的。 對數變換隻是可能的變換中的一種,也是很有用的一種,因為,對數變換把乘的關係轉換為加的關係。自然對數(底為e=2.7182818),也記為 In(y),是特別有用的,因為結果大體上表示了百分率變化。例如,如果對中學教師收入的預測為1n 《收入)=常數+0.042(工作時間》+其他,那麼,增加一年工作時間,“其他”項保持不變,收入的預測值約增加4.2%,這種對應並不精確,但當值小於或等於0.2
•818• 第十三章多元迴歸續論時,是很接近的。 另-種常用的變換是倒數變換,1/,例如,如果»是按米每秒計算的速度, 1/y就是每米需要的時間。這個變換對變化劇烈的曲線很有用,對數變換對平緩的曲線較有用。使用計算機,可以很容易的同時得到它們。當因變數先升至最高, 又下降時,一個很有用的變換是平方變換,z2,在這個變換中,不是把z用,2代替,而是把它們都當作自變數。當因變數先達到最小,再上升時,同時使用z和x 也是很有效的。關於可能的變換的更廣泛的討論見 Tukey(1977)。 例13.12 重新考慮例13.2,溫度的作用也許不是線性的,使用從那個例子中得到的自變間以計算出一個迴歸模型。圖13.3畫出了殘差對平均溫度的圖,圖中也畫出了一條LOWESS 平滑線。這個圖是否表明需要加入平方項? 2 一 • • -1 -230 40 sd 70 80 溫度圖13.3 徽型計算機資料的殘差圖解答圖中並沒有什麼很明顯的問題,LOWESS 由線並不像拋物線(那是平方項的形狀)。在右側有•些點看上去會產生一條曲線。我們不好說此圖為使用二次項帶來了什麼附加的依據。 (本節以下部分為選學內容) 我們用計算機軟體和輸出來說明非線性模型的擬合同題。我們要做的推理同一般線性模型的最小二乘類似,事實上,這個過程有時也被稱為非線性最小二乘。 同以前一樣,定義殘差平方和: SS(殘差)=二(一$》 問題是,找一個方法來得到估計值&1,Q2。“,使得SS(殘差)最小。用來尋找估計
13.3 模型形式的確定(第二步)•819• 的方稞組也稱為正規方程組,但與一般線性模型的最小二乘法不同的是,正規方程的形式依賴於所使用的非線性模型,而且,因為正歸方程包括引數的非線性函式, 它們的解也是很複雜的。由於這些閒難,人們研究了很多迭代演算法來求正規方程的解。 有微積分基礎的讀者可以知道,非線性模型的正規方程涉及對非線性方程的各個引數 a.分別求偏導。當然,大多數軟體(如 SAS,NONLIN、Splus)都可以求導數,因此無需給出正規方程的形式,而只需給出非線性方程的形式。我們用前面的一個例子的資料來說明。 回想在例13.9中,我們用放射免疫測定資料擬合了線性迴歸模型,模型的殘差圖表示加入一個二次項可能更合適: -B+Bx+Baa +e 修改後的模型計算結果如下,注意到,在殘差圖中週期性依然很明顯,因此二次模型也擬合得不很好。 Regression Analysis: BOUND/ERBE COUNT VeTSUS DOSE, DOSE_ 2 The regression equation is BOUND/FREE COUNT = 2.88 + 17.6 DOSE +10.7 DOSE_2 Predictor Coef SE Coef Constant 2.884 7.175 DOSE 17.58 13.35 DOSE._2 10.745 5.144 s= 9.418 R-Sq = 95.28 8- Sakadj)=94.0% Analysis of Variance Source Regression Residal Error Total Source DOSE DOSE_2 DF 1 1 DF 2 8 10 Seq SS 13577.4 386.9 sS 13964.4 709.6 14674.0 T 0.40 1.32 2.09 HS 6982.2 88.7 P 0.698 0.225 0.070 F 78.72 P 0.000
• 820• 第十三章多元迴歸續論 BOUND/FREE COUNT 10 0 -10 Plot of BOUND/FREE COUNT VErSuS DOSE 100- • • • • 50 • • • 0 0.0 0.s 1.0 1.5 DOSE 2.0 kesiduals versus DosE (response is BOUND/FR) • . • • • • • 0.0 0.5 1.5 DOSE 2.5 Residuals versus the Fitted values (response is BOUND/FR) • • . • + 2.5 Residual 10~ 0 -10 0 • 50 Fitted Value T 100
13.3 棋型形式的確定(第二步)•821• 一個也許可以幫助半整S型資料的非線性模型為: B-B3 1+(x/B28+BS 例 13.13 使用非線性估計方法來擬合之前面的放射免疫測定資料。 解答用SAS來擬合樣本資料,正如我們從殘差圖看出的,這個非線性模型對樣本資料的擬合比線性或二次模型都好。 引數解釋如下: Bo:» 在曲線下端的值; B3:》在曲線上端的值; BL:斜率的度量; ‘ B2:相應在80與B之間的濃度百分比()。 (原文中B.和Bz的解釋顛倒了一 -譯者注) OBS 1 2 3 NONLINEAR REGRESSION ANALYSIS DATA LISTING BOUND/FREE COUNT 9.900 10.465 10.312 13.633 20.7B4 36.164 62.045 78.327 90.307 97.348 102.686 DOSE 0.00 0.25 0.50 0.75 5 6 7 8 1.00 1.25 1.50 1.75 2.00 10 11 Source Regression Residual Uncorrected Totai (Corrected Total) 2.25 2.50 Nor- Linear Least Squares Summary Statistics Dependent Variable COUKT DE Sum of Squares 4 40390.959650 7 9.675063 Mean Square 10097.739913 1.382152 11 40400.634713 10 14673.985162
• 822• 第十二章多元迴歸續論 Parameter Estimate BO 10.3172019 BI 5.3700858 B2 1.4863334 B3 107.3777343 Asymptotic Correlation Matrix Corr BO I~ BO B1 B2 B3 Asymptotic Std.Error 0.6302496017 0.2558475371 0.0154121366 1.7277534567 B1 ----- 0.4317133357 Asymptotic 95 & Confidence Interval Lower Upper 8.82688647 11.80751738 4.76509868 5.97507498 1.44988919 1.52277759 103.29221381 111.46325486 B2 B3 0.4317133357 0.1141723596 -0.514768068 0.1141723596 - 0. 514768068 1 - 0.255171767 - 0.808689153 0.7939083509 - 0.255171767 - 0.808689153 0.7939083509 1 NUTE: Missing values were generated as a result of performing an operation on missing values. Each place is given by (number of times) NI (statement)/(1ine):(colun). 4 A 1/B15:16 Plot of BOUND/FREE COUNT versws DOSE * * * * * BOUND/PRBE 120+ 100+ 80- $0T 40+ 20T * * * 0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00 DOSE 2.25 2.50
13.3 模型形式的確定(第二步〉•823 Plot of RESIDUALS VerAUS DOSE * RESIDUAL RESIDUAL 20+ 1.5+ 1.0- * * 0.5+ 0.0+ -0.5+、 * * * * * -1.0+ -15¥ * -2.0+ 6.b0 055050 055 1.50 155 150 155 260225250 DOSE PIot Of RESIDUALS VeTSUS PREDICTED BOUND/FREE COUITS * 201 15+ 1.0 os+ 0.0+ -0.5+ * * * * -10+ -1.5+ * -2.0+ oH 20 PREDICTED EOUND/FREE COUNTT
• 824. 第十二章多元迴歸續論我們還可以使用擬合方程依據濃度百分比來預測y(比率)。 練習應用 13.6(醫藥)以下是20個病人在一劑藥量下的血液含藥量達到的最高值 (BL.X)D, mg/ ml),以及病人的體重(WEIGHIT, Ib)和藥址(DOSE,mg)的資料,使用下面的輸出擬合一個線性迴歸直線,並使用殘差圖來分析在迴歸模型中可能增加的項。 SAS OUTPUT FOR EXERCISE 13.6 DATA LISTING OES 1 2 3 BLOOD 300 250 210 DOSE 1 1 1 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1 2 2 2 2 4 4 4 4 B 8 8 8 350 15 16 16 16 WEIGHT 120 135 150 128 150 160 145
13.3 模型形式的確定(第二步) • 825. Dependent Variable: PEAK BLOOD LEVEL Analysis of Variance Source Model EITOr C Total DE 2 17 19 Root HSE Dep Nean C.U. Paraneter Estimates Sum of Squares 22290.44079 51423.30921 73713.75000 54.99910 279.25000 19.69529 Mean Sguare 11145.22040 3024.90054 F Value 3.684 Frob≥F 0.0468 R-square Adj B-sg 0.3024 0.2203 Variable INTERCEE DOSE WEIGHTT DE 1 1 1 Variable INTERCEP DOSE WEIGHT Parameter Estimate 432.602294 5.546655 -1.194285 Variable DE Label 1 Intercept 1 AHOUNT OF DRUG(mg) 1 PATTENT'S WEIGAYI(1b) Standard Error 84.69454320 2.40278001 0.55838151 T for HO: Parameter=0 5.108 2.308 -2.139 Prob>1l 0.0001 0.0338 0.0473 Piot of PEAK BLOOD LEVEL (mg/M1) VeIBUS PATTENT' S WEIGHT (1b) 380 + * 350 * * * * * PEAK BLOOD LEVEL * * * ** * * * •十 120 1 140 * 160 PATIETT'S HEIGHT (1b) -1180 * 200
•826• 第十三章多元迴歸續論 Plot of PEAK BLOOD LEVEL(mg /m1) verSus DOSE LEVEL 380 + 370 + 360 350 + 340 + + + + * * * * * * * * * * * * * * 230 + 220 + 210 + 200 + 190 + 180 + 170 + 160 + 150+ * * * AHOULYT OF DRIG (mg) PLot of FBAK BLOOD LEVEL (mg /ml.) verSus DOSE LEVEL + * * * * * * * * * 12 AHOUNT OF DRIG (Ig)
- PEAR BLOOD LEVRL, 380+ 370+ 360 + 350 + 340 + 330+ 320 + + + + 160 + 150 + 13.3 模型形式的確定(第二步) • 827 Plot of PRAK BLOOD LEVBL (mg/m1) VGrBU8 PATIET'S WELGHIT (1b) * * * * * * * * * * * * * * * * * FATIENT'S WIEIGHT(1D) P1ot. Of RESIDUAL VErSUS PATIENT'S WEIGHT 100- * * 50T * * * * * RESIDUAL * 0+ 一太。 * * * * -50 T * * -100 + • * -150f i5o FATIENT•S WEIGHT (1b) T$0 200
•828• 第十三章多元迴歸續論 PLot Of RESIDUAL VerBUB AMOUNT OF DRUG 100- * 504 * * # * * 0 * * -50卡* * * -100+ * -150+ AHOUTT OF DRUG(mG) Plot Of RESIDUAL VerBuS PREDICTED VALUE 一 100 - * * 50 ** * * RESIDUAL 0 * --一 * * * -50 - * ** -100 + -150+ --。 # * * zs * 250 25 300 PREDICTED VALUE OF BLOOD 325 350
13.3 模型形式的確定(第二步)•829• 13.7 練習13.6續,指出並討論如下輸出中擬合的模型。 SAS OUTPUT FOR EXERCISE 13.7 REGRRSSION ANAL.YSIS Dependent Var iable: BL.0OD PEAK BLOOD LEVEL. Analysis of Variance Source DE Sum of Squares Mean Square F Value Model ErrOr C Total 16 19 41167.19623 32546.55377 73713,75000 13722.39874 2034.15961 6.746 Root HSE Dep Mean C.V. Parameter Estimates 45.10166 279.25000 16.15100 R-square Adj R-sg 0.5585 0.4757 Variable DE Parameter Estinate Standard ErTOr T Eor HO: Parameter = 0 INTERCEP LOG_DOsE WEIGT LGDS_NCT 1 1 1 1 Variable DF 288.062394 174.815459 -0.344162 -0.862927 Variable Label 128.09498236 79.24455964 0.88171355 0.51644880 2.249 2.206 - 0.390 - 1.611 INTERCEP L0G_DOSE WEIGHTT IDS_wsr 1 Intercept NATURAL LOGARITHM OF DOSE PATTENT'S WEIGIT(Ib) 1 LOGARITHNH OF DOSE TIHES WEIGFT Prob>F 0.0038 Prob≥川 0.0390 0.0423 0.7014 0.1142;
•830. 第十二章多元迴歸續論 PEAK BLCOD LEVEL Plot of PEAK BLOOD LEVEL VeISUB NATURAL LOGARITHM OF DOSE * * * * * * * * RESIDUAL 50 - 350。 340 ++ + + 青 + + + * + + + + $#* ai0dw i8. 60+* 40+ '4W * -20+* -4060t -80卡 -100+* --- 0.0000 * * ai6osi 1.3863 HATUAAL LOGARITHMH OF DOSB 20754 Plot of RESIDUALS VEIBUB NATURAL LOGARITHH OF DOSB * * * * * * * * * * -+- 0.693E --+- ---+--- 1.3863 2.0794 NATURALLOGARITIIN OE DOSE 2.7726
RESIDUAL 13.3 模型形式的確定(第二步)•831• Plot of RESIDUAIS VAIBUS PATTENT S WEIGHT 80+ 60+* 40+ * * * * ** * RESIDUAL 太 * * 0寸 * -20t ** * * -40 + -60 + -80卡 -100卡 --+ 120 * * * -十- -+ 140 160 180 PATIENT 'S WEIGHT (Lb) Plot of RESIDUALS VErSLS PRBDICTED VALUE 200 80+ 60+ 40+ 201 * * * * * * * * 0十 * -201 -40t* -60t -80卡 - -100+ * * * * * * * * 225 250 275 300 325 350 PREDICTED VALUE OF PEAK BLOOD LEVEL 十375
• 832• 第十三章多元迴歸續論 13.8(商業)一個專門從事公司對慈善事業、學校、文化機構等捐贈研究的顧問常被要求建議一個合適的捐贈數量。顧同試著根據已有的38家公司的捐助信息,用迴歸分析來預測公司對大學的捐助,其中商業資訊來自公司每年的報表,而其他資訊來自經濟學雜誌等。憑經驗,顧同認為捐贈的水平受以下幾個因素的影響:公司的利潤,公司的規模,公司是否屬於高科技產業(如資訊處理、電子、化學), 公司管理者的受教育水平,公司是否同員工的捐助相一致。利潤可以透過稅前或稅後收入來確定,公司規模由僱員數或銷售總額確定,教育水平由平均受教育時間或管理層人員受高等教育的比例確定。 a.稅前和稅後收入是不是高度相關?僱員人數和銷售總額呢? b.討論如何定義利潤、規模和受教育水平使得這些變數間的相關係數不太大。 13.9 練習13.8中的顧問建議如下建立一個產業型別的變數: 3,如果公司主要屬子電子產業; 產業 2,如果公司主要屬於資訊處理產業; 1,如果公司主要屬於化學產業; 0,其他。 a.解釋這為什麼不是個好方法。 b.提出一個更好的方法來表示這些產業。 <.如何把“公司是否同員工的捐助相一致“這一因子加入迴歸模型中? 13.10 練習13.8中的顧問收集了如下變數的資訊: CONTRIB:捐助數(百萬美元計)。 INCOME:稅前收入(百萬美元計)。 SIZF:員T人數(千人計)。 DPDUMMY:1,如果公司主要經營內容為資訊處理。 0,如果不是。 ELDUMMY:1,如果公司主要經營內容為電子。 0,如果不是。 CHDUMMY:1,如果公司主要經營內容為化學。 0,如果不是。 EDLEVEL.:管理人員中受過高等教育的比例。 MATCHING:1,公司能同員工的捐助相一致。 0,如果不能。 a.把CONTRIB當作因變數,其他變數作為自變數是否合適?特別是,這個做法是否會引起復共線性? b.變數 CONTRIB/INCOME 代表什麼含義?
13.3 模型形式的確定(第二步)•833• 13. 11 參照練習13.10,顧問懷疑,不同的產業間規模對 CONTRIB/ INCOME的影響有很大的不同。如何對迴歸模型作一些修改以檢驗這懷疑? Response:Sales LSummary of Fit RSgzare RSeuare Adj Root Mean Square Error Mean of Rcaponse Observations (or Sum Wgts) Lack of Fit 0.434158 0.417182 17.9913 356.7692 104 LParameter Est imates Term Intercept Price Category sales Promot ion by other? Estimate Std Error t Ratio 129.85375 80.66628 44.849952 39.93534 0.1214871 0.018249:19.95964 3.702304 1.61 1.12 6.66 -5.39 Prob>[t 0.1106 0.000g EEfect Test Whole Model Test_ L LAnalysis of Variance/ Source DE Hodel 3 Error 100 C Total 103 40 3020101 Sum of Sqvares 24835.761 32368.701 57204.462 Mean Square 8278.59 323.69 F Ratio 25.5759 Prob>E 0.0000 dual -30- • -40 -50、 290 310 330 350 370 390 410 Sales Predicted
• 834• 第十二章多元迴歸續論 13.12 參照練習13.10,顧問懷疑增長的 EDLEVEL,的影響是自增長的,即, 其他都相等時,公司的 EDLEVEI.=0.2 增至 0.3時 CONTRIB/INCOME 幾乎沒什麼變化,而當 EDIEVEI.=0.4 增至 0.5時,變化有所增加,當 EDI.EVEL.=0.6 增餘0.7時,變化增加得更大。 a.如何建立一個迴歸模型來檢驗這個懷疑? b.如果顧問的懷疑是止確的,而且如果畫出殘差對 EDLEVEL.的散點圖,殘差圖會是什麼樣子? 13.13(商業)一個連鎖超市統計了一種品牌的薄脆餅乾任一週時間內在 104家連鎖店內的銷售情況。分析員想要基了所有品牌的薄脆餅乾的銷售總額, 所考慮的品牌的售價,及在是否存任著其他競爭品牌的促銷活動(如果有促銷 pT0motion =1,否則=0),(所考慮的品牌無促銷)來預測一個店中的銷售量。用JMP 軟體的多元迴歸得到輸出如下。 a.解釋 promotion 變數的係數。 b.其他品牌的促銷是否會增加或減少題目中品牌的銷?係數是否表明了這一點? c.任通常的a下,係數與0有顯著差異嗎? 13.14 在前面的問題中,如何能以95%的信區間預測某一週的銷量? 13.15(商業)下面是對薄脆餅下資料的另•個迴歸模型,其中包含了促銷變址與價格的乘積項和促銷變數與薄脆類餅乾的銷售額的乘積項。這個模型的輸出如下圖。當競爭品牌存在促銷時,乘積項的係數對預測銷量有何作用?特別的,這些係數是會影響模型的截距或斜率? Response:Sales Summary.of Fit RSguare RSquare Adj Root Mean Square Brror Mean of Response Observat ions (or Sum Mgts) 0.452443 0.424506 17.87791 356.7692 104 Lack of Eit] Parameter Estimates] Term Intercept Price Category sales Promotion by other? Price*Promotio Category"Promotio Estimate Std Error t Ratio 26.806609 98.33649 0.27 90.233085 47.75194 1.89 0.1335274 0.023854 5.60 287.6092 172.2049 1.67 - 142.4326 86.15011 - 1.65 0.024087 0.036816 -0.65 Frcb>[t] 0.7857 0.0618 0.0000 0. 0981 0.1015 0.5145
13.3 模型形式的確定(第二步) •835. Effect Test Mhole-Model Test L Analysis.of Variance Source DE Hodel 5 Error 98 C Total 103 40302010Sum of Squares 25881.736 31322.726 57204.462 Mean Square 5176.35 319.62 F Ratio 16.1953 Prob>F 0.0000:‘ 10 -20 -30- -40 -50290 310) 330 350 370 390 410 Sales Preiicted 13.16(工程)••個生產用來包裝食品(如餅乾和點心)的薄膜的公司在薄膜的硬度方面碰到一些問題。要使用現代化包裝機,硬度(在某種度量下)就需要很高。硬度被認為是生產過程中-些變數影響的結果。迴歸分析試圖透過這些變數的不同組合來預測薄膜的硬度。一共做了32次試驗,使用如下的變記錄資料: STIFF:硬度 MELT:溶解溫度(F) CHILL:冷卻溫度() REPEL:使用凹收顆粒的百分比 SPEED:生產線上的生產速度(英尺/分鐘) . KNIFE:真空刀的位置公司的化學工程師對這些變數間的關係有很多不確定的地方。如下是一階模型的輸出: PEARSON CORRELATION MATRIX CHIIL KNIFE 1.000 KNIFE HELT -0.000 -0.000 1.000 0.000 REPEL SPEED CHILL 1.000
• 836• 第十三章多元迴歸續論 REPEL SPEED STIFF 0.000 0.000 0.138 0.000 -0.000 - 0.308 0.000 -0.000 0.059 1.000 - 0.000 -0.886 1.000 0.030 NUMEER OF OBSERVATIONS: 32 a.資料中的共線性如何? b.32 個觀測是在如下因子水平的組合中各觀測一次,MELT=510, 530, 550, 570, CHILL=70,80,90,100, REPEL. = 20,30,在 MEIT 和CHIL.I. 之間, MEI.T 和 REPEL 之間的相關程度如何? 13.17 用一階模型來擬合練習13.16中的資料,得到如下的輸出和圖,可杏直接看出非線性?RESSTIFH表示殘差。 DEE VAR: S.:EF N: 32 MUL.TIPL.B R: 0.951 SQUARED NULTIPLE R: 0.904 ADTUSTED SOUARRD HULTTELE R:. B85 STANDARD ERROR OF ESTIHATE: 3.571 VARIABLE COEFFICIENT STD ERROR STT COEF TOLERANCE CONSTANT 170.962 20.509 0.000 MELT 0.028 0.028 0.059 i.000 CHTLL 0.128 0.056 0.138 1.000 REPEL, -1.938 0.126 -0.886 1.000 SPEED 0.007 0.914 0.030 1.000 KNIFE - 0.319 0.063 - 0.308 1.000 ANALYSIS OE VARIANCE SOURCE REGRES$ION RESIDUAL SUH-OF-SQUARES DF MEAN - SQUARE 3106.400 5 621.280 331.475 26 12.749 8.336 0.974 2.258 - 14.556 0.487 -5.050 P(2 TAIL.) 0.000 0.339 0.033 0.000 0.630 0.000 F-RATIO 48.732 P 0. 000 Scataphat Of RESSTIFI VeI*IS MELT 8 Scaterplot of RESSTIFT VETSN& CHILL 8 + + + + RESSTIFF 3 -2 扌豐 + ‡ + ‡ # RESST + + + 2‡ ‡ ‡ ‡ ‡ + -7 500 + + +++ -7 520 540 MEET 560 580 70 76 82 2amL88 94 10
13.3 模型形式的確定(第二步)•837. 13.18 為了檢測練習13.16 中是否存在非線性,使用二階模型(包括 MELT 和 CHIL.L 項的平方項),得到如下的輸出: DEL: VAK: STIEE N: 32 MULTIPLR R: 0. 956 SOUARED MULTIPLE R: 0.914 ADTUSTED SQUARED NUL.YIPLE R: 0. 689 STANDARD BRIROR OF ESTIKATE: 3.513 VARIABLE COEFFICIENT STD ERROR STD COEE TOLERANCE CONSTANT - 308.000 459.031 0.000 MELI 1.377 1.677 2.972 CHILL 3.634 2.362 3.920 REPEL, -1.838 0.124 -0.886 SPEED 0.034 0.031 -0.148 KNIEE - 0.319 0.062 -0.308 MELT*MELT - 0.001 GHILL*CHILL 0.002 -2.913 - 0.021 0.014 -3.787 0.000 0.001 1.000 0.200 1.000 0.000 0.001 ANAL,YSIS OF VARIANCE SOURCE REGRESSION RESIDUAL SUN - OE - SQUARES DE 3141.625 7 MEAN -, SQUARE 449.804 296.250 24 12.344 -0.671 0.821 1.539 - 14.793 -1.107 -5.132 -0.805 - 1,485 P(2 TAIL) 0.509 0.420 0.137 0.000 0.279 0.900 0.429 0.151 E-RATIO 36.359 P 0.000 a.這個模型的R2比練習13.17中的一階模型的R2大多少! b.對全模型和筒約的模型,使用F檢驗來檢驗零假設(即增加平方項沒有增加預測價值)。取 =0.05 c.t統計量是否表明平方項同前面的因子一樣顯著(a=0.05)? 13.19 對練習13.16的資料使用一階模型的向前逐步迴歸,如下是輸出: PEARSON CORREI ATION HATRIX CHILL KNIFE CHTLL 1.000 KHIFE - 0.000 1.000 MELT - 0.000 0.000 REPEL. 0.000 0.000 SPEED 0.000 - 0.000 STIFF 0.138 - 0.308 HINIMUN TOLERANCE FOR ENTRY INTO NODEL =. 01,0000 STEP # 1 R=0.886 RSQUARE= 0.786 TERN EATERED: REPEL, VARIABLE COEEFICIET STD RRROR 1 CONGTAHT MELT REPEL SPEED 1.000 0.000 - 0.000 0.059 1.000 - 0.000 -0.886 1.000 0.030 SID COEF 2OLERAKCE F P'
• 838• 第十三章多元迴歸續論 4 REPEL - 1.838 STEP 2 R= 0.938 -0,175 RSQUARE = 0.880 TEPN ENTERED: KNIFE VARIADBLE COEEFICIENT STD ERROR 1 CONSTAHT A REPEL - 1.838 6 KNIFE - 0.319 STEP 井 3 R=0.948 0.133 -0.067 RSQUARE = 0.899 TERH EANTERED: CHIIL VARIABLE COMFICIRMT STD ERROR 1 CONSTANT 3 CHILL 0.128 0.056 4 REPEL - 1.838 - 0.124 6 KNIFE -0,319 -0.062 STEP # 4 R=.950 RSQUARE= .903 TERE ENTERED: NELT VARIABLE COREE ICIENT STD ERROR 1 CONSTANT 2 MELT 3 CHILL 4 REPEL 6 KNIFE 0.028 0.128 - 1.838 -0.319 0.028 0.056 -0.124 - 0.062 -0.886,1E+01 109.968 0.000 STD COEF TOLERANCE E 'F -0.886 -0.308 •1£+ 01 •1E+ 01 190.301 22.906 0.000 0.000 STD COEF TOLERANCE F 0.138 -0.886 -0.308 •1E+ 01 .IE+ 01 .IE+ 01 5.253 218.210 26.265 0.030 0.000 0.000 STD COEF TOLERANCE F 0.059 0.138 -0.886 - 0.308 •IE + 01 •1E+01 .1E+ 01 •1E+01 0.977 5.249 218.028 26.243 0.332 0.030 0.000 0.000 a.列出自變數進入模型的順序; b.按最大(絕對值)到最小的順序列出自變數與 STIFF 的相關係數; <.比較兩個排序的不同。 13.20 參照練習 13.19,對全模型和簡約模型使用12.5節介紹的F檢驗法來檢驗假設:最後兩個進入迴歸模型的變數沒有預測價值。 13.21 練習13.10中的顧問把 CONTRIB/INCOME 作為因變數建立迴歸模型。 HTD>regress c9 on 7 vars in "Income'-"Hatching The regression eguation is Cont/Inc = 0. 0211-0.000093 Income + 0. 00153 size + 0. 00168 DPTummy + 0.00713 ELDumny + 0.00281 CHDmmy- 0.0144 Edllevel + 0.00138 Matching Predictor Constant Coef 0.021085 Stder 0.003497 t-ratio 6.03 P 0.000
13.3 模型形式的確定(第二步)•839• Income -0.0000933 gize 0.0015301 DEDummy 0.001684 EL.Dummny 0.007132 CHIumay 0.002808 Edlevel -0.01436 Hatching 0.001381 0.006057 R~ $9 = 21.3* Analysis of Variance SOURCE DE Regression 7 Error 38 Total 45 0.0001033 0.0006699 0.004720 0.006355 0.003810 0.01597 0.002092 R-sq(adj)=6.8多 - 0.90 2.28 0.36 1.12 0.74 -0.90 0.66 0.372 0.028 0.723 0.269 0.466 0.374 0.513 $S 0.00037598 0.00139418 0.00177115 MS 0.00005385 0.00003669 F 1.47 P 0.208 a.是否拒絕“沒有自變數有顯著作用”的假設(取一個合理的a)? b.哪個變數同最後一個進入的預測因子有相同的顯著性(如取a=0.05)? 13.22 如下是一個比練習13.21 中簡單一點的迴歸模型,它是因變基關於自變數 DPDummy、ELDummy、Edl.evel 和 Matchbing 的迴歸模型。輸出如下: HTB >regress c9 on 4 vars "DPDummy''EL.Dummg''BdfLevel'Hatching' The regression eguation is Cont/Inc = 0. 0202- 0.00378 DPDumny- 0.00099 Bt.Dummy + 0.0097 EdLevel + 0.00197 Matching Predictor Coef Stdev Constant 0.020233 0.002364 DPDunmy -0.003775 0.003912 EI,Dumy -0.000995 0.005131 Bdtevel 0.00969 0.01276 Matching 0.001974 0.001995 t-ratio 8.78 -0.97 -0.19 0.76 0.99 8=0.006343 R-$9=6.98 R-sq(adj) =0.08 Analysis of Variance SCURCE DE Regression 4 Error 41 Total 45 SS 0.00012167 0.00164949 0.00177115 HS 0.00003042 0.00004023 P 0.000 0.340 0.847 0.452 0.328 F 0.76 P 0.560 a.相對於這裡考慮的模型,練習13.21 中的模型R2的增董為多少? b.在 a=0.05的F檢驗中,這個增量顯著嗎?
• 840. 第十三章多元迴歸續論 c把前面的模型當作“全係數”模型,汁算這個模型的C,從得到的資訊,你認為哪個模型更合理? 13.4 模型假設的檢 (第三步) 到目前為止,我們已經找出了可能的自變數(第一步)並考慮了多元迴歸模型的形式(第二步)。下面我們應檢驗選擇的模型是否有效。間想在第十一章,我們對如形式的迴歸模型: 3i=B+B21+ BZ2+•+BaEi +E 所做的基本假設如下: 1.零期望:對於所有的i,E(e,)=0。 2. 等方差:村於所有的i,V(E;)=。 3. 正態性:6:服從正態分佈。 4.獨立性:5;是相互獨立的。 注意到因為多元迴歸的假設寫成了隨機誤差的形式,所以檢驗假設的一個合理的方法是使用E:的估計偵——殘差 y;-$:0 第一個假設(0期望)是關於模型選擇和是否需要在模型中增加自變數的。如果我們在第一步和第二步中已經做了這個工作,假設1就滿足了。第十一章和 13.3節都討論「用殘差圖來檢驗模型擬合不足的問題,如果我們在第一一步和第二步中術做這工作,殘差圖會有助於查出這一問題。 回想一下殘差是指實際的y值和使用迴歸模型預測的y值之差。在畫殘差圖時,我們常使用標準化殘差。標準化殘差是用標準差為單位表示的,所以,如果標準化殘差=-3.00,表示點距離迴歸直線3個標準差。通常,減去資料的預測部分會更清楚的顯示出其他結構。特別地,在一階模型(只含線性項)中,點對各自變的殘差圖,通常可以顯示出資料中的進一步的結構,從而可改進迴歸模型。 一種可能是非線性。我們在本章的前一部分討論了非線性及其變換。殘差的明顯的曲線性反應了資料的曲線關係,這表示迴歸方程採用不同的數學形式會改進模型的預測值。殘差對每一自變數的殘差圖常可顯示出這一問題。散點圖的平滑,如LCJWESS,可以用來尋找殘差的曲線,例如,圖13.4畫出了y對22和殘差對x2的散點圖,我們覺得在殘差圖中曲線關係更明顯。1.OWESS 曲線在兩個圖中都很有助益。 當發現存在非線性時,嘗試對自變數或因變數做變換。一-個標準做法是對除虛擬變數外的所有變數做(自然)對數變換。這個模型在一個自變數有微小變化而其他自變數不變時,對因變數的估計也有一個微小的變化。其他一些有用的變換包括只對-、個或幾個自變取對數,取自變數的平方根,或對自變數及因變數取倒
13.4 模型假設的檢查(第一步) • 841• 105 95= 857565 5545 351 25 10 20 30 40 50 60 70 8090 3 21 .0- -1- -2- -3 0 io 20 36 40 50 60 70 80 90 圖 13.4 y 對z2和殘差對z2的散點圖數等。使用好的計算機軟體,這些變換很容易得到。 假設 2,即等方差的性質可以使用殘差圖來考察。檢驗非等方差的一個最簡單的殘差圖是畫殘差對預測值v;的圖。大多數統計軟體都把這些圖作為迴歸分析的一部分。 例 13.14 使用SAS,表13.5的資料可以用模型y=B0+BI +B222+e擬合。考察殘差對y:的圖以探察是否存在非等方差性。你能否看出方差不等? y z 11 0.5 30 3.5 10 1 43 3.6 2 1.2 SS 3.8 14 1.4 29 4.2 表13.5 例13.14的資料 22 10 1.7 1.8 45 60 4.4 5.1 20 2 53 5.2 19 2.3 30 5.4 32 2.5 42 5.5 23 2.8 25 6 40 3 63 6.2 37 3.1 51 6.3 解答從 SAS輸出的殘差圖,我們可以看出,殘差隨著y的預測值的增加而增加,表示存在方差不等的情況。同時,因為透過迴歸模型與z直接有關(即y 隨z增加),所以,殘差隨z的增加而增加。殘差的這種特點表。:的方差隨的增加而增加。 對z的附圖也表明了這一點。 DATA LISTING OBS 1 Y 11 0.5 x2 0.25
•842• 第十三章多元迴歸續論 2 3 10 2 14 5 6 7 22 10 20 19 9 32 10 23 11 40 12 37 13 30 14 43 15 55 16 29 17 45 18 60 19 53 20 30 21 42 22 25 23 63 24 51 Dependent Variable: Y Analysis of Variance Source Model Error C Tatal DE 2 21 23 Root M$E Dep Hean C.V. Parameter Estimates Variable INTERCEP x X2 DE 1 1 1.0 1.2 1.4 1.7 1.8 2.0 2.3 2.5 2.8 3.0 3.1 3.5 3.6 3.8 4.2 4.4 5.1 5.2 5.4 5.5 6.0 6.2 6.3 1.00 1.44 1.96 2.89 3.24 4.00 5.29 6.25 7.84 9.00 9.61 12.25 12.96 14.44 17.64 19.36 26.01 27.04 29.16 30.25 36.00 38.44 39.69 sum of Squares 4458.40552 2289.42782 6747.83333 10.44128 31.91667 32.71420 Mean Square 2229.20276 109.02037 R-square Adj R-sq Parameter Estimate - 6.871747 17.105361 - 1.349036 Variable standard Error 8.87156858 5.73414408 0.79186923 F Value 20.448 Prob>E 0.0001 0.6607 0.6284 r for HO: Paraneter =0 - 0.775 2.983 ~1.704 Prob≥|Tl 0.4472 0.0071 0.1032
Variable INTRRCEP X X2 13.4 模型假設的檢查(第一步) • 843• DE 1 1 1 70t 60+ 50+ 4030+ 20+ 10+ Label Intezcept X- SQUARED PLOT OF Y*X * * * * * * * * * * * * * * PLOT OF RESIDUALS VERSUS PREDICTED VALUE OF Y 20+ 5St 10+* 0I -51 -10+ -15+ -20一 ---*. * * * 責 * * * * * ** * * 火 * PREDICTED VALUE OF Y
•844• 第十二章多元迴歸續論迴歸模型中方差不等會有哪些影響呢?首先,如果迴歸直線的方差不是常數, 最小二乘估計就不是儘可能準確的估計。這時,使用一種稱為加權最小二乘的方法可能更準確[見 Draper 和 Smith(1998)]。更重要的是,加權最小二乘改進了模型引數的檢驗統計量(F機:檢驗)機引數的區間估計,因為它們通常基於更小的標準誤差。 當方差不等時,受影響更重的是E(y)的估計和y的預測。在這些方面,y的點估計可能是合理的,但區間的長度可能太大或太小,這依賴於我們是否過人或過小地估計了試驗地區的方差。 要消除不等方差的影響可以使用加權最小二乘,但在本書中我們不涉及這個方法,當不等方差與y之間存在某種關係時,對y的變換也可以解決問題。在第卜一章討論了幾種y的變換:在第八章方差分析中討論了有助於穩定方差的方法,這些都可以用於某些迴歸的情形。 例 13.15 參照例13.14的資料,我們已經檢查了方差不等的問題。因為沿著迴歸直線的方差有隨著z增加的趨勢,對»的平方根變換可以用來穩定方差。根據計算機的輸出和殘差圖來判斷方差不等問題是否已解決。SAS產生如下輸出: DATA LISTING OBS 1 2 3 4 × 0.5 1.0 1.2 8 9 10 11 12 13 14 15 Y 11 10 2 14 22 10 20 19 32 23 40 37 30 43 55 SQRT_Y 3.31562 3.16228 1.41421 3.74166 4.69042 3.16228 4.47214 4.35890 5.65685 4.79583 6.32456 6.08276 5.47723 6.55744 7.41620 X_SQUARED 0.25 1.00 1.44 1.96 2.89 3.24 4.00 5.29 6.25 7.84 9.00 9.61 12.25 12.96 14.44
|| | | OBS 15 29 17 45 18 60 19 53 20 30 21 42 22 25 23 63 24 51 Dependent Var iable: sORT Y Analysis of Variance Source Model Error C Total Root MSE Dep Mean DF 2 21 23 c.V. Parameter Estimates Variable INTERCEP DE X2 1 1 1 Variable INTERCEP DF X2 1 1 1 13.4 模型假設的檢(第三步)•845• 4.2 4.4 5.1 5.2 5.4 5.5 6.0 6.2 6.3 SORT_Y 5.38516 6.70820 7.74597 7.28011 5.47723 6.48074 5.00000 7.93725 7.14143 SQUARE ROOT OF Y X_ SQUARED 17.64 19.36 26.01 27.04 29.16 30.25 36.00 38.44 39.69 Sun of Sqvares 45.00905 19.14653 64.15558 0.95485 5.40773 17.65715 Mean Sguare 22.50433 0.91174 R- square Adj R-sg Parameter Estimate 1.189795 1.990218 -0.176856 Variable Eabel Intercept Standard ETTOr 0.81130083 0.52438482 0.07241607 X- SOUARED E Value 24.683 0.7016 0.6731 T Eor HO: Parameter=0 1.467 3.795 -2.442 Prob>F 0.0001 Prob≥1 0.1573 0.0011 0.0235 •
• 846• 第十二章多元迴歸續論 PLOT OF SQUARE ROOT OF Y •VERSUS X 8 + * 7 6 5 2 1 * † * * 青 * T * * * * * * T + L1 * RESIDUAL X Plot of RESIDUALS versu REDICTED VALUE OF SQUARE ROOT OF 1.9+ * -- 0.5+ * * * * ---_ —---- ---- * * * * * -2.0卡 --- 2 3 5 PREDICTED VALUE OF •SQRT_Y
RESIDUAL 13.4 模型假設的檢查(第三步) PLOT OE RESIDUALS VERSUS X 1.5上 1.0 † 0.5 0.0 T -0.5 十 -1.04 -1.5 * * * * * *** * * * * * * * * * -2.0 • 847• -+ X 解答這裡的輸出表明這個模型對樣本資料的擬合好得多,特別是從殘差圖上可以看出來。 多元迴歸的第三個假設是E的正態性,使用某種散點圖和殘差圖,我們可以發現偏倚或離群值這些非正態性的表現。 直方圖或基葉圖可以用來判斷偏態。由假設,e;服從均值為0的正態分佈。 如果殘差的直方圖不關於0對稱,就表明存在一定的偏倚。例如,圖13.5(a)的殘差圖關於0對稱,表明其無偏倚。相反,圖13.5(b)的殘差圖有右偏。 (a)區間的中點觀察值的個數 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3 × × × 10 16 15 20 15 11 6 3 0 1 × × × × × X X XXXXXXXXXX x ××X X×××× ××××× XXXX××××X × × × X × × ×
•848• 第十三章多元迴歸續論 (b)區間的中點 -2.0 -1.5 -1.0 --0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 10 16 15 18 12 7 5 3 3×.×× × × X × × × X × × × 2 0 1X × × X X 觀察值的個數 ×X × × X X X × × x × × × 圖13.5(a)殘差以0為中心(b)殘差右偏另一種檢驗非正態性的方法是使用殘差的正態機率圖。這個方法的思路是, 如果殘差服從正態分佈,它的正態機率圖應近似為一條直線。大多數統計軟體都提供一個選項來做這種機率圖。如果需要,我們可以做出這個圖。 例 13.16 參見例13.15,使用計算機輸出結果來判斷殘差中是否存在非正態性的依據。 殘差的正老機率圖 1.5+ * os+ 0.0+ -0.5+ -1.0 真 * •* * -1.5+ -2.01* -+- -2 * -1 0 殘差的正態得分
13.4 模型假設的檢查(第三步)•849• 解答正態機率圖是近似於直線的,所以我們有理由認為殘差服從正態分佈。 離群點的出現是非正態性的更強的表現,可以用散點圖或其他殘差圖來發現它。離群點是一個離其他資料較遠的點。在第十一章,我們講到過要注意槓桿點 (x離群點)和影響點(z和都離群)。一個強影響點可能會使迴歸方程變形。此外,某些離群點也表明對管理行為的要求,如果迴歸分析發現一塊土地的價格比預想的低得多,那麼這塊土地很可能是一個好買賣;一個銷售部門如果有比迴歸模型預測結果好得多的業績,證明它的員工都很出色。相反的,比預測結果差的部門可能存在一些問題。有時可以把產生離群點的原因分離出來,有時則不能。離群點的產生可能是由於記錄或錄入錯誤,也可能是由在不同條件下進行觀測產生的。 如果發現是這種原因,可以糾正記錄資料或者從分析中刪去這個資料。如果沒有明顯的原因來糾止或刪除離群點,就對包含和不包含離群資料兩種情況分別作回歸分析,看哪個模型更合理。無論離群點的來源或起因是什麼,如果沒能發現它們,就可能對迴歸方程產生嚴重的影響。 從線性迴歸模型y=Bo+BI+e中,y對的散點圖可以用來判斷離群點, 見表13.6和圖 13.6,易見畫圈的點為離群點。對錶13.6 的線性擬合的輸出如下 (帶有殘差圖和正態機率圖)。在每個圖中,相應於可能的離群點(62,125)的點也被畫了圈。Minitab 程式產生了如下分析。 表13.6 資料 Obs 1 Y 600Plot ofYX 10 20 21 27 29 33 40 44 52 56 62 68 500口 400 口 300 200口口口口 100號亠」 10 20 30 40 ⑨ 50 60 70 12 N=12 圖13.6 表13.6的散點圖 •
•850• 第十三章多元迴歸續論 500 400 ~300 200 • 100 • 10 20 Plot of Y veraue X • 30 40 ◎ 60 70 Regress ion Analysis: Y versus x The regression equation is Y = 114 + 4.59x Predictor Constant x Coef SR Coef T 114,36 75.53 1.51 4.595 1.787 2.57 R-Sa = 39.8*;R-Safadj)= 33.8* P 0.161 0.028 s = 108.1 Analysis of Variance Source Regression Residual Ezror Total cbs DF SS 1 77201 10 116755 MS 77201 11676 11 193956 1 2 3 4 5 6 7 8 9 10 11 12 x 10.0 20.0 21.0 27.0 29.0 33.0 40.0 44.0 52.0 56.0 62.0 68.0 y Fit SE Fit 120.0 160.3 59.7 115.0 206.2 45.4 250.0 210.8 44.2 210.0 238.4 37.4 300.0 247.5 35.5 330.0 266.0 32.7 295.0 298.1 31.3 400.0 316.5 32.7 380.0 353.3 39.4 460.0 371.7 44.2 125.0 399.2 52.3 $10.0 426.8 61.2 R denotes an observation with a large standardized residual F 6.61 Residual -40.3 - 91.2 39.2 -28.4 52.4 64.0 -3.1 83.5 26.7 88.3 - 274.2 83.2 0.028 standardized Residuai - 0.45 -0.93 0.40 -0.28 0.51 0.62 - 0.03 0.81 0.27 0.90 -2.9QR 0.93
13.4 模型假設的檢查(第三歩)•851 ReRicual verssx 【reaponse is y} • •• • • 100 0 Residual -100 -200• -300 • 20 %6 100esiduals versus the Fitted Value response is y • • •• • -200- -300-L 200 300 Fitted vaiue • 400 lormal Prohability Plot of che Reaiduals reaponse is y Normal Score 2 0 -2 • -300 • ….. ….. • -200 -100 Residual 100
• 852• 第十三章多元迴歸續論這個資料集有助於顯示查詢離群點時出現的問題。有時,一個圖是不夠的。 例如,散點圖和正態機率圖清楚的標識出離群點,而殘差圖就不太明顯,因為離群點透過把擬合直線向自己方拉近而大大影響了擬合直線。這使得一些殘差比沒有離群點時變大。因此,在沒有使用多個不同的方法進行檢驗前,不要忙於下結論。 在多元迴歸中問題變得更困難了,因為在多元迴歸中無法畫出簡單的散點圖。 另一個查出離群點的方法是刀切(jackknife)法。這種方法每次排除一個資料點,然後對剩餘的資料計算迴歸係數。當離群值被排除時,迴歸係數有很大變化。 這個過程也可以用於排除多個離群值,如一次排除2個或3個點,但尋找合適的回歸方程的時間就變得很長。因此,雖然一次一個點的刀切法並不總能找出多個離群點,但也常被用於查詢離群點。 實際上,把多種方法結合使用對檢驗離群值是比較有用的。首先,z,的散點圖可以查出一些離群點。對殘差的檢驗可以證實這些可疑點。如果離散點和殘差圖都沒有找出離群點,檢驗就可以結束了。然而一些特殊的離群點的識別可能需要額外的工作,如使用刀切法。 如果發現了離群點,該做什麼呢?當然記錄或抄寫錯誤很容易糾正,有時,一個離群點顯然來自另一總體。例如,財富雜誌500強的公司肯定不屬於小公司的研究範圍,這種情況下,離群點就可以從資料中剔除。除非有絕對的理由,否則都不應輕易剔除資料。 例 13.17 設一組迴歸研究的資料如下::10 13 16 18 20 22 24 27 30 2:31 35 42 45 51 53 59 31 70 畫出資料散點圖,表示出離群點,對包含和不包含離群點分別擬合一元迴歸方程。 解等資料散點圖(圖13.7)表明,除了 =27, =31的點,斜率=2,截距= 10的直線很好的擬合了資料。如果包含那個點(x=27,少=31),最小二乘方程為 19.94 +1.32x 如果不包括那個點,迴歸方程為: 3 =9.93+ 2.00x 散點圖清楚地表明觀測(27,31)是一個強影響點,在包含這個點時迴歸方程被扭曲。
13.4 模型假設的檢查(第三步)•853. 70 60 2 5040 30 •、 •、 - 10 20 x 圖13.7 離群點的影響 30 例13.18 對例13.17中的資料,使用刀切方法,每次剔除一個點,檢查估計的斜率和截距來發現可能的離群點。 解答我們使用計算機反覆作迴歸分析,每次去掉一個點,如下是估計的斜率和截臣。注意到最後兩個點可能為離群點,因為去掉它們引起方程很大變化。 去掉的資料點 10.31 13.35 16.42 18.45 20.51 22.53 24.S9 27.31 30.70 斜率 1.21286 1.26116 1.33281 1.32834 1.31953 1.29235 1.21563 2.00354 0.79712 截距 22.47672 21.42333 19.55234 19.60120 19.35947 19.97601 21.04531 9.93239 28.42905 因此,雖然散點圖 13.7只標識出一個可能的離群點(點(27,31)),使用刀切方法對殘差的檢找出了第二個可能的離群點(點(30,70))。但去掉點(27,31)後所作的迴歸表明,點(30,70)並不是離群點。
•854• 第十三章多元迴歸續論 Regression Analysis: Y versus X (With the point (27, 31) Renoved) The regression equation is Y= 9.93+ 2.00 X Predictor Constant X Coef SE Coef 9.932 1.190 8.34 2.00354 0.05944 33.71 R-Sq = 99.5& R-Sqkadj)= 99.48 P 0.000 0.000 - 0.9997 Analysis of Variance Source Regression Residual Brror Total Obs 1 2 DF 1 7 45 6 B X 10.0 13.0 16.0 18.0 20.0 22.0 24.0 30.0 Y 31.000 35.000 42.000 45.000 51.000 53.000 59.000 70.000 SS 1135.5 6.0 1141.5 Fit 29.968 35.978 41.989 45.996 50.003 54.010 58.017 70.038 HS 1135.5 1.0 E 1136.17 P 0.000 $E Fit 0.647 0.507 0.399 0.360 0.357 0.393 0.457 0.737 Resida1 1.032 -0.978 0.011 - 0.996 0.997 - 1.010 0.983 - 0.038 St Resid 1.36 -1.14 0.01 - 1.07 1.07 -1.10 1.11 - 0.06 • • 11 Resisual: Yecm og C4rod Values • • 0- -1- • -11 • 10 20 X • 40 50 Fitted Value 60 70 最後一個假設是e:相互獨立,因而不相關。當觀測的時間次序已知時,作為時間序列資料(即觀測點是沿時間軸取得的),可以構造殘差對時間的圖來觀察殘差是否序列相關。例如,如果存在正序列相關,在時間上相近的殘差傾向於差不多;負序列相關表明相近的殘差是不同的。這種正、負序列相關的示意圖分別如圖
13.4 模型假設的檢查(第三步)•855• 13.8(a)和圖13.8(b),圖13.8(c)為無明顯序列相關性的殘差圖。 殘差 0 • • • • • 殘差 • • • 殘差! 0 • 時間 (a)正序列相關 • • • • 時間 (b) 負序列相關 • • • • • • • 時何 (c) 無明顯序列相關圖 13.8 對序列相關的統計檢驗基於 Durhin-Watson 統計量。設e,為在時刻:的殘差,n為時間點的總數。 那麼 Durbin-Watson 檢驗統計量為建立這個統計量的思路如下:如果存在止序列相關,相近的殘差應相近,它們差的平方(6.1 e.)2也應比殘差不相關時小一些:同樣的,如果殘差間存在負相,殘差間差的平方應比無相關時大。 如果不存在序列相關,Durbin-Watson 檢驗統計量d的值接近於2.0,正序列相關時,d<2.0,負序列相關時,d>2.0。J. Durbin 和G.S.Watson(1951)年做出了d的臨界值表,d 小於1.5(或大於2.5)時,人們就懷疑存在正(負)相關。
•856• 第十三章 •多元迴歸續論例 13.19 下面是某種個人電腦的月銷售額。 月份, 1 2 3 4 5 6 7 8 9 10 11 13 14 銷售額(百萬美元}y 6.0 6.3 6.1 6.8 7.5 8.0 8.1 8.5 9.0 8.7 7.9 8.2 8.4 9.0 畫出資料圖,根據線性迴歸方程畫出殘差對時間的圖。從圖中看得出序列相關嗎? 解答 OES 1 2 3 4 5 6 7 樣本散點圖和線性迴歸的殘差圖清楚地表明資料中存在序列相關。 HON™H COMPUTER SAL.ES SALE (MIILIORS ON DOLARS) 1 6.0 2 6.3 3 6. 1 a 6.8 5 7.5 6 8.0 7 8.1 8 8.5 9.0 •
13.4 模型假設的檢查(第三步)•857• OES 10 11 12 13 14 • Dependent Variables: Y Analysis of Variance Source Hodel ErrOr C rotal Root HSE Dep Mean C.V. Parameter Estimates Variable INTERCEP X DE 1 1 Variable INTERCEP DF 1 1 Durbin-Watson D 《FOr Munber of 0bs.) Ist Order Nutocorrelation HONTH COMPUTER SALES SALE (HILIONS CE DOLLARS) 10 8.7 11 7.9 12 8.2 13 8.4 14 9.0 SALIS (HILL IONS OF DOLLARS) DF 1 12 13 Su of Squares 10.57540 3.69960 14.27500 0. 55525 7.75000 7.16449 Mean Sqare 10.57540 0.30830 Rsquare Adj R-sq Parameter Estimate 6.132967 0.215604 Variable Label Intercept HOYTH Standard ETTOr 0.31344707 0.03681259 0.625 14 0.668 E Value 34,302 6.7408 G.7192 Prob>E 0.0001 T Eor HO: Paraneter = 0 19.566 5.857 Prob>lrk 0.0001 0.0001、
• 858. 第:三章多元迴歸續論 PLor of SALES VerSuE HONTH OF SALE 9.0 8.9 S.R * * * * * * + 61 60t* * * HOWTH OP SALE Plot OE RESIDUALS VErB1B MONTH OF SALE 青 * * RESIDUALS I 10+ 0.8 + 0.6- | 0.4+ | 0.2+ 0.0- -0.2十 | -0.4 + -16- -0.8 十 * 青 * * * * * MONTH OF SALE
13.4 模型假設的檢查(第三步)•859• 例13.20 算例13.19的 Durbin-Watson 統計量的值。它是香證明「從圖中看到的情祝? 解答根據例13.19的輸出,d=0.625,因為這個值比1.5小得多,我們認為存在止序列相關;殘差圖也表明了這一點。 如果懷疑存在序列相關,那麼原本的多元迴歸模型就不太適合,而篅要另選一個。對當誤差不獨立時,時間序列資料的分析研究進行了很多年,本書中不準備一一介紹。在此,只討論一種基於-階差分的簡單迴歸方法。 基」一階差分的迴歸很易使用,同時,它也是解決序列相關的一種粗糙的方法。作為y對z的簡單線性迴歸,我們計算差分y一8-1和z: 2-1對3-1個 y的差分和n-1個x的差分作迴歸,這可以幫助消除序列相關。如果沒有消除, 可以參考其他時間序列的書來做更深入的分析。 我們討論過的殘差圖對丁迴歸模型擬閤中的診斷問題是很有用的。然而,由於殘差也是隨機變基,它有時也會造成錯誤。一些研究人士認為,使用“標準化”殘差會好一點。一種特型別的標準化殘差,被稱為“學生化殘差”,已經成為大多數軟體(如 SAS)的輸出。 如果你使用的軟體使用標準化殘差,那麼你就可以用標準化殘差代替普通的殘差來對迴歸模型的擬合程度進行評估。從理論上講,這些標化殘差的均值為 0,方差為1。大的殘差是指那些絕對值較大(如大下3)的殘差。 練習基本技能 13.23 下面的殘差圖中顯示了幾種不同的模式。指出這些圖是否存在問題, 如果存在,指出問題和可能的解決方法。 13.24 參考例13.14的資料,計算一階差分並用y的差分和x的差分進行迴歸。使用差分模型可否看出序列相關?你使用什麼圖來得出結論? 13.25 練習13.24 中資料的 Durbin-Watson 統計量的值為多少?它同你之前的結論-致嗎?
•860. 殘差 (-$ 第十三章多元迴歸續論 • • • • • • •• • • • • • • • • • • (a) 殘差 • •:: • (b) 殘差 0:-$ • 殘差 0:-3: _}: (c) (d) 應用 13.26(社會學)一位社會學學者研究每100人中非暴力犯罪的比率(y)與5 年前這一比率(x)和當前失業率(z2)之間的關係。下面是20個不同城市的數據。 cITY PRESENT RATE 1 2 13 8 14 10 12 11 RATE 5 YEARS AGO 14 10 16 PRESEHT UNEHPLOYHEHTI RATE 5.1 2.7 4.0 3.4 3.1 4.3 3.8 3.2 3.2 4.1 5.9 4.0 4.1 5.0 3.1
13.4 模型假設的檢查(第三步)•861• CITY PRESENT RATE 16 17 18 19 20 10 15 14 17 6 RATE 5 YEARS AGO 6 10 14 16 日 PRESENT UNEHEIOYHENT RATE 6.3 5.7 5.2 4.9 3.0 使用這裡的輸出: a.擬合模型 3=Bo+Bx1+B12+BX12+E b.考察迴歸模型的假設,討論假設是否成立;如果不成立,給出可能的改進措施。 SAS OUTEUT FOR EXERCISES 13.26 DATA LISTING OES 1 2 3 4 5 6 RATE 13 日 14 10 12 11 7 RATE_5 14 10 16 10 16 12 9 10 11 12 13 14 15 16 17 18 10 16 16 9 11 16 9 10 15 14 12 20 14 10 10 20 13 6 10 14 UNEHPLOY 5.1 2.7 4.0 3.4 3.1 4.3 3.8 3.2 3.2 4.1 5.9 4.0 4.1 5.0 3.1 6.3 5.7 5.2 KTS_UNEP 71.4 27.0 64.0 34.0 49.6 51.6 30.4 22.4 38.4 82.0 82.6 40.0 41.0 100.0 40.3 37.8 57.0 72.8
• 862• 第十元章多元迴歸續論 OES 19 20 RATE 17 6 BATE 5 16 8 MULTIPL.E REGRESSION ANALYSIS Dependent Variable: RATE Analysis of Variance Source Model Error C Total DF 3 16 19 Root MSE Dep Mean C.v. Parameter Estimates Variable DF INTERCEP RATE_5 UNEMPLOY RTS.UNEP 1 1 1 1 Variable INTERCEP RATE_5 UNENELOY RT5_UNEP DF 1 1 1 1 Durbin-Watson D (For Number of Obs.) Ist Order Autocorrelation UNEHPLOY 4.9 3.0 RTS_UNEP 78.1 24.0 NONVIOLENT CRIHE RATE PER 1000 Sum of Squares 234.27348 18.52652 252.80000 Mean Square 78.09116 1.15791 F Value 67.442 1.07606 R-square 11.60000 AdjR-sq 9.27639 0.9267 0.9130 Parameter Estimate Standard T Eor HO: ErTor Parameter =0 -2.704052 0.517215 1.449811 0.035338 3.37622689 0.30264512 0.74635173 0.06631783 Variable Label Intercept CRIHE RATE S YEARS AGO FRESENT UNEHPLOYNENT RAIE RATE_S TIMES UNEAPLOY 2.403 20 -0.269 -0.801. 1.709 1.943 0.533 Prob>E 0.0001 Erob>Irl 0.4349 0. 1068 0.0699 0.6015
NONVIOLENT PER 1000 NONVIOLENT CRIHE RATE PER 1000 13.4 模型假設的檢查(第三步) 863 Plot OE PRESENT NONVIOLENT CRIHE RATE VeTSUs CRINE RATE S YEARS AGO * * * * 18+ | 17T 16- + 十 | 8 7+ 6+! 18+ 17T 1615+ 14 13 12 12 10 6+ 十 2 * * * * * * * * * 12 13 14 15 16 17 18 19 20 CRINE RATE S YEARS AGO Plot Gf PRESEVT HOATVIOLENPT CRIHE RATE VEESUG PRES ELNT TNEHPLOYMENTT RATE * * * * * * * * ** ** * * * * * * 14 一分 PRESENT UNEHPLOYENT RATE 6
• 864• 第十三章多元迴歸續論 RESIDUALS Plot of RESIDUALS VeTSus CRINE RATE 5 YBARS AGO 25+ * 15+ * * 101 * 0.5+ 0.0+ * -0.5+ * * * * * * RESIDUALS -154 9 10 11 1213 14 15 16 17 18 192 CRIHE RATE S YEARS AGO PIOL Of RESIDUALS VEISUS PRESENT UNEHPLOYMENT RATE 2.5+ 2.01.51.0 0.5+ 0.0+ -0.5 + -1.0寸 -1.5 -+ 2 * * * * * ..: * 4 * * * --+ 6 PRESENT UNEMPLOYHENT RATE
13.4 模型假設的檢查(第二步)•865Plot af RESIDUAL VerBUS PREDICTED CRIME RATE * * 2.5+ I! 2.0T 1.5- * RESIDUALS 101 0.5+ | 0.0+ * * * * * -0.5+ * * * * * * -1.0- * -1S| --+- 6 8 * --十 --十一- 一 10 12 14 16 -118 PRBDICYED VALUE OF CRINE RATE SAS UNIVARIATE PROCEDURE POR RESIDUAL ANALYSIS variable=Residual Stsg Heaf # 1 BOXPIOL -0 9976665 二we 222371 + +-= 1-+ -1+ 2.25t 025 -1751 Nozmal erobability P1ot 有+實+商* t內 * -十20
•866, 第十三章多元迴歸續論 13.27 參照練習13.26,為一個5年前犯罪率為9%、當前失業率為16%的城市預測現在的犯罪率。這個預測存在問題嗎?為什麼? 13.28 •個證券公司對25家不同的高科技企業每股收益作『迴歸分析,下圖畫出「估計值»和殘差,是否存在跡象表明假設不成立?有沒有其他的檢驗或圖表? 3 2 I 差 0殘-1- -2- .3X x × × × × x × x × × x × × X ×× x × 1.0 is 20 25 30 35 408 13.5 小結這章主要涉及了多元迴歸中的一些實際問題。做法的第一步是決定因變數和包含在模型中的備選自變數集。我們討論了從相關領域專家中得到資訊的重要性,和最優下集迴歸方法在挑選自變數中的用處。 在第二步中討論了多元迴歸方程的一種特殊形式:多項式迴歸。特別的,要關注•個假定模型的擬合不足問題。如果自變數集上有重複觀測,就可以對多項式模型的擬合不足問題進行檢驗。擬合不足也可以用殘差圖來考察。 如同我們所討論的那樣,按照第一步和第二步去傲,有時也會有問題,這與所得到的資料有關。例如,如果可以同時得到很多變數的資料,就可以建立多元迴歸模型,然後可以請敦專家或使用最優子集迴歸來挑選(第一•步)得到的自變數。基於第-步的討論和分析,在第二步中可以對模型進行進一步的修正。然而,有時並不能得到很多可能的自變數的值,在這種情況下,第一步中專家的建議就很重要了。根據專家指出的重要因子來收集資料,在得到這些備選變數的資料後,再使用子集迴歸和第二步中建模的方法來改進模型。 多元迴歸問題的最後…步是檢驗多元迴歸的假設:零期望、等方差、正態性、獨文性。雖然也提出了一些正式的檢驗,但檢查假設的最好的方法是使用散點圖和機率殘差圖。一般情況下,一個人在使用散點圖考察和解釋資料的經驗越半富,所得到的迴歸方程就越好。
13.5 小結•867• 重要公式 1.Cp統計量 C。S8((辣差)。 (n-2p) 2.Durbin-Watson 統計 Ys(e.1-e.y d= 3. 向後剔除 Fa = SSorm MS(殘差), j= 1,2,⋯ 補充練習 13.29 使用如下資料擬合一個模型,畫出資料圖並給出一個多項式模型。 y,8。11518,10 1141012 10 10 10 15 15 15 20 20 20 25 25 25 13.30 參照練習13.29的資料。 2.擬合模型 Bo+Bx+Bx +Bx+e b.取a=0.05,檢驗擬合不足。 c•檢驗殘差圖來驗證迴歸假設是杏正確。 13.31 參照練 13.29,設第3、5、6、10個資料缺失。 8•擬合一個三次模型。 b.檢查殘差並比較練習13.30和13.31的擬合程度。 13.32{醫藥)一個製藥公司希望得到藥量與效用間關係的資訊,為此,把15 個被注入病毒的試管在30C下培養了5天,3組試管隨機地分配給5個不同的待測劑量(2,4,8,16,32mg),每個試管只注入劑,並得到其響應(一種產品對病毒環境抵抗力的度量),資料如下:
• 868. 第十三章多元迴歸續論劑量 2 4 8 16 32 晌應 5,7,3 10.12,14 15,17.18 20.21.19 23,24,29 2.畫出資料圖。 b.對資料分別擬合線性和二次模型。 <哪個模型更準確? d.把在(b)中得到的結果與SAS的輸出結果作比較。 SAS OVIPCT FOR EXERCISE 13.32 DATA LISTING OBS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 DOSE 2 2 2 4 4 4 8 8 B 16 16 16 32 32 32 RESPONSB 5 7 3 10 12 14 15 17 18 20 21 19 23 24 29 DOSE2 4 4 4 16 16 16 64 64 64 256 256 256 1024 1024 1024 REGRESSION ANALYSIS WIIH LINEAR DOSE TERM IN HODEL Depensdent Var iable: RESPONSE POTENCY OE DRUC Analysis of Variance Source Mocie! Error C Total DE 1 13 14 Sum of Squares 590.91613 173.48387 764.40000 Mean Sqare 590.91613 13.34491 F Value 44.280 Prob>E 0.0001
Root HSE Dep Mean C.V. Farameter Estimates Variable INTERCEP DOSE DE 1 1 Variable TNIERCEP DOSE 3.65307 15.80000 23.12069 R-square AdjR-sq 13.5 小結 • 869• 0.7730 0.7556 Parameter Estimate 8.666667 0.575269 Variable DF Eabel 1 Intercept 1 DOSE LEVEI, OF DRUG Stardard •ErTOr 1.42786770 0.08645016 T For HO: Parameter=0 6.070 6.654 Frob≥IT 0.0001 0.0001 Plot of Drug Potency versus Drug Leve] 30+ 1 25一— 20+ I IS+ OF POTENCY 三-- * s-* • * * * # * * * 2 4 10 12 14 16 18 20 22 24 26 28 30 32 DOSE LEVEL OF DRUG
•870• 第十三章多元迴歸續論 Plot of Residuals 1linear mode1) versus Dose Level 6+ * * * * 2十一 0 DUAL I * * * * * -4+!* -6+ 8 10 12 14 16 18 20 22 24 26 28 30 32 DOSE LEVEL OF DRUG RRGRESSION ANALYSIS WITH CUADRATIC TERM IN DOSE Dependent Variable: RESPONSE POTENCY OF DRUG Analysis of Variance Source Model EETOr C Total DE 2 12 14 Root MSE Dep Hean C.v. Parameter Estinates Variable INTERCEP DOSE DF 1 1 Sum of Sguares 673.82062 90.57938 764.40000 2.74741 15.80000 17.38869 Parameter Estimate 4.483660 1.506325 Hean Squaze 336.91031 7.54928 R-square AdjR-sg E Value 44.634 0.8815 0.8618 Standard Error 1.65720388 0.28836373 T Eor HO: Parameter=0 2.706 5.224 Prob>F 0. 0001 Prob≥11 0.0191 0.0002
—--- 0.00814314 13.5小 - 3.314 結 • 871. 0.0062 DOSE2 Variable INTERCEP DOSE DOSE2 1 DF 1 1 1 - 0.026987 Variable Label Intercept DOSE LEVEL, OE DROG DOSE SQUARED Plot of Residuals (quadratic model)versus Dose Level 4十 * * * * * RESIDUAL 0 -2 -4 * * * * * + * * -6 + 2 4 6810 12 14 16 18 20 22 24 26 28 30 32 DOSE LEVEL OF DRUG 13.33 參見練習 13.32中的資料。許多時候,可以用劑量水平的對數變換來線株化響應與自變數之間的關係。 a.查對數表或用電子計算器得到5個劑量水平的對數。 b.用x1記對數劑量,擬合模型 Y= Bo+BIX1+E .把(b)中的結果與下面的計算機輸出做比較。 d.這三個模型中,哪-個看起來更合適?為什麼?
•872• 第十三章多元迴歸續論 Plot of Residuals (auadratic model) versus Predicted Potency 4T * * * * 27 * RESIDUAL L _* *:: -4t -6+ 10.0 is 17.5 200 PREDICTED VALUE OF POTENCY -十-~---- 22.5 2.0 SAS OUTPUT FOR EXERCISE 13.33 DATA LISTING OES 1 DOSE 2 RESPONSE 5 L0G_DOSE 0.69315 0.69315 0.69315 1.38629 1.36629 1.38629 2.07944 2.07944 2.07944 2.77259 2.77259 2.77259 3.46574 3.45574 3.46574
13.5 小結•873• Dependent Var iable: RBSPONSE POTENCY OE DRUG Analysis of Variance SOurCE" Model Error' C Total DF 1 13 14 Root HSE Dep Mean C.V. Sum of Squares 710.53333 53.86667 764,40000 2.03558 15.80000 12.88342 Parameter Estimates Mean Square 710.53333 4. 14359 F Value 171.478 Prob>F 0.0001 R-square Adj R-sq 0.9295 0.9241 Variable INTERCEP LOG_DOSE Variable INTERCEP LOG_DOSt Parameter Estimate 1 1 1.200000 7.021115 Standard Error 1.23260547 0.53616972 TEor HO: Paraneter=0 0.974 13.095 Variable Label 1 Intercept NATURAL LOGARITHH OF DOSE Plot of Drug Potency versus Natural Logarithm of Dose Level DRUG POTENCY 30 + * 25 - 20+ —! 1510+ * 青 * s+*!* 01 --十0.6931 1.3863 2.0794 2.7726 NATURAL LOGARITHM OF DOSE --+ 3.4657 Prob≥Irl 0.3480 0.0001
•874. 第十三章多元迴歸續論 Plot of Residuals versus Predicted Potency of Drug * —- 2+ * 1* * * * 0 * 一1+* 1 -2+ * * * * * -3卡, --+-- 6.067 ---十 +- 10.933 15.800 20.667 25.533 FREDICTED VALUE OF DRUG POTENCY Plot of Residuals versus Natural Logarithm of Dose Level -tb * I 3 T * 2+ RESIDUAL * * * * * * * 11+* -2+ -3, 0.6931 -十1.3863 2.0794 2.7526 NATURAL LOGARITHM OF DOSB * * 3.4657
13.5 小綃 •875. 13.34(工程)做一項試驗以研究一種新型廣告塗料抵抗關氣的能力,自變數有兩個:溫度z1和暴露時間z2。 樣本資料列出如下: 1~ 22(月) 120 -10 1 101 -10 3 110 105 2 2 10 1 130 10 3 a.擬合模型 b.考察殘差,並對你的發現做出評註。 13.35 參考練習13.34。 2.我們能夠擬合下列模型嗎? =Bo+Bx1+B路+B2+B48+ Bsz1×2 b.檢查練習13.34中模型的擬合不足,給出建議。 13.36(工程)對於試驗纖維用的磨損測試機的研磨效果,用一種特殊纖維在六個不同的機器轉速下進行了測試。剪下48塊5英寸見方的這種纖維織物,為六個轉速 100,120,140,160,180 和200(轉/分鐘)中的每一個隨機指定8塊布料。 布料指定給機器的順序是隨機的,每塊布料在指定的機器速度上研磨3分鐘,測量並記下磨損的程度。資料見下面的表。 2•畫出每個轉速下的平均值,建議一個模型。 b.用資料擬合建議的模型。 c.要檢查這個模型的假定,可以用哪種殘差圖? 機器速度(轉/分鐘) 100 120 140 160 180 200 磨損程度 23.0.23.5.24.4,25.2.25.6,26.1.24.8,25.6 26.7.26.1,25.8,26.3,27.2,27.9.28.3,27.4 28.0,28.4,27.0,28.8.29.8,29.4.28.7.29.3 32.7,32. 1,31.9, 33.0, 33.5.33.7,34.0,32.5 43.1,41.7,42.4,42.1,43.5.43.8,44.2,43.6 54.2,43.7.53. 1,53.8, 55.6, 55.9, 54.7,54.5 13.37 參見練習13.36 中的資料。假定有另外一個受控變數,即每個速度下的前4塊布料做濃度為0.2的保護層處理,而後4 塊布料做濃度為0.4 的保護層
•876• 第十三章多元迴歸續論處理。用z」表示機器的轉速,z2表示保護層處理時的濃度,擬合模型: =B+Bx1+pr+Bratm y=Bo+ Bz1+Bx+ Baa + Barixa+ psrhaz+a 13.38(工程)一家洗衣粉製造公司希望在投放市場前對某種新產品進行檢驗。所關心的問題是洗衣機中洗衣粉泡沫的高度與放入的洗衣粉量的多少以及洗滌中的攪動程度的關係。對於標準型號的洗衣機的洗滌筒,放滿水以後,隨機指定不同的攪動程度(按分鐘測量)和洗化粉的用量,並對洗衣機進行測試。資料見卜表。 a,畫出資料的圖,並建議一個模型。 b.正態性假定看上去能滿足嗎? e.擬合一個適當的模型。 d.用殘養圖來探察是否可能有違反模型假定的現象。 高度,y 28.1 32.3 34.8 38.2 43.5 60.3 63.7 65.4 69.2 72.9 88.2 89.3 94.1 95.7 100.6 攪動程度,21 1 ] 用量,z2 6 7 1 1 2 2 2 2 2 3 3 3 3 3 9 10 6 7 9 10 6 7 8 g 10 13.39 參見練習13.38。下面的模型是否更合適?為什麼? -B+B 1+B283+B3#2+ B4x3+ BsX142 13.40 參見練習13.38中的資料。 2.我們可以檢驗下列模型的擬合不足嗎? 3-B+Bix1 + + Bs z + BA + Bsx2
13.5 小結•877• b,對於這組樣本資料,寫出相應的完全模型。注意,如果在一個或多個設計點上有重複,SSLack的自由度等於完全模型中引數的個數和(a)中模型的引數個數的差。 13.41 參見例 13.10。 a.解釋模型中的引數。 b.擬合“完全“模型。 c.從標準模型和有多餘變數的模型給出結論。 13.42(化學)在六個溫度上考察了一種溶液的溶解性,見下表:,溶解性(按重量算) 43,45,42 32,33,37 21,28,29 15,14,9 12,10,8 7,6,2,溫度() 0 25 S0. 75 100 125 a.畫出這些資料的圖,擬合一個合適的模型。 b.如果可能,檢驗擬合不足,用a=0.05。 c.考察殘差,得出結論。 13.43 參見練習13.42。假設我們丟失了觀測值6.8 和14。 a.擬合模型 =B+BI +B2z21E。 b. 用a=0.05 檢驗擬合不足。 d.再一次考察殘差。 13.44 參見練習13.37中的資料。 A。檢驗模型的擬合不足。 b.寫出該試驗的完全模型。 13.45 參見練習13.32 中的資料。檢驗二次模型的擬合不足。 13.46(心理學)一位心理學家要考察睡眠深度對於一個人進行簡單算術計算的能力的影響。為此,對候選人進行了篩選,選出的人日常的睡眠模式很相近。
•878• 第1三章多元迴歸續論從這些人中,挑選了20個人。把每個選中的人隨機地分到五個組之一,每組4個人: 組1:0小時睡眠組2:2小時睡眠組3:4小時睡眠組4:6小時睡眠綱5:8小時睡眠然後,讓所有人員在接下來的24小時內按日常的方式生活。 第一天吃過早飯以後,對每個人進行測試,記錄下10分鐘內答對的算術加法的個數。當天晚上,每個人所睡的時間決定他或她所在的組。第二天早飯後,對每個人再進行一次測試,測試的題目不同但難度相同。 設響應變數為第一次答對的個數減去第二次答對的個數,資料如下。 組 1 5 啊應,y 39,33.41,40 25,29,34,26 10,18,14, 17 4, 6.-1,9 -5,0,-3,-8 a.兩出這些資料的圖,並從該圖給出一個建議模型。 b. 擬合所建議的模型。 c.就模型假定進行考察,看有無違反模型假定的現象。 13.47(工程)為確定一種金屬的彎曲程度(WARPING)』和溫度(C, TEMP)之間的關係進行一項試驗。所得樣本資料如下表。注意,在每個溫度上觀察了三次。用下面的計算機輸出完成(a)~(d)。 彎曲程度 10,13,12 14,12,11 14.12.16 18,19,22 25,21,20 23,25,26 溫度(C) 15 20 25 30 35 40 30,31,34 35,33.38 50
13.5 小結 • 879. a.畫出資料圖,並確定線性或二次模型哪個看起來更合適? b.如果擬合一個線性模型,試給出預測方程,並把預測方程的曲線加在(a)中畫出的散點圖上。 c.如果擬合一個二次模型,試給出預測方程,並把預測方程的曲線加在(a)中畫出的散點圖上。哪個模型看起來好些,是線性還是二次? d.用線性和二次預測方程分別預測27時的彎曲程度。 SAS OUTPUT FOR EXERCISE 13.47 DATA LISTING OBS WARPING TEHP 15 15 15 20 25 25 30 • 1 6 17 18 19 20 21 22 23 24 30 31 34 35 33 40 45 45 45 50 50 50 L.INEAR REGRRSSION OF WARPING ON TEHPERATURE Dependent Variable: AMOUNT OE WARPING TEHP2 225 225 225 400 400 400 625 625 625 900 900 900 1225 1225 1225 1600 1600 1600 2025 2025 2025 2500 2500 2500
• 880• 第十二貨多元迴歸續陀 Analysis of Variance Source Hode] ErTOr C Total DF 1 22 23 Root MSE Dep Nean C.V. Parameter Fstimates Sum of Squares 1571.62698 130.20635 1701.83333 2.43279 21.41667 11.35933 Nean Square 1571.62698 5.91847 F Value 265.546 R- sguare Adj R-sg 0.9235 0.9200 Variable INTERCEP TEMP DF 1 1 Parameter Estimate - 1.539683 0.706349 Variable Label Intercept TEMPERATURE(iC) Standard Brror 1.49370995 0.04334604 T Eor HO: Parameter=0 - 1.031. 16.296 Variable INTERCEP LOG_DOSE DE 1 1 Durbin-Natson D (For Number of obs.) Ist Order Autocorrelation 0.908 24 0.474 Plot of AMOUNT OE WARPING VErSUS TRMPERATURE * * AMOUNT OF WARPING 3+ 37+ 36+ 35+ 011引g比乳948610138坨5Z沈4Z860I35戰 * * # *** 吖Z+ 30 35 TEMPERATURE (in C) Prob>E 0.0001. Prob≥I 0.3138 0.0001
Plot of RESIDUAL Versus TEHPERATURE 64+* * 2 + * * * RESIDUAL 0! - -2+ * * * * * * * -6+ 25 30 35 TEMPERATURE (in C) QUADRATIC REGRESSION OF WARPING ON TEHPERATURE Dependent Var iable: AMOUNT OE MARPTNG Analysis of Variance Source Hode) ErrOr C Total 2 21 23 Root MSE Dez Mean C.V. Parameter Est imates Sum of Squares 1613.92063 87.91270 1701.93333 2.04605 21.41667 9.55354 Mean Square 606.96032 4.18632 R-square Adj R-$g 13.5小結 •881. 食 * * * * * * * 50 E Value 192.761 Prob≥® 0.0001 0.9483 0.9434 |
•882• 第十章多元迴歸續論 Variable INTERCEP TEMP TEHP2 DE 1 1 1 Variable INTERCEP TEMP TEHP2 Durbin-Watson D (For Nunker of Obs.) Ist Order Autocorrelation Paraneter Estinate 9.178571 - 0.046825 0.011587 Variable DF Label 1 Intercept 1 TBHPERATURE (in C) 1 TEHPERATIRE SOUARED 1.451 24 0.240 艹 * 3+ * 21 1 * * * * 8- -1+ | -2+ * * * -3十 | -4+ Standard Error 3.59952022 0.23974742 0.00364553 T Eor HO: Parameter =0 2.551 -0.195 3.178 Prob>|r 0.0186 0.8470 0.0045 PIOL Of RESIDUAIS VeISUS PREDICTED VALUE * * * * * * * * 35 FREDICTED VALUE OF AMOUNT OF WARPING 40
13.5 小結 • 883. * RESIDUALS I 4+ I 3+ 1 2+ 1十* 0 -I -2+ -3 Plot of RESIDUALS versus TENPERATURE * * * * * * * * * * * * * * * * TEMPERATURE (in C) 13.48(商業)多元迴歸的應用之一是用來制定表現的衡量標準。換句話說, 迴歸方程可以用來預測當某些條件得到滿足時,一個人應該表現有多好。在某個這種型別的研究中,為了解一個推銷員的銷售量,從國內的四個部分(東北、東南、 中西和西部)抽取了50個銷售區域組成的樣本,收集了有關這些區域的資料。這些資料包括個體銷售表現,以及兒個潛在的預測變數。這些變數如下。 y=銷售區域表現,按區域推銷員的合計銷售量計算, z1=在公司工作的時間(月), x2 =廣告,或公司的努力(在區內所花的廣告費用), x3=市場份額(前4年市場份額的加權平均), 4=國家中地區的指示變數(1 東北,0=其他), s-國家中地區的指示變數(1=東南,0-其他), o 國家中地區的指示變數(1=中西,0=其他), 指示變數(1=男性推銷員,0=女性推銷員)。 這些資料用 Minitab 分析的結果如下:
•884 • 第十三章多元迴歸續論 MTB ≥ DESCRIBE C1-C10 Y MEAN 3335 96.62 5002 7.335 2.450 0.8200 0.2600 0.2600 0.2400 MEDIAH 3396 $5.00 5069 7.305 2.000 1.0000 0.0000 0.0000 0.0000 HIN MAX Y 131 7205 X1 000 237.00 X2 222 10832 x3 4.131 11.205 c5 1.000 4.000 X4 0.0000 1.0000 X5 0.0000 1.0000 X6。.0000 1.0000 X7 0.0000 1.0000 HTB> REGRESS“Y'ON 7'X1'X2'‘X3''X4'X5'X6'‘X7 TRHEAN 3277 93.86 4915 7.297 2.455 0.8636 0.2273 0.2273 0.2045 91 2033 40.00 3038 5.987 1.000 1,0000 0.0000 0.0000 0.0000 STDEV 1579 66.33 2370 1.668 1.129 0.39日1 0.4431 0.4431 0.4314 03 4367 144.25 6564 8.569 3.250 1.0000 1.0000 1.0000 0.2500: rhe regression equation is Y= 16.4- 0.000546X1 + 0.667X2 + 0.0302X3-0.116XA- 0.041X5 - 33.3X6-33.6x7 Eredictor Coef Stdev t-ratio Constant 16.3944 0.2931 55.94 X1 - 0.0005463 0.0007607 -0.72 雙2 0.666589 0.000047 14315.675 X3 0.03024 0-06467 0.47 X4 - 0.1163 •0.1128 -1.03 X5 -0.0412 0.1201 -0.34 X6 - 33.3155 0.1204 ~276.81 x7 - 33.6118 0.1265 - 283.70 $=0.2864 R-Sg -100.0g R-Sa(adj)- 100.0 w SEAEAH 223 9.38 335 0.236 0.160 0.0549 0.0627 0.0527 0.0610
Analysis of Variance SOURCE Regression Error Total SOURCE X1 X2 X3 X4 X5 X6 X7 DF 1 1 1 1 1 1 1 1 DE 7 42 49 SS 122189056 3 122189056 SEQ SS 33243924 88931584 1 6602 2m 5 Y 3407.00 131.00 A650.00 1971.00 4168.00 3047.00 1196.00 2415.00 1967.00 2214.00 4333.00 6253.00 1714.00 5146.00 3469.00 4124.00 3851.00 2172.00 1743.00 2269.00 3429.00 1986.00 3623.00 5429.00 4511.00 1478.00 3365.00 1660.00 4333.14 6253.08 1713.87 5146.01 3469.27 4123.60 3851.17 2171.83 1743.25 2269.93 3429.24 1985.03 3623.21 5429.16 4511.22 1477.94 3385.22 1660.84 Fit 0.09 0.14 0.09 0.11 0.11 0.10 0.13 0.10 0.09 0.10 0.27 0.12 0.12 0.09 0.11 0.11 0.14 0.10 0.12 0.11 0.10 0.10 0.12 0.15 0.10 0.12 0.11 0.11 13.5小結 •885• MS 17455576 0 Residual 0.46 -0.17 0.07 0.09 0.06 -0.28 0.09 0.09 -0.12 0.16 - 0.14 - 0.08 0.13 -0.01 -0.27 0.40 -0.17 0.17 -0.25 0.07 - 0.24 0.17 - 0.21 -0.16 - 0.22 0.06 -0.22 -0.B4 St.Resid. 1.68 -0.59 0.27 0.35 0.21 -1.03 0.36 0.34 -0.46 0.61 - 1.36X -0.29 0.49 -0.04 -1.04 1.53 -0.69 0.64 -0.97 0.27 - 0.88 0.64 -0.82 -0.64 - 0.81 0.24 - 0.84 - 3.16R
• 886 第十二章多元迴歸續論 X1 144 78 116 50 37 34 165 41 80 140 48 203 71 13 144 11 34 94 237 115 66 113 Y 1212.00 4592.00 2876.00 4349.00 2096.00 5308.00 5731.00 1121.00. 2356.00 7205.00 3562.00 4133.00 2049.00 2512.00 3722.00 2805.00 1477.00 4040.00 6633.00 3203.00 4423.00 5563.00 Fit Stder. 1211.69 4592.00 2875.85 4349.02 2095.80 5308.07 5730.01 1120.84 2355.91 7204.80 3561.96 4132.94 2049.12 2511.90 3721.89 2805.74 1477.10 4039.96 6633.36 3203.04 4423.27 5563.38 Fit 0.12 0.09 0.09 0.09 0.09 0.11 0.10 0.11 0.12 0.13 0.13 0.11 0.09 0.09 0.09 0.13 0.09 0.08 0.12 0.12 0.10 0.10 Residual 0.31 0.00 0.15 -0.02 0.20 -0.07 0.99 0.04 -0.36 -0.04 -0.27 ~0.38 R denotes an obs. with a large st. resid. X denotes an obs.whose X value gives it large influence. St. Resid. 1.20 0.00 0.55 - 0.06 0.72 -0.26 3.70R 0.62 0.34 0.79 0.15 0.23 -0.42 0.36 0.40 1.01 -0.37 0.16 -1.37 -0.17 -1.00 -1.40 做一個檢驗,看一看西部的推銷員是否比東北部的推銷員的上作更有成效(其他情況都一樣)。給出零假設和備擇假設,檢驗統計量的計算值和臨界值,以及你的結論,取a=0.05。 13.49 參見練習13.48。當在銷售區域內的廣告費用增加1,000美元時,推銷員的銷售量的平均增量估計為多少? 13.50 參見練習 13.48。做一個檢驗,看男性推銷員的平均銷售基是否比女性推銷員高200個單位(其他情況都一樣),取&=0.05。 13.51 參見練習13.48。某公司的銷售部經理特別關心地區的不同對於男、 女推銷員的影響不一致。 a.建議一個迴歸模型,使得其中能夠包含國內四個地區和推銷員性別的互動作用。
13.5 小結 •887. b.解釋該模型中各個新B的意義。 13.52(商業)在對房產價格關於九個自變數進行的迴歸分析中,用了22處房產的隨機樣本的資料。該項研究中的變如下: PRICE=售價(美元) BATHS=浴室的數量(化妝間=1/2個浴室) BEDA=臥室數量的虛擬變數(1=2個臥室,0=其他) BEDB=臥室數量的虛擬變數(1=3個室,0=其他) BEDC=臥室數量的虛擬變數(1=4個臥室,0=其他) CARA=車庫型別的虛擬變(1=無車庫,0=其他) CARB=車庫型別的虛擬變址(1=單車庫,Q=其他〉 ACE=房齡(年) L.OT=佔地面積(平方碼) DOM=任市場上待售的時間(天) 在這項研究中,房子有兩個、三個、四個或五個臥室,可能無車庫,或單車車庫,或雙車車庫。加上,我們用兩個虛擬變數來對車庫的這二種情況進行編碼。 用Minitab 對這些資料進行了分析,結果見下面。用完全模型(九個自變數), 估計下列兩方的平均差別: 8.無車庫的房產和有•-個單車車庫的房產。 b.有一個單車車庫的房產和有-個雙車車庫的房產。 •無車庫的房產和有一個雙車車庫的房產。 MINITAE OUTPUT FOR EXERCISE 13.52 DATA DISPLAY Row 1 2 3 4 5 5 10 PRICE 25750 37950 46450 46550 47950 49950 52450 54050 54850 52050 BATHS 1.0 1.0 2.5 2.5 1.5 1.5 2.5 2.0 2.0 2.5 BEDA 1 BEDB 0 1 0 0 0 0 0 BEDC o CARA 1 1 CARB 0 1 0 AGE 23 7 9 18 0 0 1 2 1 10 0 0 0 4 1 1 0 0 1 0 5 5 LOT 9680 1889 1941 1813 1583 1533 1667 3450 1733 3727 DOH 164 67 315 51 234 116 162 80 63 102
•888. 第十三章多元迴歸續論 Row PRICE 11 54392 12 53450 13 59510 14 60102 15 63850 16 62050 17 69450 18 82304 19 81850 20 70050 21 112450 22 127050 BATHS 2.5 2.5 2.5 2.5 2.5 2.5 2.0 2.5 2.0 2.0 2.5 3.0 BEDA BEDB 1 1 1 BEDC o 0 0 CARA 0 0 0 1 0 o 0 0 1 0 0 1 0 0 1 1 0 o Descriptive Statistics: PRICE, BATES, BBDA, BEDB, BRDC., CARA, CARE. Variable PRICE BATHS BEDA BEDB BEIC CARA CARB AGE LOT DOM N 22 22 22 22 22 22 22 22 22 22 Hean 62023 2.182 0.0909 0.591 0.2727 0.0909 0.1818 7.45 2895 149.6 Median 54621 2.500 0.0000 1.000 0.0000 0.0000 0.0000 6.50 2250 123.0 THean 60585 2.200 0.0500 0.600 0.2500 0.0500 0.1500 7.05 2624 142.9 Variable PRICE BATHS BEDA BEDB BRDC CARA CRFE AGE LOT DOM Minimum 25750 1.000 0.0000 0.000 0.0000 0.0000 0.0000 0.00 1533 11.0 Maximum 127050 3.000 1.0000 1.000 1.0000 1.0000 1.0000 23.00 9680 423.0 Q1 49450 2.000 0.0000 0.000 0,0000 0.0000 0.0000 4.00 1793 66.0 03 69600 2.500 0.0000 1.000 1.0000 0.0000 0.0000 9.25 3060 181.5 AGE 7 3 11 7 6 5 15 1 9 AGE, StDev 22749 0.524 0.2942 0.503 0.4558 0.2942 0.3948 5.48 1868 109.8 Regression AnalysLs: PRICR VeTSU9 BATHS, HEDA, BRDB, BEDC, CARA, CARE, AGE, LOT, DOH LOT 1725 2811 5653 2333 2022 2166 1836 5066 2333 2904 2930 2904 DOM 48 423 130 159 314 135 71 LOT, NO SE Nean 4850 0.112 0.0627 0.107 0.0972 0.0627 0.0842 1.17 398 23.4
13.5小結 • 889• rhe regression equation is PRICE = 39617 + 11686 BATHS + 15128 BEDA + 2477 BEDB + 26114 BEDC - 44023 CARA -12375 CARB- 506 AGE + 3.40 TOT-86.0 DOM Predictor Constant BATHIS BEDA BEDB BEDC CARA CARB AGE LT DOH Coef 39617 11686 15128 2477 26114 - 44023 - 12375 -506 3.399 - 86.05 = 16531 R-Sq=69.8* Analysis of Variance Source Regression Residual Error Total DE 9 12 21 Source DE BATHS 1 BEDA 1 BEDB 1 ERIC 1 CARA 1 CARE 1 AGE 1 LOT 1 DOM 1 Unusial Obgervations ob® EATHS 7 2.50 16 2.50 SE Coef 30942 10428 26254. 17783 18118 22775 10759 1111 2.504 35.72 T 1.28 1.12 0.58 0.14 1.44 - 1.93 - 1.15 -0.46 1.36 -2.41 P 0.225 0.284 0.575 0.892 0.175 0.077 0.272 0.657 0.200 0.033 B-Sg(adj)=47.28 ss 7588195915 3279393939 10967589854 MS 843132879 273282828 Seq SS 3352323167 24291496 66日205893 261898228 1261090278 133807628 5948 300736097 1595637280 3.09 P 0.036 ERICE 52450 62050 Fit 84651 62050 $E Fit 7505 16531 Residual - 32201 -0 st Resid -2.19R *X
• 890• 第十三章多元迴歸續論 R denotes an observation with a large standardized residual X denotes an observation whose X value gives it laxge influence. Regreesion AnalysiB: PRICE verSU$ BATHS, EEDA, BEDC, CARA, CARB, LOT, DON The regression equation is PRICE = 39091 + 11712 BATHS + 14183 BEDA + 24531 BEDC - 50962 CARA - 12121 CARB +3.08 LOT- 84.8 DOM Predictor Constant BATHS BEDA BEDC CARA CARB LOT DOH Coef 39091 11712 14183 24531 - 50962 - 12121 3.082 - 84.81 = 15443 R-$9 = 69.3% Analysis of Variance Source Regression Residual Brror Total 14 21 Source BATTS BEDA BEDC CARA CARB LOT DOM DE 1 1 1 1 1 SE Coef 21445 9531 16759 9021 15878 10010 2.231 33.24 T 1.82 1.23 0.85 2.72 -3.21 - 1.21 1.38 -2.55 P 0.090 0.239 0.412 0.017 0.006 0.246 0.189 0.023 R- Sq(adj) =53.9* SS 7528777484 3338812370 10867589854 HS 1075539641 238486598 Seq SS 3352323167 24291496 929454598 1261501483 133日56231 274447991 1552902518 F 4.51 P 0.008 •
13.5小結•891• Unusual observations Obs 7 BATHS 2.50 PRICE 52450 Fit 84299 $E Fit 6973 Residual - 31849 R denotes an observation with a large standardized residual Regression Analysis: PRICE verSUS BATHS, BEDC, CARA, CARB, LOT, DOH The regression equation is PRICE - 44534 + 8336 BATHS + 24649 BEDC- 47007 CARA - 10588 CARB + 3.54 LOT - 76.7 DOH Predictor Constant BATHS BEDC CARA CARB LOT DOH Coef 44534 日336 24649 - 47007 - 10588 3.539 - 76.67 SE Coef 20264 8574 8934 15030 9751 2.144 31.51 亇 2.20 0.97 2.76 -3.13 -1.09 1.65 -2.43 P 0.044 0.346 0.015 0.007 0.295 0.120 0.028 S= 15296 R-Sq=67.7% R- Sqfadj) = 54.8* Analysis of Variance Source Regression Residual Error Total Source BATHS BEDC CARA CARB LOT DOH DF 6 15 21 DE 1 1 1 1 1 1 ss 7357974702 3509615152 10867589854 sea ss 3352323167 883193335 1307168140 111305152 310872879 1365112029 MS 1226329117 233974343 st Resid -2.31R F 5.24 P 0.004
•892. 第十三章多元迴歸續論 Unusua1 Observations 0ba? BATHS 2.50 PRICE 52450 FIT 83502 SE Fit 6843 Residual -31052 R denotes an observation with a large standardized res idual Regression Analysis: PRICE ver SUS BEDC, CARA, CARB, LOT, DOM The regression equation is PRICE = 62606+ 28939 BEDC -52659 CARA- 14153 CARB + 3.52 I0T - 75.6 DOM Predictor Constant EEBC CARA CARB LOT POH Coef 62606 28939 - 52659 - 14153 3.523 - 75.64 SE Coef 8056 7755 13837 9019 2.140 31.44 T 7.7 3.73 - 3.81 -1.57 1.65 -2.41 P 0.000 0.002 0.002 0.136 0.119 0.029 S=15270 R-Sq = 65.78 R-Sq(adj) = 54.98 Analysis of Variance Source Regression Residual Error Total Source DF BEIC 1 CARA 1 CARE 1 LOT 1 DOM 1 Unusual observations Obs BEDC 1 0.00 4 1.00 7 1.00 22 1.00 DE 5 16 21 PRICE 25750 46550 52450 127050 SS 7136792581 3730797273 10867589854 Seg SS 2901187555 2274636373 292810426 318495206 1349663021 Fit 31641 40659 95164 99052 HS 1427358516 233174830 SE Fit 13849 13849 6614 7948 Residual - 5891 5891 - 32714 27998 St Resid -2.27R F 6.12 P 0.002 St Resid -0.92 X 0.92 X -2.38 R 2.15 R
13.5 小結•893、 R denotes an observation with a large standardized residual X denotes an observation whose X value gives it large influence. Regression Analysis: PRICE veISUS BEDC, CARA, CARB, LOT, DOM The regression eqvation is PRICE = 59313 + 31921 BEDC - 48742 CARA + 3.02 IOT - 69.0 DOM Predictor Coef SE Coef Constant 59313 8105 BEDC 31921 7836 CARA - 48742 14183 LOT 3.025 2.206 DOH:69.00 32.46 T 7.32 4.07 -3.44 1.37 - 2.13 P 0.000 0.001 0.003 0.188 0.049 S=15913 R Sa=60.48 R -Sq(adj) =51.1& Analysis of Var iance Source Regression Residual Error Total DF 4 17 21 ss 6562672180 4304917674 10867589854 • MS 1640668045 253230451 Source BEDC CARA LOT DON DF 1 1 1 1 Seq Ss 2901187555 2274636373 242949284 1143898968 Unusual Observations abs BEIC 1 0.00 1.00? 22 1.00 1.00 FRICE 25750 46550 52450 127050 rit 28533 43767 85098 97533 SE Fit 14284 14284 6893 8221 Residual -2783 2783 -32548 29517 St Resid -0.40 X 0.40 x -2.28 R 2.17 R R denotes an observat ion with a large standardized residual X denotes an observation whose X value gives it lerge influence. F 6.48 P 0.002.
• 894• 第十三章多元迴歸續論 Regression Analysis: PRICE versus BEDC, CARA, DOM The regression equation is PRICE = 66338 + 30129 BEDC - 38457 CARA - 60.4 DOM Predictor Constant BEDC CARA nOW Coet 66338 30129 - 38457 - 60.41 SE Coef 6433 7913 12329 32.62 T 10.31 3.81 - 3.12 -1.85 P 0.000 0.001 0.006 0.0日1 S= 16298 R-Sq = 56.0* R•Sqladj)= 48.78 Analysis of Variance Sourse Regression Residual Brror Total DE 3 18 21 SS 6086432104 4781157750 10867569654 HS 2028810701 255619875 Source EEI CARA DOM DE 1 1 1 Seg SS 2901187555 2274636373 910608176 Unisual Observations Obs 1 4 7 22 BEDC 0.00 1.00 1.00 1.00 ERICE 25750 46550 52450 127050 rit 17975 54325 86682 94293 $E Fit 12322 12322 6960 8055 Residual 7775 •7775 - 34232 32757 R denotes an observation with a large standardized res idual X denotes an observation whose X value gives it large influence. Regress Lon AnalysLs: PRICE VETSUE BEDC, CARA The regression equation is PRICE = 57231 + 2951日 BEDC - 35840 CARA F 7.64 P 0.002 st Resid 0.73 X -0.73 - 2.32 R 2.31 R
13.5 小結•895• Predictor Constant BEDC CARA Coef 57231 29518 - 35640 $R Coef A403 8396 13006 13.00 3.52 -2.76 P 0.000 0.002 0.013 S=17308 R-$G= 47.6% R- Sa(adj) = 42.1% Analysis of Varlance Source Regression Fesidual Etror Total DE 2 19 21 SS 5175823928 5691765926 10867589854 HS 2567911954 299566628 Source BEDC CARA DE 1 1 Seg SS 2901167555 2274636373 Unusual observations obs 1 4 7 22 EEDC 0.00 1.00 1.00 1.00 PRICE 25750 46550 52450 127050 Fit 21391 50909 86749 66749 $E Fit 12939 12939 7391 7391 Residoal 4359 - 4359 -34299 40301 R denotea an observation with a large standardized residual x denotes an observation whose X value gives it large influence. Regression Analysis: PRICE versus BEDC The regress ion equation is PRICR = 54991 + 25785 ERDC Predictor Coef Gonstant 54991 BEC 25785 SE Coef 4989 9554 T 11.02 2.70 P 0.000 0.014 S-19958 R-Sq = 26.7* Analysis of Variance R- Sq(adj) = 23.0* F 8.54 P 0.002 St Resid 0.38 X -0.38 * -2.19R 2.58 R
•896• 第十三章多元迴歸續論 Source Regression Residual Brror Total DF 1 20 21 SS 2901167555 7966402299 10867589854 HS 2901187555 398320115 F 7.28 P 0.014 Unusual Observations Obs EDC 22 1.00 PRICE 127050 Fit B0776 SE Fit 814B Residual 46274 st Re.sid 2.54R R denotes an observat ion with a large stanardized residual 13.53 參見練習13.$2。用完全迴歸模型做一個檢驗,以確定房齡每長一年房產價格的下降幅度是否小於2,500美元。給出零假設和值,並得出你的結論,取a=0.05。 13.54 參見練習13.52。假定我們希望修改上面的九個變數的模型,使得能夠反映出價格與房齡的關係因臥室的個數而異。 8.寫出一個這樣的模型的公式。 h.模型引數的什麼組合表現了五個臥室、單車車庫的房產與兩臥室、雙車車庫的房產的差別? 13.55 參見練習13.52。在自變數為從原始的九個變數中選取出來的模型中,你選擇哪個模型為“最優”模型?為什麼選擇該模型? 13.56 參見練習13.52。在另一項研究中,也使用了相同的那22處房產的資料,並把 PRICE 關於 L.IST,即房產的報價(以千美元為單位)進行了迴歸分析。 Best Subsets Regression: PRIGE verSUE BATTIS, BEDA, BEDB, BEDC, CARA, CARB, AGE, LOT, DOM Response is PRICE Vars 1 1 2 2 R-Sq 30.8 26.7 47.6 39.4 56.0 51.0 R-Sg(adj) 27.4 23.0 42.1 33.1 48.7 42.8 Gp 9.5 11.2 4.日 8.1 3.5 5.5 B ABBBCC TEEEAA A L D HDD DRRG •0 s S A B CA HE TM 19365 X 19958 1730日 18612 16298 17200 X X XX X XX X X X x
4 4 5 5 6 50.4 60.2 65.7 65.2 67.7 66.5 69.3 68.6 69.8 69.3 69.日 51.1 50.8 54.9 54.3 54.日 53.1 53.9 52.9 51.2 50.4 47.2 3.8 3.8 3.7 3.9 4.8 5.3 6.2 6.5 8.0 8.2 10.0 15913 15950 15270 15382 15296 15576 15443 15611 15896 16019 16531 13.5小結•897• X X X X x X X X XXX X X X X X X X X XXX X X XXXXX X X X XXXXx X XXXXX X X X XXXXXX XXXXXx × X XXXX XXX x 7 8 8 9 Data Display Row 1 2 3 4 5 6 7 8 9 10 12 13 14 15 16 17 16 20 21 22 PRICE 25750 37950 46450 46550 47950 49950 52450 54050 54850 52050 54392 53450 59510 60102 63850 62050 69450 日2304 81850 70050 112450 127050 Descriptive Statistics: PRICE, LTST Variable N Mean LIST 29900 39900 A4$00 47500 49900 49900 53000 54900 54900 55900 55900 56000 62000 62500 63900 66900 72500 82254 82900 99900 117000 139000 Median TrHean StDev SE Mean
•898• 第十三章多元迴歸續論 PRICE LIST 22 22 62023 65521 54621 55950 60585 63628 Variable PRICE LIST Minimum 25750 29900 Maximom 127050 139000 01 49450 49900 03 69600 74939 Regression Analysis: PRICE VerSUS LIST The regression equation is PRICE= 5406+ 0.864 LIST Predictor Constant LIST Coef 5406 0.86411 SE Coef 3363 0.04797 T 1.61 18.01 P 0.124 0.000 $= 5616 Analysis of Variance R- Sq=94.2* R-Sq(adj) =93.9% Source Regression Residual Error Total DE 1 20 21 . sS 10236690015 630899838 10867589854 Unusual Observations Obs 20 22 LIST 99900 139000 PRICE 70050 127050 Fit 91731 125518 $E Fit 2038 3723 R denates an observation with a largestandardized residuai x denotes an observation whose X value gives it large influence. 22749 25551 4850 5447 HS F 10236690015 324.51 31544992 P 0.000 Residual - 21681 1532 St Resid -4.14 R 0.36 X •.
13.5小結 899• Plot Of Price Versus List Price PRICE = 5405.89 + 0.864112 LIST S = 5615.49 R-SG = 94.28 R-8q(adj)= 93.98 140000• 90000 •••⋯•⋯•~ 40000- —Regression -- 958 PI 40600 90000 LIST 140000 自•用這個迴歸的結果,預測報價為70,000 美元的房產的售價。 b:你的預測低了3,000 美元或更多的機會有多大? 13.57(社會學)使用練習13.52 中售價的資料,考察售價與兩個自變數,即房間的數量(ROOMS)與平方英尺數(SQFT)之間的關係。用下列資料。 行 1 2 3 4 5 6 7 9 10 11 12 13 14 15 16 售價 25.75 37.95 46.45 46.55 47.95 49.95 52.45 54.05 54.85 房間數 5 5 7 8 $2.05 54.39 53.45 $9.51 60.10 63.85 62.05 7 7 6 7 8 8 10 平方英尺數 986 998 1.690 1,829 1,186 1,734 1.684 1,8$6 1,690 (amtinues) 1,910 1,784 1,690 1.590 1,855 2.212 2.784
•900• 第十三章多元迴歸續論續表行 17 18 19 20 21 22 售價 69.45 82.30 81.85 70.05 112.45 127.05 房間數 7 8 7 7 10 10 平方英尺數 2.190 2,259 1,919 1,685 2,654 2,756 用下面的計算機輸出結果回答(a)(b)和(c) MULTIPLE RBGRESSION ANAL.SIS Dependent Var iable: PRICE SELL ING PRICE(1000$) Analysis of Variance Source DF Sum of Squares Hean Square Hoxiel Erroz C Tatal Root HSE Dep Mean C.V. 2 19 6816.77693 4050.68890 10667.46504 14.60117 62.02273 23.54164 3409.38847 213.19415 R-square Adj R-ag Parameter Bst inates Variable INTERCEP ROOMS 'SOrT DF 1 1 1 Variable INTERCKP ROOHS SQFT Parameter Estiate - 16.975979 4.336062 0.025511 Variable DE Label 1 Intercept 1 NUHEER OE ROOMS 1 SQUARE FEET Standard Error 10.94658431 6.04912439 0.01737891 T for HO: Parameter=0 -0.896 0.717 1.468 F Value 15.987 0.6273 0.5660 Prob>F 0.0001 Prob>|T 0.3915 0.4822 0.1585
13.5小結•901• a.做一個檢驗,看兩個變數ROOMS(房間數)和SQFT(平方英尺數)一起,是否含有 PRICE(售價)的資訊,取a=0.05。 b.做一個檢驗,看 ROOMS的係數是否為0,取c=0.05。 c.做一個檢驗,看SQFT的係數是否為0,取a =0.05。 13.58 參見練習13.57。 a.解釋(a)中結果和(b)、(c)中結果表面上的不一致性。 b.奶果把ROOMS從模型中拿掉,SQFT的:值會怎麼樣? 13.59(醫藥)為了確定在美國的醫院中傳染監視和控制措施是否減低了同院傳染的發病率而進行了一項研究。從參加一項大型研究的338家醫院中挑選了由28所醫院組成的隨機樣本,並從這些醫院得到了資料。資料集的每一行提供了一個醫院的各個變數的資訊。這些變數如下; RISK =輸出變數,醫院中同院傳染的平均發生率的估計值(百分數) STAY=輸入變數,所有患者住院的平均長度(天) AGE=輸入變數,患者的平均年齡(歲) RCR=輸入變數,培養物的數量與沒有同院傳染症狀的患者的人數的比值(乘以 100) SCHO01.=虛擬變數,是否與醫學院有從屬關係,1=有,0=無 DV, =虛擬變,表示地區,1=東北,0=其他 DV=虛擬變數,表示地區,1=北中,0=其他 DVs=虛擬變數,表示地區,1=南部,0=其他 (注意,國家有4個地理區域,即東北,北中,南部和西部。固家的這4個區域只需要三個虛擬變數。)用SAS分析這些資料,得到以下結果。 DATA LISTING cbs 1 2 3 4 5 6 7 8 9 10 11 RISK 4.1 1.5 2.7 5.6 5.7 5.1 4.6 5.4 4.3 6.3 4.9 STAY 7.13 8.82 8.34 8.95 11.20 9.76 9.68 11.18 8.67 8.84 11.07 AGE 55.7 58.2 56.9 53.7 56.5 50.9 57.8 45.7 48.2 56.3 53.2 INS SCHOOL 9.0 3. .8 8.1 18.9 34.5 21.9 16.7 o o 0 0 0 60.5 24,4 29.6 00 28.5 1 RC1 RC2 RC3 0 00r0 rodo toD
•902• 第十三章多元迴歸續論 obs 12 13 14 15 16 17 18 19 20 21 22 23 24 25 25 27 28 RISK 4.3 7.7 3.7 4.2 5.6 5.5 4.5 6.5 5.5 1.8 4.2 5.6 4.3 7.6 7.8 3.1 3.9 STAY 8.30 12.78 7.58 9.00 10.12 8.37 10.16 19.56 10.90 7.67 8.88 11.48 9.23 11.41 12.07 8.63 11.15 AGE 57.2 56.8 56.7 56.3 51.7 50.7 54.2 59.9 57.2 •51.7 51.5 57.6 51.6 61.1 43.7 54.0 56.5 IRS 6.8 46.0 20.8 14.6 14.9 15.1 8.4 17.2 10.6 2.5 10.1 20.3 11.6 16.6 52.4 8.4 7.7 SCHOOL 0 100101 RC1 RC2 O0T 010 T00 0 0 0 0 Plot of Risk versus Average Age of Patient. 8+ * * * INFECTION OF PROBABILITY | * *、 * ** * 青真 * 3 * * 0丁 0 O0TE 0 -+-- 45.0 -十--- -十47.5 50.0 52.5 55.0 57.5 AVERAGE AGE OF PATIENT (YEARS) 60.0 ----1 62.5 RC3 O 0 0 0
8 + 13.5小 P10: of Risk versus Index of Surveillance * ** * 結 • 903. 6十 S 4 3 * 茶青 * * * * * * * * | 1+ 36 10 60 INDEX OF AMOUNT OF SURVEIULANCE rlot of Risk versus Length of sray in Hospital **^ PROBABILITY OF INFECTION Ir8 71 6 5 —十一 4 * ** 賞賞青青 ** * * 2 † 16 AVERAGE L.FNGTI OF STAY 18 20
' •904.