回上層

Enterprise Guide

複迴歸

本篇我們以SASHELP中的CARS檔案為例,討論汽車的引擎大小與那些因素有相關,在調查項目裡我們選取下列變數來討論:Invoice (售價;單位:美金)、Enginesize (引擎大小;單位:1000cc數)、Cylinders (汽缸數)、Horsepower (馬力)、MPG_city (每加侖可在市區行駛公哩數)、MPG_highway (每加侖可在高速公路上行駛公哩數)、Weight (車輛重量;單位:磅)、Wheelbase(車輛軸距;單位:吋)及Length (車輛長度;單位:吋)。資料存放在sashelp裡面:本機=>資料館=>SASHELP=>CARS。

 1-1

 

首先,了解一下各變數之間分佈情形(圖一至九)。點選「描述」=>選擇摘要統計=>點選「資料」,將Invoice至Length全選,拖曳至「工作角色」:

1-2

 

接著,在百分位數裡選擇「中位數」、標繪圖裡選擇「直方圖」;最後將報表以word檔呈現:屬性=>編輯=>結果=>自訂結果格式=>選擇「RTF」,而後面可以自由選擇表格希望以什麼樣的方式呈現,在此選「Journal」=>確定=>最後「執行」(如下圖)。

1-3

 

摘要統計分析如下表,我們可知此組樣本共有428筆資料,並針對不同的變數做敘述性統計。平均一部汽車售價約30,015元(單位:美金)、引擎為3200cc、汽缸數約5.8個、215匹馬力、一加崙的汽油在市區約行駛20哩,而在高速公路上約行駛26哩、車重約3578磅、車輛軸距約108吋、車長約為186吋。圖一至圖九為各別變數的分佈情形。

01

 

圖一:汽車售價

1-4

 

圖二:引擎大小

1-5

 

圖三:汽缸數

1-6

 

圖四:馬力

1-7

 

圖五:一加侖汽油在市區所行駛之公哩數

1-8

 

圖六:一加侖汽油在高速公路所行駛之公哩數

1-9

 

圖七:車重

1-10

 

圖八:車輛軸距

1-11

 

圖九:車身長度

1-12

 

二、統計分析:

首先了解各變數之間的相關係數:點選「分析」=>多變量裡的「相關」=>點選「資料」,將Invoice至Length拖曳至「分析變數」=>點選「選項」,預設為Pearson相關係數,在此多點「Spearman」相關係數=>點選「結果」,把預設「顯示每個變數的統計值」點掉=>完成後「執行」。

1-13

 

Pearson與Spearman相關係數表均是在看兩兩變數之間的關係,而其中Spearman使用時機為當資料分佈為非常態或是不清楚資料是否符合常態分佈。不論是Pearson或是Spearman,所有的變數結果均為顯著,其中MPG_City和MPG_Highway均和售價之間為負相關。

02

03

迴歸模型基本假設需滿足獨立性、同質性及常態分佈,以本資料為例,其迴歸方程式為:

04

 

迴歸分析:連點兩下打開原始資料後,點選「分析」à迴歸裡的「線性迴歸」=>在資料的位置將EngineSize拖曳至反應變數,而將Invoice、Cylinders、Horsepower、MPG_city、MPG_highway、Weight、Wheelbase及Length拖曳至解釋變數=>在統計值的位置裡勾選「變異數膨脹值」、「不等變異性檢定」、「Durbin-Watson統計值」=>執行。

1-14

1-15

根據原始資料及迴歸分析,我們可得到以下之估計值:

05

所以,此迴歸模型為:

06

 

由上表的變異數膨脹欄位我們亦可知變數MPG_City及MPG_Highway有共線性的問題,考慮將其中一個變項拿出模型;另外,MPG_City及Wheelbase在此模型中均不顯著(p-value>0.05),顯示此變項不影響汽車之售價。

07

預測上,調整後的R平方為88.49%。

 

在討論變數之間是否滿足獨立的特性,我們可以用殘差圖來觀察或是用Durbin-Waston D來做檢定。Durbin-Waston 判斷殘差間是否獨立,其樣本數大小與參數多寡均會影響到檢定的區間。而檢定的結果可分三種情形:(1) 殘差間獨立、(2) 殘差間相依、(3)無法判斷。若檢定結果愈接近2時,其代表各殘差之間是獨立,相反,如果離2很遠表示各殘差之間並不獨立。

08

 

在本例,我們看到總共使用426筆資料來做分析(2筆資料有遺失值),其Durbin-Waston D值為1.462,顯示各殘差之間並不獨立,之後會做修正。

討論資料是否符合常態分佈,我們可以看殘差分佈或是從QQ-plot來做判斷。如下圖,大致上看到是有符合常態之假設。

1-16

1-17

 

最後討論變異數是否相同(同質性的檢定),從下圖可知,殘差與預測的Invoice很明顯為喇叭狀,表示變異數不為常數,因此我們需對反應變項做修正。

1-18

 

或者我們也可以用「不等變異性檢定」來看變異數是否同質性。H0:變異數相同。H1:變異數不相同。其檢定結果如下表,p-value<0.05,顯示變異數之間並不相同,需要修正。

09

 

其他變數與殘差之間的關係,從下圖可知Horsepower、MPG_City、MPG_Highway的殘差均有很明顯的喇叭狀,因此將會針對這些解釋變數做修正。

1-19

1-20

 

結論:此資料在迴歸模型中,只有服從常態分佈,而獨立性與同質性均沒有符合基本假設。在原始資料中,總共有38個車商而所賣的價格也有很大的差異,因此,我們需要對原始資料再去做分組或是對變數做修正來滿足迴歸分析的假設。

回上層