回上層

Enterprise Guide

離群值與影響點

 最後,我們來介紹離群值與影響點。

一、離群值(Outlier):尋找觀察值Y是否有離群值,我們可用Student殘差來看,其準則為:

5-1

二、影響點(Influential):

1、DFFITS準則為:

5-2

2、DFBETAS準則為:

5-3

3、Cook’s Distance measure(Cook’s D)準則:

5-4

5-5

 

為了了解哪些筆資料有離群值或是影響點,我們再一次點「修改工作」=>選擇「預測」,先勾選「原始樣本」再勾選「診斷統計值」=>執行。

5-6

在分析資料時我們發現有兩筆資料(第178、179筆)在記錄時遺失氣缸數,故無法做任何的預測,所以我們將刪除。

 

首先我們先討論Cook’s D的情形,其圖形如下:

5-7

在圖示上,我們可以很明顯看到有似乎只有三筆影響點,配合上述Cook’s D的公式,當Cook’s D的值大於0.013時表示為影響點;因此,我們回到原始資料來查看是哪幾筆。在「結果-SAS報表」旁邊有「輸出資料」=>將資料拉至後方,我們可看到Cookd_EngineSize_log的值。

 

5-8

 

結果我們發現Cook’s D大於0.013的觀察值分別為:第6、12、47、65、103、105、108、109、149、295、208、297、298、303,共14筆。

5-9

 

接下來我們觀察DFFITS的情形,其圖形如下:

5-10

 

配合上述dffits的公式,當絕對值的diffits大於0.25時即為影響點,我們亦可以從原始資料來觀察。其影響點為:第6、12、47、58、65、93、103、105、108、109、147、149、242、260、295、208、297、298、303、313,共20筆。

5-11

 

透過兩種看影響點的方法,我們發現有14筆資料有重覆,而以DFFITS為標準則找出較多的影響點。

 

結論:根據迴歸式的估計結果可知當氣缸數較大、馬力較大、車身長度較長,而價格低一點、行走高速公路的油秏差一點,會得到較大的引擎CC數;但是我們將這些影響點列出發現有很明顯的不同。舉例來說,第109筆資料我們發現氣缸數非常的少(只有三個),且馬力也是最小的,但是在油秏上卻非常的出色。又例如第105筆資料有最多的氣缸數(八個),馬力非常好,而在油秏上卻表現的不差,在價格方面亦不是很高價…等。

 

根據上述的分析,除了有兩筆資料有遺失值我們刪除外,其他的觀測值雖為影響點(假設在建資料時沒有錯誤),但我們仍不應將資料刪除,以反應真實的情形。

 

 

回上層