每天資訊【簡單線性迴歸】異常值的判斷

菜單

【簡單線性迴歸】異常值的判斷

作者:章畫   審稿:歡暢  封面:吉江

根據日常經驗我們知道,學生身高是能夠影響到學生體重。現有一份學生體能測試資料集,對學生身高和體重進行簡單線性迴歸擬合。並且學習本文的重點資料異常值檢測。

1

異常值檢測

異常值是資料集中過大或過小的觀測值。異常值的存在對於迴歸直線方程的擬合、判定係數及顯著性檢驗的結果都有很大的影響。所以,實際的迴歸分析操作,首先要做的就是檢測異常值。

2

異常值產生的原因

原始資料的測量或登記錯誤。如果是這種異常值,應該回過頭來重新訂正這些資料。

抽樣的隨機性所造成的異常值。如果是這種異常,就應該保留這些資料,而不能隨意將它們剔除掉。

異常值的出現是總體本來資料結構的一種暗示。如果是這種情況,就應該考慮是否增加樣本容量,或考慮其他形式的模型。

3

標題內容異常值判定方法

當資料集較大時,異常值是很難從表中識別出來的。散點圖可以粗略幫助我們識別異常值。

【簡單線性迴歸】異常值的判斷

初步判斷散點圖中有一個異常值。但是憑肉眼去判斷異常值難免有誤差,所以接下來用SPSS自帶的方法來判斷異常值。

透過線性迴歸【統計】-【個案診斷】-【離群值 】可以找到離群值。預設3倍標準差,   因為標準化殘差99%數值大小都落在[-3,3] 區間內。若標準殘差超[-3,3],則可以視為異常值。但是具體幾倍標準差,視特定學科資料和實際問題而定。本例子選擇3倍標準差。

【簡單線性迴歸】異常值的判斷

【簡單線性迴歸】異常值的判斷

透過以上操作得到觀測值診斷表。由表可知,一共有10個異常值(紅框所示)。它們的標準殘差都超過3。觀測值診斷表中的個案編號是根據資料試圖中的個案序號。比如個案編號12是原資料試圖排在第12行的個案。其他依此類推。

還可以用【繪圖】選項欄透過直方圖和散點圖來觀察異常值。

【簡單線性迴歸】異常值的判斷

上表*ZPRED是迴歸標準化預測值, *ZRESID是迴歸標準化殘差值。至於*ZPRED和 *ZRESID誰是X軸和誰是Y軸,並無多大影響。凡是透過資料標準化,*ZPRED和*ZRESID取值99%都落在[-3,3]之間,我們只要勾選標準化殘差圖下面的直方圖和正態機率圖,系統就會自動的繪製出以上我們所需要的圖形。

【簡單線性迴歸】異常值的判斷

透過做迴歸標準化殘差直方圖,正如圖中紅框所示,已經有部分資料超過3。即可判定有異常值存在。

【簡單線性迴歸】異常值的判斷

也可以透過做迴歸標準化殘差(*ZRESID)和迴歸標準化預測值(*ZPRED)散點圖,Y軸迴歸標準化預測值都在[-3,3]以內,但是X軸迴歸標準化殘差明顯有部分點超出3。即上圖紅色框中的散點的x值(迴歸標準化殘差)通通大於3。可以判定紅色框中的值即為異常值。

提==

學堂正在招募內容主筆、短影片創作者、課程講師,請在公眾號底部選單欄點選“招聘”瞭解詳情!