본문 바로가기
Stata

residual plots - 그래프로 잔차분석하기 (작성중)

2017. 9. 13.

잔차분석을 포함하여 회귀분석후 모형을 진단하기 위한 그래프로는 다음과 같은 것들이 있다.



먼저 두 변수간 scatter plot을 그려보자.

가처분 소득(Dinc)과 임대소득(rent_miss)간 산점도이다.

. scatter rent_miss Dinc, mcol(%10) msize(vsmall) || lfit rent_miss Dinc

빨간선은 선형 추정선이다.



1. Residual vs Fitted Value plot

(1) 수동으로 그리기

* 자동으로도 할 수 있는데 수동으로 먼저 해보는 이유는 이것이 무엇인가를 이해하기 위해서이다.

1) fitted value (y hat) 변수를 만들어주고

2) residual (u hat) 변수를 만들고

두개의 산점도를 그린다.


1)  회귀분석 후

. predict yhat(새로 만들 변수명임. 여기선 yhat이라고 했음.)

다음과 같이 yhat이라는 변수가 만들어졌다. 이 변수가 만들어지는 과정은 앞서 구해진 회귀식의 b0+b1x에 각 관측치의 x 값을 대입해 계산해 나온 값이다. 


자 이번엔 잔차 변수를 만들어보자.

당연하지만 오른쪽 값(추정값)에서 왼쪽 값(관측값)을 뺀 것이 잔차다.

. predict uhat, residuals

yhat(추정값)과 uhat(잔차)를 더하면 관측값이 된다.


이제 residual vs. fitted value plot을 그려보자.

. scatter uhat yhat



(2) 자동으로 그리기

회귀분석 후

. rvfplot     (점 모양 옵션은 생략)

가로축이 fitted values 이므로 이전의 y 축이 가로로 온 것인데

전반적으로 형상을 보면 회귀직선을 수평에 맞추면서 전체적으로 회전rotate한 듯한 모습이다.

x축의 scale이 종속변수가 되면서.


rvf plot을 통해 알수 있는 것 :

첫째, 독립변수와 종속변수간 선형관계에 있는지 아닌지를 알 수 있다. 만약에 곡선관계에 있는데 선형으로 모형을 구성했다면 rvf plot을 그려보면 잔차의 흩어진 형상이 곡선모양으로 나타나게 된다.

둘째, 동분산성 여부를 살펴볼 수 있다. 위의 그래프는 오른쪽으로 갈수록 분산이 커지므로 이분산성을 나타내고 있다.


댓글