잔차분석을 포함하여 회귀분석후 모형을 진단하기 위한 그래프로는 다음과 같은 것들이 있다.
먼저 두 변수간 scatter plot을 그려보자.
가처분 소득(Dinc)과 임대소득(rent_miss)간 산점도이다.
. scatter rent_miss Dinc, mcol(%10) msize(vsmall) || lfit rent_miss Dinc
빨간선은 선형 추정선이다.
1. Residual vs Fitted Value plot
(1) 수동으로 그리기
* 자동으로도 할 수 있는데 수동으로 먼저 해보는 이유는 이것이 무엇인가를 이해하기 위해서이다.
1) fitted value (y hat) 변수를 만들어주고
2) residual (u hat) 변수를 만들고
두개의 산점도를 그린다.
1) 회귀분석 후
. predict yhat(새로 만들 변수명임. 여기선 yhat이라고 했음.)
다음과 같이 yhat이라는 변수가 만들어졌다. 이 변수가 만들어지는 과정은 앞서 구해진 회귀식의 b0+b1x에 각 관측치의 x 값을 대입해 계산해 나온 값이다.
자 이번엔 잔차 변수를 만들어보자.
당연하지만 오른쪽 값(추정값)에서 왼쪽 값(관측값)을 뺀 것이 잔차다.
. predict uhat, residuals
yhat(추정값)과 uhat(잔차)를 더하면 관측값이 된다.
이제 residual vs. fitted value plot을 그려보자.
. scatter uhat yhat
(2) 자동으로 그리기
회귀분석 후
. rvfplot (점 모양 옵션은 생략)
가로축이 fitted values 이므로 이전의 y 축이 가로로 온 것인데
전반적으로 형상을 보면 회귀직선을 수평에 맞추면서 전체적으로 회전rotate한 듯한 모습이다.
x축의 scale이 종속변수가 되면서.
rvf plot을 통해 알수 있는 것 :
첫째, 독립변수와 종속변수간 선형관계에 있는지 아닌지를 알 수 있다. 만약에 곡선관계에 있는데 선형으로 모형을 구성했다면 rvf plot을 그려보면 잔차의 흩어진 형상이 곡선모양으로 나타나게 된다.
둘째, 동분산성 여부를 살펴볼 수 있다. 위의 그래프는 오른쪽으로 갈수록 분산이 커지므로 이분산성을 나타내고 있다.
'Stata' 카테고리의 다른 글
stata의 dta 파일을 spss의 sav로 변환하기 - 변수설명 한글 깨짐 없이 // conver stata (*.dta) file to spss (*.sav) (0) | 2017.11.07 |
---|---|
stata 에서 01 02 등 0이 들어가는 숫자 반복하기 (loop) (0) | 2017.10.28 |
가변 히스토그램 그리기 (0) | 2017.09.09 |
Making Stata shortcut (custom) : Stata 명령어 단축키 만들기 (0) | 2017.09.08 |
stata 그래프 합치기 (여러 그래프 한 그림에 그리기) (0) | 2017.09.07 |
댓글