본문 바로가기
통계 , 수학

[회귀분석] - 추정량의 표준오차 (Standard error)

2017. 8. 16.

회귀분석에 있어서 두가지 주요한 절차는

1) 선형관계의 기울기를 구하는 것

2) 그 기울기의 정확도(신뢰도; 유의미성)를 구하는 것이다.


2번이 확실하지 않으면 1번이 의미가 없게 된다.

어찌보면 상관계수가 2번과 관련이 있다.



상식적으로(직관적으로) 생각해보면 두 변수간 산점도를 그렸을때 점이 선형으로 분명하게 나타나면 상관계수도 높고 회귀계수의 유미성도 높게(회귀계수의 표준오차가 작게) 나타날 것이다.


산점도의 점들이 분명한 선형관계를 보인다는 것은 추세선(회귀선)을 그었을때 각 점들이 그 점에 비교적 가깝게 몰려있다는 뜻이 된다.

각 점들이 추세선(회귀선)에 근접하여 있다는 것은 각 오차(개별 점이 회귀선에서 떨어진 거리 또는 추정값과 실제값의 차이)들의 값이 작다는 것이다.

그러므로 오차(추정값과 실제값의 차이)가 작을수록 그 회귀선은 설명력이 높은 것이다. 오차가 너무 커버리면 선형관계라고 하기 어렵다. 다시말해 선형 상관관계가 있다고 하기 어렵다.


한마디로 회귀선(추세선)을 그었을때(추정값) 점들(실제값)이 회귀선에 어느정도 몰려있어야 한다는 것이다.

이것을 수치화하는 작업이 회귀계수의 유의성 검정이다.

오차(추정값과 실제값의 차이)가 충분히 작은 수준이라면 선형관계가 있고 그 선형의 정도를 말해주는 기울기가 의미가 있다고 보는 것이다.

오차들이 너무 커버리면 선형관계라고 하기 어려운 것이다.

상관계수의 논리와 같다.





참고 : 류근관 교수님 강의안  http://ezstat.snu.ac.kr/textbook_sources/chapter_07.pdf

http://ezstat.snu.ac.kr/textbook_sources/chapter_20.pdf




기울기(추정량)의 분산(표준오차의 제곱)을 추정하기 위해서는 오차항의 분산을 사용한다.




1. 오차항(교란항;잔차)의 분산 구하기


오차항의 분산을 구하는 것은 간단하다.

그냥 개별 오차의 분산(오차제곱의 평균)을 구하면 된다.

그런데 평균을 구할때 단순히 n으로 나눠주는게 아니라

오차항의 제곱의 합(SSR)을 자유도(표본개수 - 상수항을 포함한 변수개수)로 나누어 구한다.

식으로 쓰자면 이렇게 된다.





잔차 제곱의 합은 다음과 같이 구할 수 있다.              (출처 : 강기춘 교수님 계량경제학)






2. 회귀계수의 분산 구하기







(이 식을 도출하는 과정의 전제는 잔차의 동분산성이다. 즉 잔차와 독립변수간에 상관관계가 없다는 것이다; x의 어느 지점에서도 잔차의 분산은 같게 나타난다는 것이다; x의 어느 지점에서든 잔차가 같은 정도로 퍼져 있다는 것이다.

그러므로  동분산성의 가정이 깨지는 이분산성의 모습이 나타날때는 회귀계수의 분산을 구하기 위해 이 방법이 아닌 다른 방식을 적용해야 한다. robust 등..)


분자와 분모를 보자.

분자인 잔차의 분산과 회귀계수값의 분산은 비례한다. 잔차가 적을수록 계수값의 분산도 적어져서 유의미하게 나올 확률이 높아지는 것이다.

직관적으로 보면 잔차가 적을수록 회귀직선에 실제값들이 근접해 있다는 것이므로 높은 선형관계를 가지고 있다고 볼 수 있다.


분모인 x의 편차제곱합(SST)은 x가 퍼져있을수록(직관적으로 이해된다. x가 넓게 있어야 기울기를 정확히 잴 수 있다), 그리고 관측치가 많을수록 커진다. 분모가 커진다는 것은 값이 작아지는 것이다. 그러므로 x가 퍼져있거나 관측치가 많을수록 회귀계수의 분산은 작아지게 된다. 분산이 작아진다는 것은 회귀계수가 유의미할 확률이 커진다는 것이다.



어쨌든 회귀계수의 분산은 우리가 일반적으로 분산을 구하는 방법과는 달리 잔차(오차항)의 분산x의 총변량(편차제곱합;total variation in x; SST; Total Sum of Square)으로 나누어 구한다.



                                        잔차의 분산

x의 회귀계수의 분산 =  _____________________

                                      x의 편차제곱합



표준편차는 분산의 제곱근이므로 위에서 구한 값에 루트를 취해주면 표준오차가 된다.




여기서 오차(errors;disturbances)와 잔차(residuals)의 차이점을 짚고 넘어가자.

오차는 모집단과 관련된 것이고 (실제로 관측하기 어려움)

잔차는 추정과 관련된 것이다. (우리가 데이터를 통해 관측한 것)

모집단 :

추정식 :


그냥 u는 오차, u hat은 잔차


잔차의 분산을 구할때 만약 모집단의 오차의 분산을 구하려면 n으로 나눠주면 되지만 표본을 통해 추정하는 것이기 때문에 bias를 줄이기 위해 자유도로 나눠주는 것이다.(이 부분은 자세한 설명 생략)


오차항의 분산이 바로 통계프로그램에서 보여주는 Risidual MS(mean square) 값이다(SSR 나누기 df).

MSE라고도 한다(mean sqaured error)

여기서 오른쪽의 Root MSE가 바로 평균적인 잔차(추정값과 관측값의 차이)의 크기(절대값)를 알려준다.

즉 평균적인 추정값과 실제값이 차이가 + - 4.3이라는 것이다.

위의 회귀분석 결과표에서 분석분석 내용을 좀더 보자면

SS 변량이고 MS는 SS를 자유도(df)로 나눠준 '분산'이다.

SS를 보면 총 변량은 1282.6이다. 여기서 SST에서 모델에 의해 설명되어 지는 변량(Model SS)의 비율이 바로 R-sqaure다.




참고로 robust SE는





참초 : 울드리지 계량경제학, 강기춘 교수님 계량경제학, 류근관 교수님 강의안




댓글