본문 바로가기
통계 , 수학

로그란 무엇인가, 왜 통계에서 로그를 사용하는가? (회귀분석시 자연로그 해석)

2016. 7. 1.

이와 관련하여 최근에 작성한 아래 글을 참조하여 주십시요.

왜 자연로그는 비율(%)변화를 나타낼 수 있는가



===================================================================



(출처: 울드리지 계량경제학)


위의 표에서 보면 독립변수(x)에만 로그를 취해준 경우(Level-Log)에 해석은

%델타x  : x가 1% 변화할 때

계수값  / 100만큼 y가 변화한다는 것이다.

즉 회귀분석 결과 베타1이 +0.5가 나왔다고 하자.

그러면 x가 1% 증가할 때 y는 0.5/100 = 0.005증가한다는 것이다.  (10% 이상의 해석은 어려움)

계수값에서 100을 나눠주는 것을 주의해야 한다.


한편 종속변수에만 로그를 취해준 경우를 보자 (Log-Level)

이 경우에도 계수값이 0.5로 나왔다고 해보자.

그러면 x가 한단위 증가할 때 y는 50% 증가하는 것이다.

계수값이 0.5면 50%인 것이다.







===================




일단 독립변수가 몇% 변할때 종속변수가 몇%변하는지를 변화량일 비율로 보고자 할 때 독립변수와 종속변수에 모두 자연로그(Ln)를 취해줍니다.

독립변수에만 자연로그를 취하면 회귀계수가 의미하는 것은 독립변수가 1%변할때 종속변수는 얼마만큼(비율아 아닌 양으로) 변하는가를 보게됩니다.

 - 독립변수가 1%변화할때, y값은 베타/100 만큼 변화한다. 독립변수가 100% 변화할때, y값은 베타만큼 증가한다. (http://www.ats.ucla.edu/stat/sas/faq/sas_interpret_log.htm 참조)

종속변수에만 자연로그를 취하면 회귀계수가 의미하는 것은 독립변수가 한단위 변화할때 종속변수는 몇% 변화하는가입니다.





==========================



임금 등의 분석에 로그를 사용한다. 왜?


일반적으로 자연로그를 씌우면 비선형관계를 선형관계로 변환할수 있다고 한다. (회귀분석의 전제는 x와 y가 선형관계이어야 하기 때문에 회귀분석을 하기 위해 그렇게 해주는 것이다.)




먼저 로그에 대한 기초를..

Logarithm


a0 = 1 ⇔ loga1 = 0

("밑을 a로 하는 로그 1은?"= "a의 몇제곱을 해야 1이 되냐?")


(http://mathbang.net/596)



x0 = 1 이다.


10 = 1
20 = 1
30 = 1
40 = 1
50 = 1


무슨 수가 와도 0을 제곱하면 1이 된다. (0만 빼고)

왜냐?

(http://cronix.tistory.com/55)




그러므로 로그1은 무조건 0이다. (밑이 어느 수던지)



그리고 이것도 당연하다.

a1 = a ⇔ logaa = 1


=> 진수와 밑이 같으면 무조건 1이다.



이건 공식(규칙)이다.

logaMN = logaM + logaN


(왜 그런지는 위의 링크 참조)


마치 ax × ay = ax + y 와 비슷하다.



그리고 또 아래의 규칙





로그, 제곱, 제곱근(루트)은 다 친구다.

다 ax = b 이 관계에서 파생된다.

 - 이 관계에서 b를 구하는게 제곱이다. (a를 x번 곱하면 얼마?)

 - 이 관계에서 a를 구하는게 루트다. (어떤 수를제곱해야 b가 되지?)

 - 이 관계에서 x를 구하는게 로그다. (a의 몇제곱이 b가 되지?)     



제곱은 2x2x2x2 를 2^4 이렇게 효율적으로 쓰기 위해 만든거다.

로그도 제곱과 마찬가지로 효율화를 위해 만들었다.


 

아래의 결정적인 그래프를 보자!

제곱의 그래프와 로그의 그래프, 대칭적인 그래프에서 뭔가 느낌이 오지 않는가?!!



요런식으로 그려보면 대충 대칭으로 보인다.



엑셀에서 두 그래프를 그려보았다.



위의 2x 의 그래프에 로그를 씌우니 아래와 같이 직선이 되었다.

신기하다. (알고보면 신기할 것도 없지만^^)




암튼 결론은 기하급수적 증가와 같은 제곱형식의 그래프에 로그를 씌어주면 직선이 된다는 것이다!


그럼 통계분석시 왜 임금과 같은 값에 로그를 취해주는 경우가 많은가?


1. 임금과 같이 단위수가 너무 큰값을 다른 자릿수가 작은 변수들과 함께 회귀분석하면 결과가 왜곡될 수 있어서 작은 숫자로 만들려고

(http://m.blog.naver.com/parbo/220602805699)


2. 독립변수와 종속변수의 변화관계에서 절대량이 아닌 비율을 보려고

(추가설명) 자연로그 취하는 이유


3. 비선형관계를 선형으로 만들


"로그 변환을 하면 상대적으로 작은 값에 몰려 있는 데이터의 모양이 펴지면서 좌우대칭 형태로 분포의 모양이 달라진다." (http://datum.io/tag/log/)

NewImage

NewImage

위와 같이 분포가 극단으로 치우쳐저 있는 경우 (임금같이) 분포를 비교해보기 위해 로그가 용이하기도 하다.




위의 로그공식에 보았듯이,

로그를 취하면 로그의 성질에 의해 곱하기가 더하기로, 나누기가 빼기로 바뀌어 버린다.

곱하기가 더하기로 바뀌고, 나누기가 빼기로 바뀐다는 것은 참 신기하다.



자연로그에 대해

http://blog.daum.net/jhr2580/4631




댓글