본문 바로가기

통계 , 수학45

표준화 (z-score) 어떤 값을 표준화하는 것은 그 값에 평균을 뺀다음 표준편차로 나누어주는 것이다. 한마디로 편차를 표준편차로 나누어주는 것이다. (이렇게 하면 보통 97.7%의 값이 절대값으로 2 안에 들어오게 된다. (표준편차는 보통 시그마로 표현함, 평균은 뮤) 2017. 7. 6.
상관계수는 어떻게 구하는가 x와 y 간의 상관계수(상관관계)는 x와 y의 공분산을 x와 y의 표준편차의 곱으로 나누어 구한다. 분자가 되는 공분산이 0이면 당연히 상관계수가 0이 된다. 참고로 공분산은 아래와 같이 구한다. 분모가 표준편차가 들어가는 걸 보면 표준화된 공분산이라고 볼 수 있다. x와 y의 공분산은 아무리 커도 x와 y의 표준편차의 곱 이상이 될 수는 없다. 그러므로 x와 y의 공분산을 x와 y의 표준편차의 곱으로 나누어준다는 것은 공분산을 -1과 1사이의 값이 되도록 표준화하는 것이라고 할 수 있다. 정리하자면 상관계수는 표준화된 공분산이다. 2017. 7. 4.
Variance (분산) & Covariance (공분산) 1. variance;분산 : 평균적인 편차(표준편차)의 제곱 variance에 루트를 씌어주면 표준편차다. 표준편차 구할땐 분산을 먼저 구한다음에 루트를 씌운다. 즉 모든 x값에 대해 x평균과의 차이를 제곱해서 다 더한 다음에 x의 수로 나누면 평균적인 차이의 제곱, 즉 분산이 나온다. 2. covariance; 공분산 : 두 변수간 평균적인 편차의 곱이다. 0에 가까울수록 공동 변화량이 없는거다. 절대값이 클수록 공동 변화량이 큰거다. (상관관계) 2017. 7. 2.
카이제곱 분포 (작성중) 카이제곱 분포, χ2 분포(χ제곱分布, 영어: chi-squared distribution)는 {\displaystyle k}개의 서로 독립적인 표준정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포이다. 이 때 k를 자유도라고 하며, 카이제곱 분포의 매개변수가 된다. 카이제곱 분포는 신뢰구간이나 가설검정 등의 모델에서 자주 등장한다. 카이제곱 분포는 감마 분포의 특수한 형태로 감마 분포에서 {\displaystyle k=\nu /2,\theta =2}인 분포를 나타낸다.{\displaystyle f(x;k,\theta )=x^{k-1}{\frac {e^{-x/\theta }}{\theta ^{k}\,\Gamma (k)}}} 출처 : https://ko.wikipedia.org/wiki/%EC%B9%.. 2017. 5. 8.
허위변수와 교란변수 허위변수 (spurious variable) : X와 Y 두 변수 모두에 영향을 미치며, 이들 간의 공동변화를 모두 설명하는 변수를 의미한다. 즉 X와 Y 사이에는 실제로는 인과관계가 없으나 있는 것처럼 보이게 하는 변수를 말한다. 교란변수(confounding variable): X와 Y 두 변수 모두에 영향을 미치나, X와 Y 사이에도 인과관계가 존재할 경우를 의미한다. 따라서 교란변수의 존재는 X와 Y 사이의 인과관계의 크기를 실제보다 크거나 작은 것으로 보이게 한다. 2017. 5. 8.
분포의 종류 2017. 5. 8.
패널분석에 대해 알아보자! (작성중) 먼저 pooled cross section이 있다. 이것은 주로 n을 늘리기 위함이다. 단, 연도에 따라 독립변수와 종속변수의 관계가 변하지 않는다는 가정 하에서다. 이 때 연도별 특성에 상수항이 달라질 수 있는데 이를 위해 연도 더미를 넣는다. 예를 들면 이런식이다. 기준년 72년을 빼고 각 연도에 해당하는 더미가 들어갔다. 기준년에 비하면 시간이 지날수록 점점 연도더미 변수의 계수값이 낮아진다. 연도가 갈수록 출산아이의 숫자가 줄어든다는 것이다. 84년의 경우 72년( base year)에 비해서 평균적으로 .0545명의 아이를 덜 낳았다(나이 교육 등 다른 조건이 동일하다는 가정에서). 이 모델에서 시간의 더미변수들이 의미하는 것은 교육나이 등 다른 조건들이 동일하다는 조건에서 순수하게 시간에 따른.. 2017. 5. 6.
로그 log 란 무엇인가? (수학) 로그함수는 지수함수(exponential)의 역함수이며, 대수함수라고도 한다. 라는 지수함수가 있을 때, 그 역의 관계를 로그함수를 사용하여 로 나타낸다 dfdf : a를 몇(y)제곱해야 x가 되는가? http://terms.naver.com/entry.nhn?docId=3536995&cid=58577&categoryId=58577 2017. 5. 5.
이중차분법 DID(difference-in-differences ) difference-in-differences 는 두 집단의 difference를 difference한 두 시기로 비교해보는 것이다. 보통 정책 시행 전후로 수혜 집단과 비수혜 집단의 차이를 비교해보는데 쓰인다. 수혜자만을 대상으로 정책 수혜 전후를 비교하는 것보다 수혜자(실험집단)와 비수혜자(비실험집단)을 나누어서 두 시기의 차이를 비교해보는 것이 시간에 따른 일반적인 변화의 영향을 제거한 후 순수한 정책 수혜의 영향만을 볼 수 있다는 장점이 있다. 여기서 우리가 보고자 하는 것은 81년도의 정책,대상집단과 비대상집단의 차이, 그리고 78년도의 정책대상집단과 비대상집단간의 차이를 비교해보는 것이다. (아래의 델타1햇) (참고 : 울드리지 계량경제학) 회귀식은 다음과 같이 구성할 수 있다. 독립변수 = .. 2017. 5. 3.