본문 바로가기

통계 , 수학45

회귀분석 진단하기 (with STATA) - 아웃라이어의 진단과 처리 참조 : https://stats.idre.ucla.edu/stata/webbooks/reg/chapter2/stata-webbooksregressionwith-statachapter-2-regression-diagnostics/ Influence fitted value에서 한참 벗어나는 outlier가 있다. 산점도를 그려봤을 때 혼자 멀리 떨어져 있는 애다. 또는 데이터 상에 혼자 지나치게 크거나 작은 값을 가지고 있는 관측치가 있다.이러한 것들은 추정에 왜곡을 가져오게 된다. Studentized residuals are a type of standardized residual that can be used to identify outliers.회귀분석 후 predict r, rstudent . s.. 2017. 8. 8.
다중회귀분석의 가정들 여기서 3번 가정 관련해서 어느정도의 상관관계는 있을 수 있다. 4번과 관련된 것이 중요한데, 중요한 변수가 빠지면 이게 문제된다. 넣고 싶은데 관측이 불가능하거나 측정이 불가능하거나 해서 넣을수가 없는 변수가 있을 수 있다. 이것은 도구변수나 다른 방법들을 통해서... 이러한 문제를 가진 독립변수를 내생성(endogeneity)를 가진 변수라고 한다. 위의 1~4번까지의 가정들이 만족될 경우 추정치는 편향이 없는 추정치라고 할 수 있다. 2017. 8. 7.
통계에서의 효율성 (efficiency) 효율적이라는 말은 분산이 적다는 것이다. 2017. 8. 6.
Gini's mean differance (GMD)와 지니계수 참조 : Yitzhaki, Shlomo. 2003. "Gini’s mean difference: A superior measure of variability for non-normal distributions." Metron 61(2):285-316. 이것이 Gini's mean differance (GMD)다. 두 관측치간의 평균적인 차이다. 아래에 잘 설명되어 있다. 즉 랜덤으로 두 관측치를 뽑았을때의 차이(절대값)의 기댓값이다. 참조 : Yitzhaki, Shlomo. 1998. "More than a dozen alternative ways of spelling Gini." in Research in economic inequality: Citeseer. 한편 다음은 "분산"을 GMD 방식으로 표.. 2017. 8. 4.
설문 응답 편의 참고 : http://ezstat.snu.ac.kr/textbook_sources/chapter_14.pdf 무응답편의(non-response bias) : 설문지는 받았으나... --> 무응답 비율이 얼마나 되면??? - 보통 낮을 수록 가능성이 높다. 그러면 전화로 물어봐서 하거나 follow up을 하는 것이 좋다. 2017. 8. 4.
변이계수란: 표준화된 표준편차 변이계수는 변동계수라고도 함 (coefficient of variation, C.V.) 표준편차( σ {\displaystyle \sigma } )를 평균( x ¯ {\displaystyle {\overline {x}}} )으로 나눈 것이다. 2017. 7. 28.
회귀분석에서 계수값은 분산과 공분산으로 구한다 계수값은 공분산을 분산으로 나누어서 구한다. (OLS) 2017. 7. 7.
exp (익스포넨셜) exp는 자연로그의 역이다. 지수함수는 exp든 밑이 어떻든지간에 (2^x든 100^x든; exp는 약 2.7183) (0,1)을 지나간다. 자연로그함수가 (1,0)을 지나고 대칭(역)이 되므로 그렇다. 그리고 자연로그와 마찬가지로 exp는 y축을 지나는 곳(y절편)에서의 기울기가 항상 1이다. 2017. 7. 7.
왜 자연로그는 비율(%)변화를 나타낼 수 있는가 자연 로그의 성질 중 다음과 같은 성질이 있다. (x가 0에 가깝게 작을때 위가 성립, 물결무늬는 거의 같다라는 의미. 근사치.) 자연로그든 밑이 어떤 로그든 로그곡선은 (1,0)을 지나간다. 그런데 자연로그의 특성은 (1,0)을 지날때의 기울기가 1이라는 점이다. 물론 기울기는 x가 더 커지면 1 이하로 낮아진다. 1부근에서 기울기가 1이라는 아래와 같은 특성으로 인해 위와 같은 성질을 같는다. (desmos.com 사이트에 들어가서 자연로그 그래프를 그려볼 수 있습니다) 그리고 로그는 아래와 같은 일반적 특징을 같는다. 이 특성을 순간변화량(순간기울기)에 적용해보자. (x0이 x1으로 이동할때의 변화량(비율)은 이다. 만약 x0이 100이고 x1이 101이라면 x1/x0은 1.01이 된다. 위에서 보.. 2017. 7. 6.