본문 바로가기
통계 , 수학

Gini's mean differance (GMD)와 지니계수

2017. 8. 4.

참조 : Yitzhaki, Shlomo. 2003. "Gini’s mean difference: A superior measure of variability for non-normal distributions." Metron 61(2):285-316.
 

이것이 Gini's mean differance (GMD)다. 두 관측치간의 평균적인 차이다.


아래에 잘 설명되어 있다.

즉 랜덤으로 두 관측치를 뽑았을때의 차이(절대값)의 기댓값이다.

참조 : Yitzhaki, Shlomo. 1998. "More than a dozen alternative ways of spelling Gini." in Research in economic inequality: Citeseer.


한편 다음은 "분산"을 GMD 방식으로 표현한 것이다.


관측치간 차이 제곱의 절반이다.  아래는 분산의 일반적인 표현이다.

위의 표현은 평균을 쓰지 않고도 표현할 수 있다는 것을 보여주고 GMD와의 유사점을 보여준다.



That is, the GMD is the expected absolute difference between two randomly drawn observations,

while the variance is the expected square of the same difference.



아래는 GMD는 x와 x의 누적분포(순위)와의 공분산의 4배가 된다는 것이다.

 GMD is (four times) the covariance of a random variable with its cumulative distribution, F(X),



여기서 잠깐. 공분산이란 무엇인가. (http://igija.tistory.com/294)


두 변수간 평균적인 편차의 곱이 공분산이다. (분산은 평균적인 편차의 제곱이다; 다른 방식으로는 편차제곱의 평균)


x 와 F(x)의 공분산이 크게 나온다는 것은 x와 순위와의 상관관계가 있다는 것이다. (상관관계는 공분산을 두 변수의 표준편차의 곱으로 나눠준 것이다.)

F(x)는 누적분포이기때문에 공분산은 무조건 0보다 크게 나온다 (기울기가 양수)

Related image


분산은 x와 x의 공분산이다. (아래)

while the variance is the covariance of a random variable with itself. (Yitzhaki, 1998).





GMD를 평균x2 로 나눠주면 지니계수가 된다. (GMD의 표준화. 0에서 1 사이에 오도록)

 The Gini coefficient is the GMD divided by twice the mean. For this definition to hold, the mean must be positive.


Gini coefficient = concentration ratio




댓글