본문 바로가기
Stata

Stata에서 OECD 데이터 자동으로 불러오기 (sdmxuse)

2021. 7. 17.

 

. ssc install moss

. ssc install sdmxuse  // 이 패키지가 위의 moss를 필요로 함

 

데이터 목록을 살펴보는 것부터 stata에서 할 수 있지만 개인적으로는 데이터셋 고르는 건 웹(stats.oecd.org)에서 하고 sdmx코드를 긁어와서 사용하는 것을 추천.

 

=================

데이터셋 목록 불러오기

. sdmxuse dataflow OECD, clear

* clear는 현재 로딩된 데이터를 지우는 것

다음과 같은 데이터가 로딩된다. 데이터 목록이다.


Contains data
  obs:         1,488   

 

이제 여기서 dataflow_id를 하나 골라서 구조를 보려고 한다.

세금 관련 데이터 REV를 보겠다.

. sdmxuse datastructure OECD, clear dataset(REV)

Order of dimensions: (GOV.TAX.VAR.COU) // 라고 출력이 되면서 다음과 같은 데이터가 로딩된다.

 

 



이제 본격적으로 데이터를 불러올 차례다. 아래에서 demension은 순서대로 입력해야 하며 마침표(.)로 구분한다. 해당 dimension에 아무것도 입력하지 않으면 해당 dimension의 모든 코드를 불러온다. 해당 디멘션에서 여러 코드를 불러오려면 +로 구분한다.

    . sdmxuse data OECD, clear dataset(REV) dimensions(NES.4100.TAXNAT.KOR+USA)

2 serie(s) imported

데이터가 들어왔다.

 

첫번째 디멘션에 모든 코드를 불러오려면 아래와 같이 그냥 빈칸으로 두면 된다.

 . sdmxuse data OECD, clear dataset(REV) dimensions( .4100.TAXNAT.KOR+USA)

 

기간을 설정하지 않으면 모든 연도가 다 들어오고 기간을 설정하려면 맨 뒤에 아래를 추가해준다.

 start(1993)

 

 

 

 

옵션

 

 

 

옵션으로 timeseries를 붙이면 다음과 같이 불러온다.

 . sdmxuse data OECD, clear dataset(REV) dimensions(NES.4100.TAXNAT.KOR+USA) timeseries
2 serie(s) imported

원래 국가명이 로케이션이라는 변수의 값으로 들어갔었는데 타임시리즈 옵션을 주면 국가명 자체가 변수가 되면서 long 데이터가 wide로 된다.

 

 

 

 

 

 

옵션으로 mergedsd 를붙이면 Data Structure Definition (코드 설명)을 추가한다. 

<없을 때>

<넣으면>

 

 

 

 

 

 

attributes 옵션을 추가하면 추가적인 정보를 더 출력한다.

 < attributes 옵션 없을  때>

 

< attributes 옵션 넣었을 때> - time_format, unit 등 의 정보가 추가됨

 

 

 

 

 

 

 

아래와 같이 stats.oecd.org 사이트에서 출력했던 것을 sdmx 코드를 긁어와 똑같이 또는 변형하여 쉽게 불러올 수 있다.

뒷부분의 기간형식만 약간 수정해주면 된다.

    start() defines the start period. You can specify the exact value (e.g. 2010-01) or just the year (e.g. 2010).

    end() defines the end period.

 

 

분석을 하기 위해 문자로 된 string을 다음과 같이 변환해주는 것이 필요할 수 있다.

 

. encode cou, generate(coun)

 

 

string(문자)로 되어있던  연도를 숫자형식으로 바꿔준다.

. destring time, replace
time: all characters numeric; replaced as int

 

이제 xtline (Panel data line plot) 을 다음과 같이 그려볼 수 있다.

 

매년 새로 업데이트되는 OECD데이터를 반복적으로 불러올 때 웹에서 불러오는 것보다 빠르게 작업할 수 있다.

 

 

참고 : sdmxuse 도움말

 

 

댓글