기존 조사와 괴리가 큰 김낙년 교수의 소득불평등도
“상위 10%가 전체 소득의 44.87% 차지 ‘세계 2위’”
엊그제 한국의 소득불평등 수준이 미국에 버금간다는 내용의 기사가 하루종일 페이스북 타임라인을 장식했다. 김낙년 교수가 국세청 납세자료를 기반으로 추정한 한국의 소득점유율을 프랑스 파리경제대학의 세계 상위소득 데이터베이스(The World Top Incomes Database)에 올리면서 이 수치를 다른 국가들과 비교한 것이다.
이 링크에 들어가면 김낙년 교수가 올린 (상위 0.01%, 0.1%, 1%, 5%, 10%의) 소득점유율과 경계 소득, 평균 소득 등을 확인할 수 있다. 아래는 위 기사에서 정리한 국가별 상위1%와 10%의 소득 점유율 비교표이다.
나는 김낙년 교수가 통계청에서 발표하는 소득 불평등 지표(지니계수, 5분위 배율 등)의 신뢰성에 의문을 표하면서 국세청 자료를 기반으로 새로운 지표를 연구 중이라는 사실을 듣고 있었다. 이와 관련하여 몇 편의 논문을 발표했다는 사실도 알고 있다. 하지만 파리경제대학에 등재한 자료들을 가지고 국제 비교한 수치를 보고 나니 이것 역시 지나치게 편향된 결과가 아닌가 하는 의문이 들었다.
위 그래프를 보면 한국의 상위 10% 소득 점유율이 44.87%로 미국의 48.16%와 큰 차이가 나지 않는다. IMF 이후 영세 자영업자들의 소득이 제자리 걸음을 하고 비정규직이 많아져서 한국의 소득 불평등이 확대되어온 것은 자명한 사실이다. 하지만 미국에 버금갈 정도로 불평등 정도가 높아졌다는 것은 상식적으로 납득이 가지 않는다.
아래 그림에서 보듯 통계청에서 발표하는 지니계수를 가지고 국제비교한 결과를 보면 한국의 소득불평등도는 OECD 평균 수준이다. 한쪽은 세계 톱 수준으로 불평등이 심하다하고, 다른 한 쪽은 평균 수준에 불과하다고 하니 그 괴리가 너무 심하다.
통계청의 가계 소득 조사는 표본 조사 방식이고, 설문 방식에 의존하기 때문에 과소 보고의 유인이 있다는 한계가 있다. 하지만 시계열을 비교하여 불평등의 추세를 보는데 있어서는 아무런 문제가 없다. 또 다른 국가들의 소득 조사 역시 비슷비슷한 문제들을 가지고 있기 때문에 우리만 그런 문제를 수정하여 국제비교를 할 수도 없는 노릇이다.
그래서 통계청 기반의 소득불평등 데이터들을 아예 믿지 못하겠다고 하는 사람들을 이해하기 어렵다.
마찬가지의 이유로 파리경제대학의 소득불평등 데이터들을 가지고 국제간 비교하는 것도 큰 문제가 없으며 의미있는 작업이라고 생각한다. 하지만 이에 따른 결과가 지나치게 쏠려있기 때문에 해석을 하는데 있어서 신중해야 한다.
사실 나는 김낙년 교수의 데이터 자체에 문제가 있을 수도 있다는 의구심 마저 가지게 되었다. 이제 왜 내가 그런 생각을 하게 되었는지를 설명하고자 한다.
왜 나는 김낙년 교수의 조사에 의문을 표했는가?
가장 먼저 의문이 든 것은 상위 10%의 소득 점유율이 45%에 이르기가 현실적으로 너무 어렵다는 점이다. 김낙년 교수의 논문에 의하면 상위 10%의 평균 소득이 7,000만원 선인데, 이를 기반으로 계산하면 나머지 90%의 평균 소득은 1,000만원이 나오기 때문이다. 이와 관련된 내용은 채훈아빠님이 최근에 올리신 “소득불평등 기사에 대한 짧은 생각” 포스팅을 참고하시면 좋겠다.
하위 90%의 평균 소득은 김낙년 교수가 올린 파리경제대학 사이트에서 직접 확인할수도 있다. 여기서 2012년 기준 수치를 확인해보면 상위 10%의 평균소득은 8,000만 원, 나머지 90%의 평균소득은 1,100만 원으로 나온다.
내가 알기로 근로소득세 납부 기준으로 상위 10%의 평균소득은 1억 1,000만 원, 나머지 90%의 평균소득은 3,000만 원 수준이다. 차이가 너무 심하게 난다.
수치가 하도 이상하여 결국 김낙년 교수의 논문을 읽어보았다. 논문을 읽으면서 몇가지 의문이 풀렸는데, 일단 김낙년 교수의 평균소득 금액 추정 방식은 피케티 방식을 차용한 것이었다.
이는 2012년에 조세연구원에서도 시도한 적이 있는 방식이다. 당시 조세연구원은 상위 1%의 소득 점유율이 16%를 넘긴다고 발표하여 언론에서 난리가 났었고, 기획재정부에서는 이 자료가 총급여가 아닌 근로소득금액(소득공제, 비과세 등을 제한 금액)을 사용하여 하위 소득자의 금액을 상당히 과소 추정한 것이라고 반박한 바 있다.
당시 조세연구원 보고서에서 정리한 피케티 방식의 소득 추정방식은 다음과 같다.
김낙년 교수 역시 비슷한 방법을 사용했는데,
1. 인구는 통계청의 20세 이상 인구를
2. 소득은 통계청의 개인소득 자료를
3. 소득분포는 국세청 자료를 활용하였다.
즉, 소득분포만 국세청 자료를 빌려서 구하고, 이를 20세 이상 전체 인구에 입혀서 경계 임금 및 평균 임금을 구한 것이다. 이런 이유로 상위 10%의 평균소득과 하위 90%의 평균소득이 비현실적으로 보이게 되었다.
그럼에도 불구하고 여전히 의문이 남는 것은 상위 10%의 소득점유율이 45%로 미국과 비슷하다는 부분이다. 소득점유율은 전적으로 소득분포에서 나오기 때문에 인구를 뭘로 적용했는지는 상관이 없다. 만약 소득분포를 잘못 파악했다면 소득점유율은 물론이거니와, 상위 10%의 경계 임금 및 평균 임금도 모두 틀리게 된다.
김낙년 교수의 논문에서 소득점유율을 구한 구체적인 과정을 수치로 확인하려 했으나, 방법론과 최종 수치만 나와있어서 과정을 확인할 수 없었다.
그래서 할 수 없이 내가 직접 국세청 자료를 받아 상위 10%의 소득점유율을 구해보기로 했다. 이런 작업은 해보면 생각보다 그리 어렵지 않다. 사람들이 지레 겁먹거나 귀찮아서 안해볼 뿐이다.
먼저 김낙년 교수는 근로소득과 종합소득, 금융소득 자료를 가지고 소득분포를 계산하였다. 하지만 여기서 금융소득이 미치는 영향은 0.5%p에 불과하므로 나는 금융소득 부분은 무시하기로 했다. 따라서 근로소득과 종합소득만 합하여 소득분포를 구할 것이다.
과정은 다음과 같다.
1. 근로소득을 구간별로 정리한다.(과세 대상과 면세 대상 자료 합치기)
2. 종합소득을 구간별로 정리한다.
3. 종합소득에 포함된 근로소득을 구간별로 정리한다. (구한 근로소득을 총급여 기준으로 환산)
4. 구간별로 1과 2를 더하고 3을 뺀다.
5. 4를 이용하여 상위 10%의 소득 점유율을 구한다.
1. 근로소득
국세청의 2012년 근로소득 자료는 아래와 같다. 과세 대상자가 1,060만 명이고, 이들의 총급여가 422조에 이른다. 하지만 소득 공제, 비과세 등으로 과세 미달에 해당하는 저소득층 인원이 510만 명, 이들의 총급여가 44조다. 과세 대상자와 미달자의 자료를 구간별로 더하여 정리한 결과는 아래와 같다.
인원과 소득으로 누적 비중을 구하면 아래와 같다.
아래 표를 보면 상위 6.68%의 소득 점유율은 25%다. 또 상위 15.52%의 소득 점유율은 43.6%다. 상위 10%의 소득 점유율을 구하기 위해선 위 2개 값을 보간(補間, interpolation; 딱 떨어지지 않는 자료의 값을 표와 그래프를 통해 평균하여 추정) 해야 한다.
이런 상황에서 김낙년 교수는 파레토 보간을 사용했다. 인구의 누적 비중과 소득의 누적 비중의 분포가 다르기 때문이다. 하지만 6천만 이하와 8천만 이하 사이만 놓고 본다면 사실 선형 보간을 한다고 하더라도 큰 차이는 나지 않는다. 따라서 간편하게 선형보간을 해보면 상위 10%의 소득 점유율은 31.99%가 나온다.
2. 종합소득
국세청의 2012년 종합소득 자료는 아래와 같다. 과세 대상자가 435만 명이고, 이들의 총 소득금액이 126조 원이다.
엑셀에서 정리한 결과…
인구와 소득의 누적 비중은 아래와 같다. 상위 10%의 소득 점유율은 보간이 필요없을 정도로 근사치가 바로 눈에 보인다. 그래도 선형보간을 해보면 상위 10%의 소득점유율은 54.33%다.
3. 종합소득에 포함된 근로소득
국세청에서는 근로소득자의 종합소득 신고 자료도 올려놓았다. 이에 해당되는 인원이 120만 명이고, 이들의 총 근로소득금액은 39조 원이다.
문제는 상기 소득 금액이 급여가 아니라 소득 공제/비과세 등을 제한 근로소득 금액이라는 점이다. 이를 총급여 기준으로 바꿔줘야한다. 따라서 근로소득세 자료에서 총급여과 근로소득의 환산비율을 구하여 이를 위 자료에 연산할 것이다.
먼저 근로소득의 총급여와 근로소득의 환산비율을 구하면 아래와 같다. 저소득자일수록 소득 공제가 많아 환산비율이 낮아진다.
위에서 구한 환산비율을 초기 자료에서 구간별로 나누면 종합소득세에 속한 근로소득자의 총급여액을 구할 수 있다.
4. 근로소득 + 종합소득 – (종합소득 내에 중복된 근로소득)
1과 2를 더한 후 3을 빼면 된다. 그렇게 엑셀에 정리한 값은 아래와 같다.
5. 상위 10% 소득점유율 구하기
최종적으로 도출한 인구와 소득의 누적 비중은 다음과 같다. 상위 6.73%의 소득점유율은 29.61%, 상위 14.88%의 소득점유율은 46.67%. 따라서 상위 10%의 소득점유율은 36.45%이다.
그래프로 보면 아래와 같다. 결국 상위 10%의 소득 점유율을 각 자료별로 정리하면 이렇게 된다.
내가 간략히 구해본 상위 10%의 소득점유율은 36.45%다. 볼록한 그래프 모양을 하고 있는 상황에서 선형 보간을 하면 추정 값이 다소 낮아지므로 정확한 수치는 36.45%보다 조금 높은 37% 수준이 아닐까 한다. 아무튼 김낙년 교수 자료에서 제시한 45% 보다는 상당히 낮은 수치이다.
상위 10%의 소득점유율이 37% 수준이라고 해도 OECD 평균보다는 높은 편에 속한다. 하지만 미국과는 11%p나 차이가 나기 때문에 통상적인 체감 수준에 가깝게 된다.
난 2012년의 상위 10%의 소득 점유율만 구하면 되었기 때문에 상당히 간단한 과정을 거쳐 값을 도출할 수 있었다. 하지만 김낙년 교수는 과거 시계열 자료에 모두 적용할 수 있는 방안을 강구해야했기 때문에 훨씬 복잡한 과정을 거쳤을 것이다. 또 파레토 보간이라는 귀찮은 과정도 수반된다.
그렇기에 나는 그런 과정 속에서 혹시라도 계산상의 오류가 있지나 않았을까 하는 생각을 해 본다.
ps. 계산과정에 쓰인 엑셀 자료를 첨부파일로 동봉하니 관심있는 분은 참조하시길
* 아래는 김낙년 교수의 논문에 나오는 소득점유율 추정 방법을 옮긴 것이다.
(A) 종합소득과 근로소득의 소득계급별 통계를 합산하기 위해서는 양자의 중복되는 부분을 추산하여 배제할 필요가 있다. 종합소득 자료에는 근로소득을 포함한 소득종류별 내역이 소득계급별로 제시되어 있지만, 그 소득계급 구간이 종합소득금액 기준으로 되어 있기 때문에 그로부터 근로소득의 계급별 분포를 알기 어렵다. 여기서는 소득 계급별로 근로소득은 종합소득 규모와 비례한다(즉 종합소득 금액 중에서 근로소득의 비중이 계급구간별로 일정하다)는 가정을 하였다8. 그리고 소득계급별로 종합소득 금액에서 근로소득 비중을 구해 이를 종합소득 계급구간의 하한과 상한에 곱하면 근로소득 기준의 계급 구간이 추정된다. 이를 전체 근로소득 통계로부터 공제하면 되는데, 양자의 소득계급 구간은 서로 일치하지 않는 문제가 생긴다. 이에 대해서는 전술한 식(8)~(9)의 보간법을 이용하여 소득계급 구간을 맞춘 다음, 소득계급 구간별로 중복 부분을 배제한 근로소득 통계를 구하였다.
(B) 이상 (A)로부터 얻은 근로소득 통계는 근로소득 금액 기준9이므로 이를 급여총액 기준으로 전환할 필요가 있다. 이 때 필요한 소득계급별 전환율(즉 급여총액/근로소득금액)은 『연보』에서 구할 수 있다. 하위의 소득계급으로 갈수록 비과세나 소득공제가 많기 때문에 전환율이 높아진다. 예컨대 2010년의 경우를 예시하면 최상위인 5억원 이상 구간은 1.058이고, 최하위인 1천만원 미만 구간은 2.459로 점차 높아진다. 이 때 소득금액뿐만 아니라 소득계급 구간도 함께 조정해 준다10.
(C) 한편 종합소득 통계는 종합소득 금액 기준으로 되어 있는데, 그 중에는 근로소득의 경우만 근로소득 공제가 필요경비로 처리되어 공제되어 있다. 이를 급여총액 기준으로 바꾸기 위해서는 그 부분만큼 감안해서 더해줄 필요가 있는데, 그 소득계급별 전환율은 (B)의 것을이용하면 된다. 근로소득 금액이 급여총액 기준으로 조정되면 이를 포함하는 종합소득 금액도 그 만큼 늘어나게 되는데, 그에 따라 종합소득 금액의 계급구간(즉 하한과 상한)도 종합소득 금액이 늘어난 만큼 조정해 준다.
(D) 앞의 (B)와 (C)에서 구한 근로소득과 종합소득은 중복 부분이 배제되었고 모두 급여총액 기준으로 조정되었으며, 이제 이를 소득계급 구간별로 합산할 수 있게 되었다. 다만 두 통계의 소득계급 구간이 서로 어긋나 있기 때문에 소득계급별로 합산하고 양자를 일치시킬 필요가 있다. 이를 위해서는 전술한 식(8)~(9)의 보간법을 이용하였다.
(E) 이렇게 구한 소득계급별 인원수와 소득을 전제로 전술한 Piketty and Saez(2001: 39)의 Pareto 보간의 방법에 의해 각 그룹(상위 1% 등)별로 경계소득과 그 그룹의 평균소득을 구한다.
둘째, 1995-2004년의 시기는 자료가 소략해지기 때문에 그로부터 소득계급별 급여총액을 복원하기 위해서는 추가적인 작업이 필요하다. 먼저 종합소득세 자료의 경우 소득계급 구간은 과표 기준으로 되어 있고 소득금액은 종합소득 금액 기준으로 되어 양자의 불일치를 조정해야 한다. 이를 위한 정보는 다음과 같이 자료에서 도출 가능하다 즉 종합소득세는 과표 기준의 계급구간별로 소득금액과 산출세액 및 세율 통계가 제시되는데, 세율과 산출세액을 이용하면 구간별로 과표를 도출할 수 있고, 이것과 종합소득 금액을 비교하면 계급구간별로 소득공제 금액 또는 과표 대비 종합소득금액 배율(=종합소득금액/과표)을 구할 수 있다. 이 배율을 이용하면 소득계급 구간을 과표 기준에서 소득금액과 동일한 종합소득 금액 기준으로 전환할 수 있다.
한편, 근로소득 통계는 소득계급(과표 기준)별로 과표가 제시되어 있는데, 이를 비과세 소득과 소득공제 분을 감안하여 급여총액 기준으로 전환할 필요가 있다. 이 때 『연보』에서는 과세대상 근로소득11을 알 수 있지만, 그 소득계급별 통계가 없다. 따라서 소득계급별 과표를 근로소득 금액이나 급여총액으로 바꾸어 주기 위한 전환율을 추정할 필요가 있다. 여기서는 2005년의 소득계급별 전환율(즉 급여총액/근로소득금액 또는 근로소득금액/과표의 배율)을 이용하되, 그로부터 도출되는 과세대상 근로소득이 매년 자료의 수치와 일치하도록 조정을 가했다. 2005년의 소득계급별 정보를 1995년까지 소급 적용할 경우 실태와 괴리될 수 있는 가능성을 배제하기 어렵지만, 1995년까지의 과세대상 근로소득이 추정치가 아니라 자료에서 얻은 것이기 때문에 괴리는 크지 않을 것으로 생각된다.
또 하나 근로소득과 종합소득간의 중복 부분을 추정하기 위한 정보는 2005년 이전에는 얻을 수 없다. 여기서는 2006년에 소득계급별로 중복된 인원수와 소득금액이 전체 근로소득에서 차지하는 비율을 구해 이를 이전 시기에 소급 적용하였다. 앞 시기로 갈수록 종합소득 신고의 커버리지가 축소되고 있고, 근로소득과의 중복도 줄어들었을 것으로 생각되지만, 중복 부분의 추정에서 어느 정도 오차의 발생은 불가피하다고 생각된다. 1979-85년의 경우는 이러한 중복 부분의 추정을 시도하지 않았다.
원문: 마왕의 서재