KBS 지지율 그래프 논란으로 말들이 많다. 그런데 지지율 엑셀 그래프 문제는, 어떤 사악한(?) 의도가 들어 있다기 보다는, 그냥 엑셀과 통계를 잘 모르는 사람이 만든 실수라고 봐야 한다.
KBS는 사악하지 않다, 다만 멍청할 뿐
특별히 보정을 넣지 않는 한, 엑셀에서의 막대그래프는 최저값과 최고값, 평균, 항목간의 수치차이, 분포, 이산률등을 따져서 자동으로 세로축 범위와 급간 높이를 조절해서 최적화된(?) 형태로 그려진다. 문제의 수치를 각자 컴퓨터에서 엑셀 열고 입력한 후, 차트 삽입을 해보면 기사와 똑같은 그래프가 나온다. 고로 기자가 일부러 왜곡한 것이 아니라는 것.
사실, 41.3%와 40.6%사이의 0.7%가 저 정도 높이차이가 나도록 그리면 안되는 이유 따위는 없다. 이건 해석의 문제이니까. 어떤 경우에는 0.7%가 아주 작은 차이일 수도 있고, 어떤 경우에는 0.7%가 아주 큰 차이일 수도 있고. 그건 기계는 판단할 수 없는 일이다. 그래서 해석이 필요한 거고.
문제의 그래프에서 독립된 2항끼리의 Column Chart를 이용한 지지율 비교 자체는 문제가 없으나… 제각기 독립된 여러개의 그래프를 나란히 붙여놓았다는 게 문제의 시발. 즉, 세종시장 지지율 그래프만 올린 거라면 아무런 문제가 없었을테지만, 서울시장 지지율 그래프랑 붙여놓으니 문제가 되버린다. 왜? 그래프마다 척도가 다른 데 그걸 붙여놓았으니까.
멍청한 KBS를 위한 차트 개선법
이런 그래프를 예쁘게 그리는 방법은 여러가지가 있겠으나.
1) 세로축을 고정한다. – 모든 그래프의 세로축을 100%를 max로 고정해두면, 아주 객관적인 차트가 나오게 될 것이다. 다만, 모든 후보의 지지율이 고루 낮은 몇몇 지역의 경우 상단 부분이 휑하게 뚤릴테고, 또 90% 정도 몰빵 지지율이 아닌 이상 상단부분에 막대가 닿을 일이 없으니 공간 낭비에 엄청 못생긴 차트가 나온다. 대안으로 각 지역중 현재 최고 지지율을 보이고 있는 후보의 지지율을 세로축 max값으로 지정하는 방법도 있으나, 약간 완화될 뿐 근본적인 해결은 될 수 없다.
2) 좀 더 간단하게는, 각 지역별로 따로 분리해서 차트를 만들지 말고, 모든 지역의 후보들을 한 차트에 집어넣으면 괜찮은 Clustered Column Chart로 만들 수 있다. 다만, Clustered Column Chart로 굳이 만들 필요가 있는가 하는 점.
그러나, 이번 사례같은 경우, 전체 지역을 한번에 보면서, 각 지역별 새누리당의 고정불변 35% 지지율을 확인하고, 반새누리당 후보가 해당 지역에서 몇%를 잡느냐가 이번 선거의 관건이다… 라는 해석을 전달하고자 했던 거라면 이것도 나름 괜찮은 차트가 될 수 있었겠다.
꼭 막대여야 할까? 유형별 차트 활용법
사실, 이런 데이터의 해석에 사용하라고 파이차트가 있는 겁니다. 파이차트를 썼으면 논란 끝! 말 나온 김에, 어떤 경우에 어떤 차트를 사용하는 것이 좋은가 풀어보자.
다만, 모든 차트는 차트 작성자의 의도(!!!)가 들어가는 것이 당연하다. 주어진 데이터를 어떻게 해석해서 차트를 보는 이에게 인포메이션을 전달할 것인가 하는 문제이기 때문에. 따라서 KBS 기자가 만든 그래프도 틀린 것은 아니다!!!! 그저, 무지로 인해 잘못된 비쥬얼라이제이션을 만듦으로써 기자의 원래 의도(?)와는 달리 오해되는 인포메이션이 전달되었을 뿐이다.
잡설은 그만하고, 어떨 때 어떤 차트를 써야 할까?
1. 세로 막대? 가로 막대?
이 차트들은 여러 항목들 간의 수치 비교를 할 때 사용한다. 대부분의 경우 같은 데이터를 가지고 세로 막대와 가로 막대 중 아무거나 사용해도 크게 상관없는 경우가 많지만, 굳이 의미를 부여해서 두가지의 쓰임새를 구별해보자면,
1) 항목 수가 많고, 긴 이름의 항목 레이블을 같이 표시해야 한다면, 세로보다 가로가 좀 더 예쁘게 그려질 수 있다.
2) 보통 세로 막대는 항목간 수치비교에 대해 순위를 강조하고 싶을 때 사용하면 직관적으로 이해하기 쉽다. 누가 1등이고 누가 꼴찌인지 알리는게 목적이라면 세로 막대가 좋다. (아마도 KBS기자도 그래서 세로 막대를 쓴 것 같긴 하다.)
3) 가로 막대의 경우 명시적/잠재적 ‘목표’가 있는 데이터를 표시할 때 쓰면, 해당 목표까지 얼마나 남았는지 이해하기 쉽다. 예를 들어, 학생들의 성적을 세로 막대로 표시하면 등수를 직관적으로 알기 쉽지만, 가로 막대로 표시하면 100점 만점에 얼마만큼 도달했는지 이해하기가 쉽다.
2. 단일 기준에 대한 항목간 비율을 보여줘야 한다면 파이형 차트로!
한가지 기준에 대해 각 항목들이 어느 정도 점유율을 가지고 있는지 가장 쉽게 보여주는 방식은 Pie Chart가 된다.
주의할 점은, 파이형 차트는 비율을 보여줄 뿐이지, 절대수치를 비교하는 데에는 적합하지 않기에, 서로 다른 몇개의 클러스터에 대한 파이형 차트들을 한 번에 보여주면 절대수치값에 대해 오판을 불러올 수 있다.
아래의 예는 지난 대선 때 서울과 인천의 박/문 두 후보의 득표수에 대한 파이그래프이다.
이 차트만 보면 서울과 인천에서는 박빙으로 사이좋게 일승일패씩 주고 받았다라는 해석도 가능하다.
그러나 아래의 누적 세로 막대형 차나 세로 클러스터 차트를 보고 오시라.
3. 누적형과 클러스터형으로 눈속임을 극복해 보자
서울과 인천간 투표수의 절대값 및 각 지역에서의 후보자간 득표차이를 보면, 비슷한 득표율이라는 명목하에 어떤 수치들이 숨겨져 있는지를 볼 수 있다. 서울에서의 1% 득표율의 차이는 실제로는 인천의 4배에 달한다!! 기본 유권자수가 다르다는 것이 파이형 차트에서는 제대로 보이지 않는다!!
물론 대선의 경우와는 달리, 이번 지방선거는 각 지역별로 독립된 단위이므로, KBS 기자가 각 지역별 후보들의 지지율을 2후보만으로 묶어 상대적인 차이를 보여주고 싶었다면, Pie Chart를 쓰는 것이 가장 모범답안이었을게다.
누적형 차트는 각 계열들의 합을 하나의 막대그래프로 표현함으로써 절대값의 비교가 수월하고, 각각의 막대그래프에서 개별 카테고리들이 차지하는 비중을 함께 보기에 좋다. 대신 직접적으로 계열들끼리 비교하기에는 직관적으로 보이지 않는다는 단점이 있다.
클러스터 차트는 각 계열별로 비교할 수 있도록 계열들을 그룹화한다. 누적형에서 직관적으로 알아보기 어려웠던 계열간 비교가 쉽게 가능하다. 다만, 전체 합을 한 눈에 알아보기는 어렵다.
4. 변화 추이는 꺾은선형, 영역형 그래프를 활용
막대형 차트의 변형으로, 시간의 변화처럼 연속되는 축상에서 값이 변화될 때 꺾은선형 차트를 사용한다. 아래 사례에서 지난 4회의 대선동안 시간에 따른 각 진영 후보들의 득표수 변화를 쉽게 알 수 있다. 강력한 제 3후보가 등장한 대선에서는 보수진영 후보보다 민주진영 후보가 더 영향을 받았다든지, 보수진영후보는 시간이 갈수록 꾸준히 득표수가 올라가고 있다든지 하는 해석을 얻을 수 있겠다.
비슷하게는 누적의 변화를 연속축상에서 표현하기 위해 영역 차트를 사용한다. 보통 시간에 따른 누적값의 변화 및 각 부분의 비율을 함께 표현하고자 할 때 쓴다.
역시 아래 사례에서 지난 4회의 대선동안 시간에 따른 전체 투표수의 변화 및 각 진영 후보가 얻은 표의 비율을 한꺼번에 볼 수 있다. 18대 대선은 나름 빅흥행이었다는 걸 알게 된다.
기타 Bubble Chart, Scatter Chart… 여러가지 Chart들이 있지만, 이런 Chart들을 필요로 하거나 그려야 하는 사람들은 이미 어떤 Chart를 써야 하는지 잘 알고 있는 사람들이므로 이하 생략한다.
사실, 엑셀 차트 그리는 건 하나도 어렵지 않다. 무슨 차트를 왜 그려야 하는지를 파악하는 게 문제지. 따라서 예의 KBS 기자님께 ‘어떻게’를 알려줄 뿐인 엑셀 책을 사보라는 것으로는 근본적인 해결이 되지 않는다. 요즘 IT업계에서 유행하고 있는 Visualization 관련 도서를 적극 추천한다. 트렌드를 좇아가는 앞선 기자가 되시길 바란다.
참조 글: 엑셀도 모르는 KBS의 선거 그래프를 바로 잡아 보자
louis vuitton neverfulStyling up with short hair