2022 대선, 여론조사의 패배를 묻다: 괴골 인터뷰 1/2에서 이어집니다.
본질적으로, 여론조사 자체의 품질이 너무 낮다
임예인: ‘여론조사의 실패’에는 여러가지 원인이 복합적으로 작용했군요.
괴골: 그렇습니다. 다만 그걸 한마디로 요약해서 표현하자면… ‘여론조사의 품질이 낮다’는 표현이 가장 적절할 것입니다. 우리로서는 선거 기간 지지율이 실제로 어떻게 변했는지 참값을 알 수가 없으니, 대선 기간 중간에 어떤 조사가 상대적으로 정확했는지 확실히 말할 수는 없습니다. 하지만 대선 직전 조사를 살펴보면, 근접하게 예측한 여조회사가 거의 없다시피 했죠.
임예인: 그러게요. 선거전이 한창일 때는 갤럽의 전화면접 조사가 이재명에게 유리하게 나온다고 알려져 있었는데, 막판 깜깜이 조사에서는 오히려 윤석열에게 유리하게 나오기도 했고요.
괴골: 그 짧은 시간에 조사 방법이 크게 바뀌었을 가능성이 없다고 보면… 여론조사 결과가 천차만별로 나온 데에, 합리적인 이유가 있었다고 생각하기 어렵습니다. 그냥 불량이었던 거죠. 공산품에서도 불량품이 나오듯이, 여론조사 같은 ‘데이터 제품’도 얼마든지 불량품이 있을 수 있어요. 사실 여론을 조사하는 일에 오류가 없을 수는 없습니다. 하지만 그중 상당부분은, 여론조사회사들이 이런저런 실험을 통해 보정하거나 회피할 수 있는 수준의 불량이라고 생각합니다. ‘품질 관리’에 실패한 거예요.
임예인: 20대 총선을 기점으로 그래도 많이 노력했다고 알고 있었는데.
괴골: 가상번호 방식 도입등, 분명히 개선 노력은 있었다고 생각합니다. 하지만 그래도 전반적인 품질이 기대만큼 나오지 않는 본질적인 이유는 한국의 여론조사 회사들이 영세하다는 점입니다. ARS를 주력으로 하는 회사 같은 경우에는 직원이 3명이 전부인 회사도 많으며, 전화면접을 주력으로 삼는 회사도 200명 내외에요. 꼭 필요한 운영인원 및 조사 인원을 제외하면, 실제 결과를 분석하고 조사 품질을 올리기 위한 분석가들은 부족할 수밖에 없는 환경이죠.
임예인: 겨우 3명이요? 그 정도 인원으로 데이터를 보정하고 분석하는 일이 가능할까요?
괴골: 따라서 대부분의 여조회사들은 선거 같은 특정 이벤트에 맞춰, 언론사의 조사의뢰를 받아 한시적으로 돈을 버는 ‘떴다방식 장사’를 할 수밖에 없습니다. 제가 과한 표현을 하는 게 아니라, 실제 대한정치학회 보고서에서 나온 표현이에요.
이런 환경에서 업체들이 조사 품질 관리를 제대로 할 가능성은 낮죠. 조사를 의뢰하는 언론들이라도 예산을 더 책정하고 조사 품질을 검증하면 모르겠는데, 그것도 안 됩니다. 언론사의 기자들은 기자협회에서 스스로 만든 ‘선거여론조사 보도 준칙’조차 거의 지키지 않고 여론조사를 오남용하고 있죠. 한마디로 총체적 난국입니다.
임예인: 떨어지는 여론조사의 품질을 보강하기 위한 노력 같은 건 없을까요?
괴골: 문제에 대한 인식 자체는 이미 공유되고 있는 것 같습니다. <유,무선 전화 비율 등 바람직한 여론조사 방법에 관한 연구>(대한정치학회, 2017) 같은 보고서도 나오고 있고요. 하지만 자정 노력이라는 게 늘 그렇듯, 확실한 해결책은 너무나 요원해 보입니다. 이번 대선에서도 여지없이 똑같은 문제가 드러난 거고요.
임예인: 부정확한 여론조사가 실제 대선 결과를 뒤흔들었다는 얘기마저 있는데요.
괴골: 여론조사는 정치적 의사결정의 기초자료로 쓰이기 때문에, 여론조사 결과가 정확하지 않으면 여러가지 문제가 발생합니다. 말씀하신 것처럼 지지율이 높은 사람에게 더 지지율이 쏠리는 현상, 이른바 밴드 왜건 효과(bandwagon effect)는 대표적이죠. 댓글로 여론을 조작해도 실형을 살 수 있는데, 공식으로 공표되는 여론조사로 여론을 조작할 수 있다면 훨씬 더 큰 문제가 아니겠습니까? 심지어 정당들이 공식 경선에서 여론조사 결과를 반영하고 있습니다. 여론조사 결과가 정확하지 않으면, 경선 투표 자체가 왜곡되는 겁니다.
임예인: 문제가 상당히 심각한 것 같은데요. 어떻게 해야 할까요?
괴골: 편향 자체를 막기는 힘듭니다. 미국도 못 한 일인 걸요. 하지만 적어도 최저 품질을 담보할 수 있는 제도적 장치를 만들 필요는 있다고 생각합니다. 여론조사 회사들이야 싫어하겠지만, 식품에도 최소한의 식품위생법이 필요하듯, 여론조사도 최소 허들을 높일 필요가 있다고 봅니다. 여론조사가 정책은 물론 선거를 좌지우지할 정도의 영향력을 갖게 된 상황이니까요.
임예인: 결국 규제가 필요하다는 말씀이신데요. 규제는 자칫 자율성을 옥죌 양날의 칼이 될 수도 있잖아요. 구체적으로 어떤 방법이 있을까요?
괴골: 언뜻 생각나는 것으로는, 선거 여론조사 업체의 최소 인원을 지금보다 높이는 방법이 있습니다. 소위 ‘떴다방 식’ 업체들의 난립을 막는 거죠. 또 대선/지선 등 전국 단위 선거가 끝나면 업체 자체적으로, 아니면 여러 업체가 공동으로 상세한 분석 보고서를 내도록 하는 방법도 생각해볼 수 있을 것 같습니다. 상시적인 품질 조사가 의무가 되면 아무래도 업체들이 더 신중하게 조사를 할 테니까요. 조사 의뢰자들 역시 터무니없이 저렴한 예산으로, 하루 단위 등 지나치게 짧은 기간동안 언론의 입맛에 맞는 질문을 포함시켜 날림으로 조사를 요청하는 일도 줄어들지 않을까 합니다.
임예인: 여론조사 업체들이 비교적 자율적인 방법으로 문제를 개선할 수는 없을까요?
괴골: 또 여론조사 업체들이 원데이터(raw data)를 가능한 상세히 공개하도록 하는 방법도 생각해볼 수 있습니다. 일반 대중들이 원데이터를 들여다보고 있진 않겠지만, 최소한 연구자들, 전문가 집단을 통해 외부 검증을 받는다면 일종의 자율 규제와 같은 효과를 얻을 수 있겠죠.
메타분석, ‘여론조사의 실패’를 극복할 대안이 될 수 있을까?
임예인: 최근에는 여론조사의 ‘메타분석’도 시도되고 있습니다. 여러 여론조사 데이터를 한꺼번에 모아서 분석하는 건데요. 메타분석이 여론조사의 실패를 극복할 수 있을까요?
괴골: 일단 메타분석도 이번 대선 결과를 제대로 예측하지 못했을 거라는 점을 먼저 말씀드리고 싶습니다. 물론 두 후보의 지지율 격차가 10%p 이상으로도 나왔던 개별 여론조사회사 결과보단 나았지만요. 그래도 한 3~4%p 정도는 틀리지 않았나 싶어요. 어느 정도 틀렸는지 확신을 못하는 이유는 메타분석 사이트들도 공표금지기간 직전까지만 조사결과를 공개하고 있기 때문이에요. 결국 깜깜이 기간 동안 얼마나 틀렸을지는 알 수가 없는 거죠.
임예인: 하지만 깜깜이 기간 직전까지 그래프를 보면, 개별 여론조사에 비하면 메타분석의 정확도가 확실히 높았던 것 같은데요. 왜 메타분석 사이트도 결국 틀렸을 거라고 보세요?
괴골: 그건 메타 분석 사이트들의 집계 방법론이 대체로 비슷하기 때문입니다. SBS나 MBC 둘 다 칼만 필터(Kalman filter)라는 통계적 알고리즘을 써서 집계를 하는데요.
임예인: 칼… 만… 필…. 터……
괴골: 복잡한 개념이니 간단하게만 설명하자면, 측정치에 기본적으로 잡음이 포함되어 있다고 보고 그 잡음을 체계적으로 제거해서 실제 측정변수의 값을 추정하는 방법입니다. 개인적으로도 칼만 필터 방법으로 집계수치를 계산하고 있었는데, 제가 계산한 결과와 두 메타분석 사이트의 결과가 거의 유사했어요.
그리고 공표금지기간 동안 조사된 지지율 수치를 넣어서 계산해보니, 공표 직전보다 두 후보의 격차가 더 커졌다는 결론(약 3~4%p)이 나왔습니다. SBS나 MBC에서는 더 좋은 보정 방법을 써서 다른 결론을 내렸을 수도 있겠지만, 크게 달랐을 거 같지는 같습니다.
임예인: 그래도 메타분석을 하면 개별 여론조사 회사들보다 훨씬 많은 데이터를 이용할 수 있으니, 더 좋은 결과를 낼 수 있을 것 같은데요.
괴골: 데이터 모델링 분야에서는, “쓰레기를 넣으면, 쓰레기가 나온다(garbage in, garbage out)”는 말이 있습니다. 메타분석을 한다 해서 원데이터의 범위를 크게 넘는 결과를 산출할 수는 없어요. 여론조사 회사들이 원데이터를 풍부하게 공개한다면 여러가지 예측모델을 적용해서 조금 더 좋은 예측 모델을 만들 수 있을지도 모르겠지만… 지금은 공개 범위가 상당히 제한되어 있으니까요.
임예인: 결국 메타분석도 무의미한 걸까요?
괴골: 아니요, 그렇지는 않습니다. 그럼에도 집계 모델링이 시도되고 있다는 점은 고무적입니다. 유권자 입장에서도 경마장 전광판처럼 단순히 승패위주의 여론조사 수치가 난무하는 것을 보는 것보단, 그래도 체계적으로 정리된 수치를 보는게 훨씬 판단에 도움이 될 거고요. 앞으로 더 많은 원데이터가 공유되고, 더 많은 집계 모델이 시도되길 바랍니다.
여론조사가 너무 과대평가되고 있는 건 아닐까?
임예인: 여론조사가 사회 전반적으로 큰 영향을 끼치고 있습니다. 선거만이 아니라 여러 사회 이슈, 여러 정책도 여론조사의 찬성/반대 비율로 결정되는 느낌이 있는데요. 혹시 이런 ‘여론조사 정치’의 문제는 없을까요?
괴골: 어떤 정치적 쟁점이 있을 때, 여론조사 결과가 특정 의견에 힘을 실어주는 경향이 있긴 하죠. 하지만 실제로 여론조사 결과만으로 정책이 결정되는 경우는 많지 않다고 생각합니다. 국회 회의록이나 각종 공청회를 보면, 대부분의 의사결정에서는 여론조사 데이터가 아예 없거나, 있다해도 부가적으로 인용되는 경우가 더 많아요. 그도 그럴 것이, 각종 세세한 정책마다 여론조사로 의견을 묻기는 현실적으로 어렵기 때문입니다.
임예인: 하지만 차별금지법 등 찬반이 첨예한 이슈가 논의될 때마다, ‘충분한 공감대가 있으면’이라는 전제로 논란을 피해가려는 느낌이 있는데요.
괴골: 그렇죠. 여론조사가 중요해지는 것은 말그대로 ‘찬반이 첨예한 이슈’에 한해서입니다. 이런 이슈는 아무리 논의를 해도 관점차가 잘 좁혀지지 않는 이슈들이기 때문이죠. 다만 이때조차 여론조사 결과는 상대적으로 부가적인 정보입니다. 찬반이 6:4라고 해도 ‘40%의 의견을 묵살할 것인가’라는 반론을 쉽게 떨쳐 내기 어렵기 때문입니다.
임예인: 차별금지법을 예로 든 김에 계속 여쭤보자면, 정치인들이 반대 여론을 핑계로 정책 결정을 미루는 경향이 있잖아요. 이는 결과적으로 차별금지법에 찬성하는 의견을 묵살하는 셈이 되고 있고요.
괴골: 그런 경향이 있는 건 사실입니다. 그렇다고 정치인이 첨예한 이슈마다 확고한 의지로 계속 하나의 의견을 밀어붙이기도 곤란한 것도 사실입니다. 어떤 정치인이나 정당이 본인들의 의지를 계속 밀어붙인다는 인상을 주면 지지율이 오르기보다는 떨어질 가능성이 더 높죠. 언제 어떤 식으로 의견을 관철해야 하는지 잘 재야 하는 것은 정치인의 숙명이라 생각합니다. 물론 그냥 아무것도 안 하는 정치인도 많긴 하지만, 이걸 ‘여론조사 정치’의 문제라고 보기는 어려울 것 같아요.
임예인: 여론조사 외에, 여론 동향을 파악할 때 참고할 만한 데이터로는 어떤 것들이 있을까요. 최근엔 구글, 네이버 등 검색엔진의 검색어 트렌드를 이용해보려는 움직임도 있는데요.
괴골: 현실적으로 여론조사 외에 참고할 만한 데이터는 없다고 봐야 합니다. 말씀하신 것처럼 검색어 트렌드를 이용하는 방법도 논의되고 있는데, 의미가 전혀 없다고는 생각하지 않지만 여론조사를 대체할 수는 없을 겁니다. 검색 사용자의 정확한 분포와 그 특성을 알 수 없으니, 아무래도 분석에 한계가 있죠. 구글이 검색 점유율을 90% 이상 차지하고 있는 나라라면 몰라도, 한국처럼 시장이 나누어져 있는 곳에서는 검색 사용자 특성도 서비스마다 다를 수 있기에 제대로 된 분석이 더 어렵습니다.
임예인: 선관위 데이터는 어떤가요? 실제 선거 결과를 온전히 반영한 공식적인 데이터라는 점에서 쓸모가 높을 것 같은데요.
괴골: 선거가 끝나고 나면 출구조사나 선관위 데이터를 이용해서 분석을 해볼 수 있겠지요. 하지만 출구조사 원데이터는 공개되지 않는 것으로 알고 있고, 선관위 데이터도 투표자의 자세한 정보를 알긴 어렵습니다. 아마도 비밀투표 원칙을 해칠 수 있다는 문제 때문일 거예요.
그나마 지역별로는 자세한 수치가 나오니, 다른 조사 결과와 조합한다면 꽤 많은 분석을 해볼 수 있을 겁니다. 하지만 이런 데이터는 단순히 ‘선거 양상’만을 분석할 뿐입니다. 진짜 ‘선거에 중요한 데이터’는 아니에요.
임예인: 선거에는 득표율이 가장 중요하지 않나요? 선거에 중요한 데이터라는 게 무엇인가요?
괴골: 득표율도 중요하죠. 하지만 그보다 유권자들의 의사결정 과정에 도움이 되거나, 후보자의 의사결정 과정을 드러내는 데이터가 있어야 합니다. 예를 들어 국회의원 선거라면 후보자의 지난 의정활동을 요약하는 정보, 즉, 국회 출석율이나 발의한 의안 수, 표결 정보 등이나, 각종 위원회에서 발언한 내용들이 중요하겠죠. 아니면 그 후보의 재산상황이나, 과거 재판을 받았다면 그 판결 내용, 그 외 다양한 사회활동 이력이 주요 데이터가 되어야할 겁니다.
임예인: 그런데, 기본적으로 그런 데이터들은 다 공개되고 있지 않나요? 찾아보면 다 찾을 수는 있는 것 같던데요.
괴골: 그렇습니다. 각종 공공기관, 연구기관에 보고서들이 쌓여있죠. 찾아보면 생각보다 다양한 분야에서, 각종 이슈에 대한 연구가 이뤄지고 있음에 놀랄 겁니다. 문제는 이 데이터를 일반인이 보기 어렵다는 거예요. 정리가 안 돼 있는 경우도 많고, 아니면 PDF 파일로 가공된 표나 그래프만 제공되고 엑셀 형식 원자료가 제공되지 않는 경우가 대부분입니다.
임예인: PDF라도 제공되면 좋은 것 아닌가요? 왜 엑셀 형식 원자료가 필요한가요?
괴골: 위와 같은 데이터들은 비정형 데이터, 즉 정해진 양식이 없는 데이터입니다. 데이터가 만들어진 맥락을 알지 못하거나, 데이터 분석 역량이 부족하면 분석하기가 어렵습니다.
임예인: 왜 그렇게 데이터 제공에 인색한 걸까요?
괴골: 공공기관들이 그럴 수밖에 없는 환경도 어느 정도 이해는 합니다. 어차피 공개해봤자 가져가서 분석할 연구자는 턱없이 부족하고, 언론들은 세세한 분석에 관심이 없고요. 괜히 데이터 공개했다가 리스크만 짊어질 바에야 공개 안 하는게 편하죠.
하지만 그렇다고 계속 데이터를 공개하지 않으면 분석 역량이 있는 사람들이 생길 수도 없습니다. 공공기관이 먼저 앞장서서, 꾸준히 오픈공공데이터 정책을 추진해야 한다고 생각합니다. 그럼으로써 비로소 선거와 정치에 데이터를 제대로 활용할 수 있게 될 겁니다.
임예인: 감사합니다. 마지막으로 한마디 부탁 드립니다.
괴골: 좀 더 많은 유권자들이 이런 데이터 기반의 정치에 더 관심을 많이 가지고, 또 그 관심이 여론조사 업계와 정치에 더 많이 반영되어 더 좋은 여론 환경이 만들어지면 좋을 것 같습니다.