2016년의 20대 총선 결과는 충격적이었다. 더불어민주당과 국민의당으로 나뉜 야권 분열으로, 당시 집권여당이었던 새누리당이 무난하게 과반수 의석을 얻을 거라는 예상을 깨고, 더불어민주당이 원내 1당을 차지한 것이다.
결과가 충격적이었던 이유는, 선거를 앞두고 진행된 여론조사가 대부분 새누리당의 과반을 예상했기 때문이다. 민심이 선거일 갑자기 뒤바뀐 게 아니었다. 단지 여론조사가 모두 틀렸을 뿐이다. 그래서 20대 총선은 ‘여론조사의 패배’로도 기록된다.
이후 여론조사 업체들은 절치부심하여 조사방법을 개선했고, 여론조사의 신뢰도를 높이기 위한 여러 법안이 논의되기도 했다. 하지만 그로부터 6년이 지난 2022년, 20대 대선에서 여론조사는 또 한 번 엉터리 결과를 내놓았다. 총선에 비해 예측이 쉽다고 여겨졌던 대선임에도 불구하고 말이다.
또 한 번 벌어진 여론조사의 패배, 그 이유는 무엇일까. 트위터와 블로그에서 여론조사 데이터를 분석하고 탐구해왔던 데이터과학자 괴골 님과 함께 이야기를 나눠보았다.
● 인터뷰이: 괴골
IT 업계에서 데이터 분석 및 AI 연구를 하고 있다. 누군가의 표현에 의하면 ‘트위터 타임라인에서 위치를 알려주는 부표 같은 존재’이다. 프로필 사진을 바꾸지 않고 매우 오래 트위터를 한, 트위터 고인물이라는 이야기.
또 한 번, 여론조사의 패배
임예인: 이번 대선 결과를 두고 여론조사의 실패라는 이야기가 많습니다. 윤석열 후보의 우세라는 결과를 맞추긴 했지만, 실제 수치가 달라도 너무 달랐어요. 이에 대해 트위터 등 SNS에서 다양한 말씀을 해 주신 것으로 알고 있는데요.
괴골: 제가 여론조사 전문가는 아닙니다. 다만 IT 기업에서 AI와 데이터분석 관련 일을 하는 사람으로, 이번 대선 여론조사 결과들이 잘 이해가 가지 않았습니다. 그래서 조금 더 자세히 살펴보았죠. 여론조사 업체들과 아무런 이해관계가 없기 때문에 조금 더 자유로운 시각으로 바라볼 수 있었던 것 같습니다. 물론, 여론조사 업체나 여론조사심의위원회에서도, 이번 대선 여론조사를 정리한 정식 분석 보고서들을 낼 것으로 기대하고 있습니다.
임예인: 여론조사가 틀린 건 둘째치고, 여론조사가 본선 결과까지 흔들어 놓은 거 아니냐는 얘기도 있었습니다. 실제로 대부분의 여론조사에서 선거 직전까지 윤석열 당선인의 지지율이 이재명 후보보다 5-10%p 정도 높게 측정되었는데요. 이는 실제 결과와는 꽤 크게 동떨어진 것이었죠.
괴골: 우선, 선거 전에는 약 1주일간의 ‘여론조사 공표 금지’ 기간이 있습니다. 이 기간동안 어떤 일이 일어나 지지율과 득표율이 크게 변할 수도 있죠. 하지만 이번 선거가 그런 경우는 아니었던 것 같습니다.
선거가 끝난 지금은, 공표 금지 기간 내의 여론조사 결과도 알 수 있는데요(연합뉴스), 오히려 그 전보다 더 윤석열 후보 지지율이 높게 나왔습니다. 어떻게 집계하느냐에 따라 다르긴 하겠지만, 여론조사의 지지율은 선거기간 내내 3~8%p 정도 윤후보에게 유리하게 측정되었던 거 같습니다.
임예인: 결론적으로, 이번 대선 여론조사들에 대해서 어떻게 평가하시나요? ‘여론조사의 패배’라는 세간의 평가에 동의하시나요?
괴골: 여론조사와 실제 선거 사이에 시간적으로 차이가 크다면야, 다른 변수가 있었을 수 있다고 생각할 수 있죠. 그러나 이번 여론조사는 깜깜이 기간에도 다 틀렸습니다. 대선 1~2일 전의 지지율은 득표율 양상과 아주 큰 차이가 없어야 정상입니다. 또 대선 투표율은 총선이나 지방선거에 비해 높은 편이기에, 여론조사에만 답하고 투표장에 나가지 않는 경우도 많이 없고요. 윤석열과 이재명 두 후보의 실제 득표율 차가 0.7%p로 매우 작았단 점을 생각해보면, 이번 대선의 여론조사는 대부분 다 실패했다고 봐야 합니다.
임예인: 여론조사의 방법론도 그동안 발전에 발전을 거듭해왔잖아요. 특히 20대 총선에서 새누리당의 절대과반을 예측했던 여론조사가 완전히 어긋나고, 더불어민주당이 1당이 되면서 많은 반성이 뒤따랐고요. 왜 이제 와서 또다시 이런 거대한 실패가 반복된 걸까요?
괴골: 사람들이 여론조사에 대해 한번쯤 지적했던 문제들이 있잖아요? 여론조사가 이뤄지는 시간, 여론조사에 적극적으로 응답하는 사람들의 인구학적 특성, 여론조사 회사들의 영세성… 이런 여러 문제점이 복합적으로 작용했다고 볼 수 있을 것 같습니다. 그리고 어느 정도 해결했다고 생각한 문제도 여론조사 환경이 바뀌면 또 나타날 수 있는데요. 이번 대선에서 그 고질적 문제들이 조금 더 도드라졌다고 볼 수도 있겠죠.
이건 공개된 데이터를 통해서도 간접적으로 확인할 수 있는데요. 저도 여론조사 품질 문제를 조사하고 그 내용을 블로그에 정리한 적이 있습니다. (1, 2) 비록 여론조사 회사들이 원데이터(raw data)를 공개하지 않기 때문에 통계적으로 엄밀한 분석은 아니지만, 적어도 문제의 단초는 짐작할 수 있었습니다.
의심 1. 조사시간대에 따라 여론조사 결과가 달라진다
임예인: 문제를 하나씩 짚어보죠. 세간에는, 겨우 1,000명으로 수천만 유권자의 의사를 조사한다는 게 말이 안 된다는 이야기도 있습니다.
괴골: 현재 한국의 ARS/전화면접 방식 여론조사는 잘 설계된 무작위 표본 추출 방식을 통해 선정된 사람들에게 전화해서 의견을 묻는 방식을 씁니다. 보통 1,000명 정도의 의견을 조사하고, 이 의견을 전체 유권자의 ‘대표값’으로 보는 건데요. 만약 여론조사 회사들이 지역, 성별, 연령 외의 다양한 변수들을 잘 통제하고, 정석적인 조사방법론을 충실히 따라 조사를 한다면, 1,000명 정도의 숫자로도 충분히 전체 유권자의 의사를 엿볼 수가 있습니다.
임예인: 그런데 여론조사 전화를 받아보면, 연령 정도만 답했는데 ‘조사 대상자가 아니’라며 그냥 전화를 뚝 끊어버리는 경우가 많습니다. 이를 근거로 여론조사를 조작이라고 주장하는 이야기도 있어요.
괴골: 무작위로 선정된 사람들에게 골고루 전화를 한다고 하지만, 그게 ‘진정한 의미에서 골고루’일지가 문제입니다. 예를 들어 9시에서 6시까지만 전화를 돌린다면, 그 시간대에 전화를 받기 힘든 직종 사람들은 조사 대상에서 빠지게 되겠죠. 연령대에 따라, 모르는 전화를 기꺼이 받을 확률에 차이가 있을지도 모릅니다.
임예인: 맞아요. 어떤 친구들은 9시에서 6시 일과 중에는 전화를 거의 못 받는 친구들도 있거든요.
괴골: 그렇습니다. 처음부터 끝까지 무작정 무작위로만 전화하면 어떤 특성의 사람들은 너무 많이, 어떤 특성의 사람들은 너무 적게 조사될 우려가 있습니다. 따라서 전체 유권자의 성별/연령/지역별 비율에 맞춰, 각 인구집단별로 조사할 사람 수 목표치를 할당합니다.
이처럼 통계상 특정 인자를 공유하는 집단을 일컬어 ‘코호트(cohort)’라고 부르고, 보통 이 코호트들을 잘게 쪼개서 전체 유권자 집단을 잘 대표하도록 계층별로 조사 대상자를 배분하는데, 이걸 ‘층화추출’이라고 합니다. 성별과 연령까지만 답했는데 전화를 끊어버리는 건 여론조사들이 이 코호트 비율을 전체 유권자 집단과 비슷하게 맞추려고 하기 때문에 이미 충분히 조사된 코호트에서는 더 조사할 필요가 없기 때문이죠.
임예인: 성별, 연령별, 지역별로 표본을 추출하고, 코호트의 응답수가 차면 전화를 끊어버리는 건 오히려 여론조사의 편향성을 줄이기 위한 방법이군요. 그런데 왜 여론조사의 실패가 여전할까요?
괴골: 문제는 여론조사 회사들이 빠르게 결과를 내기 위해, 시간대에 대한 고려 없이 몰아서 조사를 하는 것 같다는 점입니다. 이러면 성별/연령/지역별 할당은 맞춰질지 몰라도, 직업 같은 다른 측면에서 편향이 생길 수 있습니다. 예를 들어 낮에만 조사하면 아무래도 직장인들은 전화를 받기 어렵기 때문에, 직장인 아닌 사람들의 의견이 더 대표되는 경향이 생길 수 있죠.
임예인: 실제 여론조사 결과는 어땠나요? 실제로도 조사시간대에 따라 편향이 있었나요?
괴골: 위의 그림은 개인적으로 조사해본 주중/주말 지지율 조사값 차이인데요. 확실하지는 않지만, 윤석열 후보의 경우 주중 조사값과 주말 조사값이 다소 차이를 보이죠? 표집 특성이 다를 가능성이 엿보입니다. 또 아래 그림은 표집된 집단에서 직업특성에 따른 분포를 살펴본 건데요. 블루칼라 층이 상대적으로 표집이 덜 되고, 무직/학생 그룹은 과표집 되었을 가능성이 보입니다.
임예인: 아무래도 특정 상황에 전화 받기 편한 계층이 있으니… 여론조사에서 윤석열 후보의 지지율이 상대적으로 높게 나타났던 게 이런 이유였을까요?
괴골: 여러가지 요인 중에 한가지 가능성이긴 하지만, 아마 조사 시간에 따라 전화를 더 받기 쉬운 그룹이 많이 응답했고, 그 그룹에서 윤후보 지지율이 전체 평균보다 조금 더 높았기 때문에 이런 결과가 나올 수도 있지 않았을까요? 여론조사가 1,000명만 조사해도 전체 모집단을 대표할 수 있으려면, 그 조사대상 집단 표집이 모집단의 특성을 충실히 반영한다는 전제조건이 필요합니다. 이 전제조건에서 멀어지면 멀어질수록 여론조사의 통계적 근거는 약해지고, 그 품질도 떨어질 수밖에 없습니다.
의심 2. 여론조사 전화를 오매불망 기다리는 ‘팬덤’이 여론조사 결과를 왜곡한다
임예인: 인터넷을 보면 여론조사에 조직적으로 답변을 하자는 얘기가 심심찮게 보입니다. 심지어 결과를 조작하기 위해 거짓 답변을 하자는 경우도 종종 보여요. 이게 실제로 여론조사 결과에 영향을 미칠까요?
괴골: 여론조사는 기본적으로, 응답자가 자신의 시간을 내서 조사에 응답해야 성립합니다. 하지만 현실적으로 모든 사람들이 여론조사에 잘 응답하는 것은 아니죠. 여론조사 회사들이 목표 조사수를 채우려면 1,000명보다 훨씬 더 많은 사람들에게 접촉을 해야 합니다. 문제는 이 과정에서 여론조사에 적극적으로 답을 하려고 기다리는 사람들에게 더 많은 답변 기회가 주어질 수 있다는 점입니다. 즉 조직적으로 여론조사 결과를 조작하려는 행위, ‘어뷰징(abusing)’에 취약해집니다.
임예인: 하지만 그렇게 조직적으로 여론조사에 적극적으로 응답하며 여론조사 결과를 조작하려는 사람들이 얼마나 많을까 싶기도 해요. 그 정도 조직적인 움직임만으로는 여론조사 결과가 크게 바뀌기 어려울 것 같은데요.
괴골: 기본적으로는 그렇습니다. 하지만 그건 어디까지나, 여론조사 회사들이 조사를 충실하게 한다는 가정 아래서만 성립합니다. 여론조사 회사들은 조사 의뢰자의 요구를 맞추면서 비용을 아끼기 위해 조사를 빠르게 진행하는데, 이때 콜백(callback)을 매우 소홀히 하는 경향이 있습니다.
임예인: 콜백이라는 건 뭔가요?
괴골: 콜백이란 여론조사를 위해 처음 접촉한 사람이 응답하지 않았을 때(전화를 받지 않았을 때), 다시 접촉(전화)하는 것을 뜻합니다. 이렇게 해야 원래 의도했던 표본 추출에 더 근접하고, 여론조사에 적극적이지 않은 사람들도 다양하게 반영할 수 있기 때문이죠. RDD(임의전화걸기, 무작위로 생성된 번호에 전화를 거는 방식)방식이든 가상번호(실제 번호가 노출되지 않도록 이동통신사가 여론조사 회사에 임의로 생성한 가상의 전화번호를 제공하는 방식) 방식이든 기본적으로 콜백을 잘 하는게 정석적인 조사방법에 부합합니다.
임예인: 그런데 저도 여론조사 전화를 종종 받아봤지만, 정작 콜백이란 걸 받아본 적이 없는 것 같은데요…
괴골: 맞습니다. 실제로는 콜백이 잘 이뤄지지 않아요. 그러다 보면 ‘여론조사를 기다리고 있던’, 정치에 매우 적극적으로 관여하는 사람에게 전화가 갈 확률이 크게 높아집니다. 즉, 엄밀한 의미에서 ‘무작위 추출’ 가정이 깨져버리는 것이죠. 이러면 그 뒤의 통계적 근거는 의미가 점점 퇴색된다고 봐야 합니다.
게다가 여론조사를 기다리고 있던 사람들이 특정 후보 지지자들이라면? 여론조사 결과가 모집단을 제대로 대표하지 못하고 틀릴 가능성은 더욱 높아집니다. 실제로 각 정당에서는 여론조사 결과에 영향을 주기 위해 지지자들에게 여론조사를 잘 받아 달라는 캠페인을 하는 경우가 많습니다.
임예인: 충분히 가능성이 있다는 건 알겠습니다. 하지만 그 절대적인 영향력이, 여론조사 결과를 좌우할 만큼 크다고 할 수 있을까요?
괴골: 적극 응답층의 수를 정확히 알 수 없기에, 그 영향력을 정확히 계산하는 건 어렵죠. 다만 아래와 같은 간단한 시뮬레이션을 통해서, 그 규모가 그리 크지 않더라도 꽤 결과가 달라질 수 있음을 확인해 볼 수 있는데요. 이런 효과가 심해질수록 여론조사는 본래의 의미를 잃고 점점 더 ‘시청자 인기투표’와 같은 형태가 되고, 실제 득표율과 괴리가 생길 겁니다. 이번 대선 여론조사도 이런 효과가 상당했을 거라 짐작하고 있어요.
의심 3. 기계가 질문하는가, 사람이 질문하는가에 따라 결과가 달라진다
임예인: 자동응답 기계가 질문하는 방식(ARS)이냐, 사람이 직접 전화를 걸어 질문하는 방식(전화면접조사)이냐에 따라 결과가 많이 다르게 나오기도 했는데요.
괴골: 맞습니다. 예전에도 ARS와 면접조사의 차이가 컸지만, 이번에는 관심이 별로 없던 유권자들도 인지할만큼 차이가 더 크게 나타났습니다. 격차가 클 때는 면접조사에 비해 ARS가 +8~10%p까지 윤석열 후보가 유리하게 조사되었는데, 선거 직전에는 뒤바뀐 결과가 나오기도 했어요.
그리고 한번은 우연히, 또 한 번은 인위적으로, 거의 같은 시기에 두 조사방법을 병렬로 조사한 사례가 있었는데요. 둘 다 지지율 차이가 꽤 큰 값으로 나왔습니다. 여기서도 두 후보 격차가 거의 8~9%p 가까이 났어요.
임예인: 어떻게 된 거죠? ARS 방식이 전화면접 방식에 비해 덜 정확한 건가요?
괴골: 그런 얘기도 많았죠. 반대로 ‘샤이 OO’라고 해서, 특정 후보의 지지자들이 사람이 하는 전화면접 조사에서는 부끄러워 숨어버리거나 다른 응답을 한다는 이야기도 있었고요. 하지만 최근 미국여론조사협회의 조사에 따르면 최근 미 대선에서 ‘샤이 OO’의 효과는 뚜렷하게 나타나지 않았다고 합니다. 한국 같은 경우 어쩔지는 모르지만, 역시 엄밀한 조사를 거치지 않았으므로 알기 어려운 일이죠. 아무래도 더 정석적인 방법은 전화면접 방식이긴 합니다만, 둘 다 틀릴 수도 있기 때문에 항상 어떤 방법론이 더 정확하다고 말할 수는 없습니다.
의심 4. ‘보수 단일화’ 항목을 질문하면, 보수 유권자가 과표집된다
임예인: 질문 방식에 따라 결과가 달라진다는 얘기도 많았습니다. 이런 식으로 원하는 정책을 추진하기 위해 사실상 여론조사를 조작하는 일도 있고요.
괴골: 여론조사도 사람이 하는 것이기에 여러 종류의 ‘인간적 오차(human error)’가 생깁니다. 그 중 하나가 여론조사의 질문 순서나 방법에 따른 오차입니다. 예를 들어 특정 후보에 대한 부정적인 정보를 담은 질문을 먼저 하고 지지의사를 물으면 아무래도 부정적인 답변이 나오기 쉽죠.
임예인: 하지만 대선 여론조사는 보통 ‘누굴 지지하는지’ 정도만 묻잖아요. 여기에서도 그런 인간적 오류가 발생할 수 있을까요?
괴골: 하지만 ‘윤석열-안철수 단일화’라는, 보수 진영에 특히 어필하는 이슈가 있었지요. 아래 그림은 여론조사에 ‘단일화 질문’이 있을 경우와 없을 경우, 두 후보의 지지율 분포를 알아본 것인데요. 통계적으로 유의미한지 아닌지는 조금 애매한 결과가 나왔습니다. 그래도 의심해볼 만한 여지는 없지 않습니다. 만일 여론조사 회사에서 콜백을 열심히 하고 시간대를 나눠서 조사하는 등, 조사방법론을 잘 지켰다면 이런 의심도 필요 없었겠지만요.
의심 5. 보수 유권자들이 여론조사에 더 적극적으로 응답한다
임예인: 이재명 지지자들이 끝까지 표심을 숨기거나 결정하지 못한 경우가 많았기 때문에, 여론조사가 이들을 놓칠 수밖에 없었다는 주장도 있는데요.
괴골: ‘무응답 편향’이라는 개념이 있습니다. 표본에 포함되어 있는 사람들이, 여론조사에 응답하지 않아서 생기는 편향을 뜻합니다. 즉, 응답자와 무응답자 사이에 어떤 특성 차이가 있기 때문에 발생하는 오류죠. 따라서 이 편향은 여론조사 무응답율이 낮아진다고 반드시 제거되는 종류의 편향이 아닙니다.
반대 개념으로 ‘응답 편향’이 있는데, 이건 응답자가 정확하지 않은 답변을 하거나, 응답 기록이 잘못되었거나, 분석이 잘못되었을 때 생기는 편향입니다. 이재명 지지자들이 아예 여론조사에 답하지 않는 방식으로 표심을 숨겼다면 ‘무응답 편향’이라 볼 수 있는데 이건 사실 확실히 알아내기가 힘든 종류의 편향입니다.
임예인: 앞에서 알아본 오류들도 그럼 무응답 편향이라고 할 수 있을까요?
괴골: 어느 정도 관련이 있긴 하지만, 그렇다고 곧바로 ‘무응답 편향’이라고 말하기에는 조금 민망한 면이 있습니다. 여조회사가 노력하면 회피할 수 있는 부분이 많아 보이거든요. 콜백을 하지 않는다거나, 편향을 일으킬 수 있는 형태로 질문을 구성한다든가 하는 건 조사 오류에 가깝죠.
임예인: 무응답 편향이 실제로 여론조사 결과를 극적으로 왜곡할 수 있을까요?
괴골: 어쨌든 여조 회사들이 최선을 다했다고 가정한다면, 이 무응답 편향은 실제로 큰 문제가 됩니다. 사후 보정등 여러가지 기법을 통해서 보정을 시도해볼 수 있긴 하겠지만, 한국 여론조사에서는 기본적인 응답자 분포 보정 외에는, 사후 보정 방법을 다양하게 시도하지 않는 것으로 보이고요.
임예인: 그러고보니 미국 같은 경우에도, 2016년 대선에서 대부분의 여론조사기관과 데이터 과학자들이 클린턴의 승리를 점쳤던 적이 있었죠. 이것도 무응답 편향 때문일까요?
괴골: 그렇습니다. 수많은 여론조사회사들이 다양한 선진 기법으로 선거 결과를 예측하고 있는 미국에서조차, 이 무응답 편향의 문제가 커지고 있습니다. 사실 이 문제는 여전히 해결되지 않았어요. 트럼프 대 클린턴 때 여론조사 결과가 틀렸다는 이야기는 잘 알지만, 2020년 바이든과 트럼프가 대결했던 대선에서도 이 편향이 거의 해소되지 않았다는 사실은 잘 모르는 분이 많습니다.
임예인: 엇, 그런가요? 2020년 대선에선 바이든이 여론조사에서 줄곧 앞서나갔고, 실제로 대선에서도 바이든이 승리했잖아요?
괴골: 결과가 뒤집히지 않았을 뿐, 여론조사상 지지율과 실제 득표율 사이의 차이는 꽤 컸습니다. 미국 여론조사협회의 보고서에 따르면, 여론조사에서 약 4%p 정도 바이든이 더 유리하게 조사되었다고 합니다. 실제 바이든 지지율이 트럼프 지지율 보다 4%p이상 높았기 때문에 최종 승패 예측이 틀리지 않았을 뿐이지, 만약 지지율 차이가 그 미만이었다면 2016년 대선과 마찬가지로 트럼프가 여론조사 예측과 달리 승리하는 그림이 그려졌을 것입니다.
임예인: 그럼 이건 미국조차도 아직 해결하지 못한 문제인가요?
괴골: 만약 이 무응답 편향의 이유가 보고서를 통해 명확하게 밝혀졌다면, 해결책도 찾아볼 수 있었을 것입니다. 하지만 보고서에 따르면 일반적으로 생각하는 이유, 즉 ‘샤이 트럼프’, 특정 인구 통계의 과대 대표, 사후 보정이나 투표 의사 예측 실패 등으로는 이 결과를 설명할 수 없다고 합니다. 말 그대로 ‘무응답 편향’입니다.
임예인: 결국 알 수 없는 건가요… 미국조차 해결하지 못한 문제라면, 한국에서는 더욱 해결이 어렵겠는데요.
괴골: 그렇습니다. 다만 한 가지 가설을 생각해보자면 사용자들이 핸드폰에서 발신자 정보를 쉽게 알 수 있게 된 게 크지 않을까 싶습니다. 스팸여부를 판정하는 앱도 많이 생겼고, 수신 차단도 예전보다 훨씬 쉽게 할 수 있죠. 귀찮은 전화는 선택적으로 잘 받지 않는 사람들이 늘어나면서, 무응답 편향이 커질 가능성도 높아졌을 수 있습니다.
만약 이 가설이 맞다면, 미국에서 나타난 무응답 편향은 한국에서도 고스란히 나타날 수 있습니다. 여론조사에 훨씬 더 많은 돈을 들이고, 각종 기법을 동원해서 보정하는 미국 여론조사 환경보다 한국의 환경이 더 나으리라고 선뜻 생각하기는 쉽지 않거든요.