선거는 민주주의의 꽃이고, 거대한 축제다. 각기 다른 생각과 주장이 펼쳐지고, 논의와 논쟁이 이어지며 한국 사회가 앞으로 어디로 나아갈 것인가에 대해 큰 방향성이 여기에서 정해진다.
여기에 여론조사는 중요한 도구다. 어떤 후보가, 또 어떤 주장이 더 많은 사람들의 동의를 얻고 있는지 – 여론의 현주소를 파악할 수 있는 창 역할을 하기 때문이다. 하지만 이렇게 막대한 영향력을 갖게 된 여론조사는 수많은 비판에 부딪치기도 했다. 떨어지는 정확도와 중구난방 업체 난립, 심지어 때로는 의도가 담긴 문항 구성으로, 여론을 조사하는 게 아니라 조작하는 도구라는 얘기까지 들렸다.
최근에는 복수의 여론조사를 다시 모아서, 조사 기관과 방식, 조사 시간, 번호 확보 방식 등에 따라 분석하고 통계적 잡음을 제거하는 작업들도 이루어지고 있다. ‘여론조사 통합지표’, ‘여론조사 메타 분석’ 등으로 일컬어지는 작업이다. 이는 출렁이는 여론조사 결과값 속에서 혼란스러워하던 유권자들에게 여론의 큰 흐름을 보여줌으로써 호평을 받았다.
이번 대선, 여론조사는 어떤 의미와 한계를 가지고 있는가. 왜 여론조사는 ‘초박빙 승부’를 예상하지 못했나. 여론조사 통합지표를 비롯한 새로운 방법론은 얼마나 유의미할까. 여기, SBS의 지원을 받아 ‘여론조사 통합 지표’ 개발 작업을 수행했던 언더스코어 팀의 강태영 님과 함께, 여론조사의 현주소와 미래에 대해 짚어보았다.
● 인터뷰이: 강태영
강태영(언더스코어) / 학부에서는 사회학과 정치학을, 대학원에서는 경영공학을 공부했다. 어떻게 하면 데이터를 통해 우리 사회를 잘 분석하고, 또 어려운 지식을 쉽게 전달할 수 있을지 고민하고 있다.
왜 사람들은 여론조사를 불신하게 되었나
임예인: 이번 선거는 ‘여론조사의 패배’, ‘여론조사가 본선을 흔든 선거’라는 평가를 받기도 했습니다. 많은 여론조사에서 선거 직전까지, 윤석열 당선인의 지지율이 이재명 후보보다 5-10%p 정도 높게 측정되었는데요.
강태영: 여론조사 공표금지 기간직전 마지막 여론조사를 보죠. 마지막날 기준 5~10%p 정도 높게 나온 조사들은 대부분 극단적인 케이스입니다. 가령 NBS 조사는 양쪽이 동률이라 조사됐지만, PNR(피플네트웍스)은 윤석열 당선인이 약 6%p 앞서있다고 조사됐죠. 실제로 각종 여론조사 통합지표(poll aggregation) 서비스들을 보면 언더스코어·SBS는 1.6%p, 박종희(서울대 외교학과)·MBC는 2.4%p, 한규섭(서울대 언론정보학과)·머니투데이는 3.4%p 차이로, 극적인 격차가 나지는 않아요.
임예인: 선거기간 내 여론조사 결과가 계속 심하게 요동쳤던 점도 큰 것 같아요. 유권자들 입장에서는 지지율 추이가 너무 심하게 바뀌니까 불신이 심해진 것 같기도 한데요.
강태영: 다만 그런 점은 고려해야 합니다. 선거기간 동안에는 수많은 사건이 일어납니다. 단순히 1~2개 여론조사 결과가 크게 바뀌었다는 것만으로는, 이것이 실제로 민심의 향방이 요동친 것인지, 해당 여론조사에 문제가 있었던 것인지를 엄밀하게 구분하기는 쉽지 않죠.
임예인: 하지만 시간적 흐름에 따른 자연스러운 민심의 변화로만 볼 수 없는 경우도 많았습니다. 비슷한 시점에 진행된 여론조사조차, 의뢰자와 조사기관에 따라 조사 결과가 크게 다른 경우가 많았죠. 이걸 어떻게 읽어야 하는지 굉장히 혼란스러웠어요.
강태영: 현재 한국에는 수십여 개의 여론조사업체들이 있는데요, 조사 방법, 가상번호 사용 여부, 샘플링 방법 등에 따라 서로 다른 결과가 보고됩니다. 심지어 조사 시간대와 의뢰자(주로 언론)의 정치 성향에 따라서도 다른 결과가 나오기도 해요. 예를 들어 조사업체가 내부적으로 진행한 자체 조사인지, 특정 언론사의 의뢰로 수행한 조사인지, 그 언론사가 보수 성향인지 진보 성향인지 등이 전부 변수가 될 수 있죠.
임예인: 그렇다면 그들 중 어떤 여론조사가 신뢰할만한 건가요?
강태영: 여론조사는 표본 추출이 정확하다면, 충분히 신뢰할 만한 결과를 얻을 수 있습니다. 하지만 실제 여론조사 과정에서는 편향이 생기죠. 예를 들어 오후 1시부터 2시 사이에 유선으로 여론조사를 진행한다면 높은 확률로 은퇴자나 고령층, 주부 등이 과대표집될 겁니다. 심지어 문항을 어떻게 구성하느냐에 따라 결과가 달라질 수도 있어요.
여론조사로 보는 여론, ‘여론조사 통합 지표’의 등장
임예인: 그래서 요즘에는 여론조사를 모아서 분석해주는 곳도 많이 나오더라고요. MBC의 ‘여론조사를 조사하다’, SBS의 ‘폴리스코어’ 등이 대표적이죠. 실제로 SBS와 함께 ‘폴리스코어’를 만든 주인공이시도 한데요. 이게 어떤 건지 간단히 설명해주실 수 있을까요?
강태영: 말씀하신 것처럼 서로 다른 여러가지 여론조사를 취합해서, 적절한 여론 통합 지표를 계산하는 것이 이러한 서비스들의 목적입니다.
임예인: 실제 여론조사를 취합해 통합 지표를 낸 결과는 어땠나요? 실제 대선 결과와 비슷했나요?
강태영: 여론조사 통합 지표 작업을 수행한 기관이 크게 세 곳이 있었는데요. 저희 언더스코어/SBS 외에도 박종희/MBC, 한규섭/머니투데이입니다. 이 세 군데에서 여론조사 공표 금지기간 직전에 마지막으로 발표한 수치를 보면, 언더스코어·SBS는 1.6%pt, 박종희(서울대 외교학과)·MBC는 2.4%pt, 한규섭(서울대 언론정보학과)·머니투데이는 3.4%pt 차이가 났습니다.
임예인: 여론조사 통합 지표가 보여준 결과값은 여론조사가 크게 틀렸다는 일반적인 인식과는 다른 것 같은데요. 이런 여론조사 메타분석은 어떻게 그렇게 실제와 유사한 결과를 도출해냈나요?
강태영: 사실 그 부분에 대해서 말씀드리고 싶은 게 있는데요. ‘메타분석이 실제 결과와 유사하다’라는 말도 정확한 것은 아닙니다.
임예인: 엇, 빈말로라도 메타분석이 정확했다고 말씀하셔야 하는 것 아닌가요(…)?
강태영: 그래도 없는 얘기를 하면 안되니까요. 한국은 여타 주요 선진국들과 달리 여론조사 공표금지기간이 7일로 상당히 긴 편입니다. 이 7일 동안 무슨 일이 일어나도 이상하지 않아요. 공표금지 첫 날 새벽에 있었던 윤석열-안철수 후보 단일화가 그 대표적인 예죠.
조사가 불가능한 기간이 하루 이틀이면야, 당일 선거를 마지막 메타분석 결과가 잘 맞췄다 아니다를 말해볼 수 있겠지만, 지금처럼 7일이면 불가능한 일이라고 봐야 할 것 같아요. 마찬가지로 “우리 모델이 격차가 제일 적었으니 정확도가 제일 좋다”고 말하면, 저야 영업멘트로 좋겠지만 통계적으로는 틀린 이야기죠.
임예인: 하지만 결국 여론조사의 정확성을 평가하려면, 여론조사 결과와 실제 득표 결과를 비교해보는 수밖에 없지 않나요?
강태영: 그럼에도 불구하고 안 되는 건 안 되는 거죠. 비슷하게는 “공표금지 기간 전 마지막 여론조사와, 당일 선거 결과의 격차가 얼마나 적은가”로 조사업체의 퀄리티를 평가하려는 시도들이 있는데요, 이 역시 그리 엄밀한 접근은 아니라고 생각합니다. 해당 업체의 조사 오차가 심한 건지, 아니면 조사는 정확했는데 7일 동안 실제로 민심이 변한 건지를 어떻게 구분하겠어요?
임예인: 결국 지금처럼 깜깜이 기간이 7일에 달하는 한, 여론조사의 정확성을 평가하기란 불가능한 일이겠군요. 그렇다면, 여론조사 통합 지표는 어떤 점에서 의미가 있는 걸까요?
강태영: 여론조사 통합 지표의 장점은 “최종 선거 결과를 잘 예측한다”는 게 아닙니다. “현재의 여론을 (상대적으로) 정확하게 파악할 수 있다”는 것이죠. 즉, 통합 지표가 제시해줄 수 있는 건 “보름 뒤에 누가 당선될까요?”보다는 “오늘 여론조사가 중구난방인데 어떻게 보아야 할까요?”라고 할 수 있죠.
‘여론조사 통합 지표’는 어떻게 만들어지는가?
임예인: 기왕 전문가분을 만나뵀으니, ‘여론조사 통합 지표’가 어떻게 만들어지는지에 대해서도 여쭤보고 싶은데요. 어떤 방법을 쓰나요? 그냥 다 합쳐서 평균을 내는 건가요?
강태영: 가장 단순하게는 그런 방법도 생각해볼 수 있겠죠. 하지만 실제로 그런 방법은 쓰지 않아요. 이렇게 단순평균만 내면 상대적으로 편향이 덜한 여론조사와 심한 여론조사, 중요도가 높은 여론조사와 그렇지 못한 여론조사가 모두 같은 비중으로 반영됩니다. 또 여론조사는 시간에 따른 여론의 흐름을 파악하는 것도 중요한데, 단순평균을 내는 방법으로는 추세를 읽기 어려워요.
임예인: 그럼 실제로는 어떤 방법을 쓰시나요?
강태영: 방법은 분석팀에 따라 조금씩 다른데요. SBS Poliscore는 MBC 여론M과 마찬가지로 상태공간모형, 혹 칼만필터라는 기법을 활용합니다. 기법에 대한 자세한 내용은 박종희. “제 18 대 대선 여론조사에서 나타난 조사기관 편향.” 조사연구 14.1 (2013): 1-30.와 저희의 FAQ 문서를 참조하시면 좋습니다.
임예인: 그게 뭔지 잘 몰라서… 혹시 간단하게 설명해주실 수 있을까요?
강태영: 로켓 엔진 온도를 측정해야 하는 상황을 한 번 떠올려보죠. 로켓 엔진의 ‘진짜 온도’는 분명 존재하지만, 우리는 엔진에 곧바로 센서를 부착할 수 없습니다. 너무 온도가 높아 곧바로 녹아내릴 것이기 때문이죠. 결국 센서는 엔진 주변의 부품에 부착되어야 하고, 여기서 통계적인 잡음(noise)이 발생하게 됩니다.
이처럼 ‘오차(error)를 감안해서, 직접 관찰 가능하지 않은(unobservable) 정보를 실시간으로 추정’해야 할 때 사용하는 알고리즘이 바로 칼만 필터입니다. 여론조사 취합 역시 마찬가지입니다. 후보자의 진짜 지지율을 직접 측정하는 것은 불가능합니다. 후보자의 진짜 지지율이 서로 다른 여론조사 결과들 어딘가에 위치한다고 가정하고, 여기에 조사 기관에 따른 차이 등 각종 변수를 시각화하여 ‘진짜 지지율’을 추정하는 거죠.
임예인: 실제로 언더스코어-SBS와 박종희 교수-MBC, 한규섭 교수-머니투데이에서 내놓은 수치가 조금씩 달랐는데요. 이런 차이는 어디서 발생한 것인가요?
강태영: 일단 언더스코어-SBS, 박종희교수-MBC, 모두 상태공간모형/칼만필터 기반의 동일한 모델을 사용하고 있습니다. 다만 사용한 변수에 조금씩 차이가 있죠. 우리(언더스코어-SBS) 모델이 조사시간대, 의뢰자 정치성향 등 추가적인 요소들을 많이 통제한 편입니다. 한편 한규섭 교수-머니투데이 측은 방법론이, 페이지에 제대로 작성되어 있지 않아서 비교가 어렵습니다.
임예인: 미국의 FiveThirtyEight 같은 곳이 예전부터 여론조사를 취합하는 작업으로 유명했었는데요. 버락 오바마 대통령의 재선을 예측한 건 물론 50개 주 결과를 모두 맞춰 화제가 되었었죠. 하지만 도널드 트럼프 – 힐러리 클린턴의 대결에서는 힐러리 클린턴이 약 70% 확률로 승자가 될 것이라고 점쳤다가 예측이 빗나가기도 했어요. FiveThirtyEight 같은 사이트도 같은 상태공간모형 – 칼만필터 방식을 사용했나요?
강태영: 여론조사를 취합한다는 점에선 같지만, 그 방법은 상이합니다. FiveThirtyEight 같은 경우, 극단적인 값(outlier)을 제거해가는 과정을 반복(iteration)하여 통합지표를 계산한 것으로 알고 있습니다.
임예인: 이해하기 어려울 거라고 생각했지만, 역시나 어렵군요(…) 대선에 비해, 총선이나 지방선거는 선거구 분할러 분석이 훨씬 어려운 것으로 알고 있습니다. 앞으로 여론조사 통합 지표는 어떻게 더 발전할 수 있을까요?
강태영: 선거 분석을 제대로 하기 위해서는 여론조사업체에서 원자료(raw data)를 공개할 필요가 있습니다. 지금처럼 성별/연령/지역 별 합계치(aggregate statistics)만으로는 할 수 있는 작업이 별로 없어요. 예를 들어, 해외의 경우 전체 응답자 중 투표의향자(likely voter)를 한 번 더 찾아내, 이들을 바탕으로 예측도 합니다. 하지만 국내에서는 조사업체들이 원자료를 전혀 공개하지 않으니 외부 분석가가 좀 더 깊이 있는 분석을 하기 어려운 상황입니다.
임예인: 데이터 분석을 하시는 분들을 보면, 데이터 공개의 중요성을 많이 말씀하시는 것 같아요.
강태영: 다들 비슷한 점에서 벽을 경험하고 있는 거죠. 또, 중앙선거여론조사심의위원회(여심위)에서도 여론조사 결과를 좀 더 친절하고 상세하게 제공할 필요가 있을 것입니다. 현재는 조사업체의 저작권을 이유로, 정형화된 조사 결과 데이터를 제공하지 않고 있습니다. 이래서야 데이터 수집에도 어려움이 많고 외부에서 활용하기도 힘들죠. 저희도 여심위 웹페이지에 업로드 된 조사 정보의 정형화된 수집 코드를 작성하는데에 상당한 시간을 투자했습니다.
왜 여론조사 결과가 기관별로 천차만별로 나타나는가?
임예인: 이제 다들 궁금해하는 점에 대해서 여쭤볼게요. 여론조사 회사별로 여론조사 결과가 천차만별로 나타난 데 대해, ARS 조사와 면접 조사의 차이를 많이 얘기하는데요.
강태영: 그렇습니다. ARS 사용 비중이 높을수록 정치 고관심층이, 유선 비중이 높을수록 보수층이 과잉대표된다는 점은 이제는 대중들에게 잘 알려져 있죠. 실제로도 이런 경향이 관찰되고 있습니다.
임예인: 이외에 여론조사 결과를 천차만별로 만든 요인들로는 어떤 게 있을까요?
강태영: 언더스코어의 ‘폴리스코어’ 모델에서 분석한 결과, 그 외에도 주요조사시간대, 의뢰자의 정치적 성향 등도 영향이 있었습니다. 의뢰자(여론조사를 의뢰한 기관, 일반적으로 언론사인 경우가 많다)의 정치성향이 보수적일수록 이재명 후보 지지율이 더 낮게 나오고, 오후 시간대 비중이 더 높을수록 윤석열 후보 지지율이 더 높게 나타나는 효과도 있었고요. 자세한 내용은 아래 기사들을 참고하시면 좋을 것 같습니다.
임예인: 의뢰자의 정치 성향에 따라 결과가 다르게 나올 수 있다는 이야기는 다소 충격적인데요. 어떻게 그럴 수 있는 걸까요? 보수신문이 의뢰를 했다고 해서 보수층이 더 많이 대답한다거나 하는 건 아닐 텐데요. 어떻게 그렇게 할 수 있는 걸까요?
강태영: 일단 질문을 어떻게 물어보는지에 따라서도 결과가 달라질 수 있죠. 가장 지지하는 후보는 누구십니까, 다음 대통령으로 어떤 후보가 적합하다고 생각하십니까, 내일 투표하신다면 어떤 후보에게 투표하실 예정입니까… 모두 같은 질문처럼 보이지만, 실제로는 결과가 조금씩 달라질 수 있습니다.
임예인: 그래서 경선 과정에서 여론조사를 활용하는 경우, 질문지를 어떻게 구성하는지로 양 캠프간에 극한 대립이 벌어지는 거군요.
강태영: 또한 어떠한 문항을 같이 물어보는가도 중요합니다. 후보 단일화에 대한 질문을 같이 한다든지, 국정지지율을 물어본다든지 하는 것도 결과를 바꿀 수 있죠. 만약 물어본다면 문항 배치 순서도 중요합니다. 대선 후보 지지율을 물어보기 전에 이런 질문을 먼저 하는지, 아니면 대선 후보 지지율을 물어본 뒤 이런 질문을 나중에 하는지에 따라서도 결과가 달라집니다.