2022 대선, 여론조사의 왜곡을 묻다: 강태영 인터뷰 1/2에서 이어집니다.
조사 시간에 따라 여론조사 결과가 달라진다는 의혹은 사실일까?
임예인: 조사 시간대에 따라서, 오후 시간대에는 윤석열 후보 지지율이 더 높게 나온다고도 하셨는데요. 시간대에 따른 편향은 왜 발생하는 걸까요?
강태영: 특정 직업군 및 특정 소득 계층에 대한 ‘무응답 편향’이 발생하는 것으로 보입니다. 현재 대다수의 여론조사 업체들은 연령, 성별, 지역별 조사인원 수를 미리 정해두고, 해당 인원이 다 차면 셔터를 내리는 방식을 채택합니다. 예를 들어 “30대, 남성, 경기 거주자”를 50명 조사하기로 정해뒀다면, 50명이 차면 그 인구 집단에 대해서는 더이상 조사를 안 하는 거예요.
임예인: 그래서 연령과 성별, 지역만 물어보고 여론조사 조사가 끊기는 경우가 있는 거군요?
강태영: 그렇습니다. 그런데 이렇게 하면 문제가 생깁니다. “30대, 남성, 경기”라는 조건만 충족되면 그 사람의 정치성향, 과거 투표 이력, 소득, 직업 유형 등은 일반적으로 신경을 안 쓰는 것이거든요. 특히 소규모 업체는 더욱 이런 경향이 심하죠.
임예인: 하지만 일부러 편향된 샘플을 수집하는 경우가 아닌 이상, 그렇게 한다고 해서 큰 문제가 있을까요?
강태영: 문제는 여론조사 전화를 거는 시간대가, 보통 일과시간 중이라는 겁니다. 아무래도 오후, 즉 정오부터 퇴근시간 이전까지의 시간대에 전화를 걸면 직장인을 누락하기가 쉽습니다. 민주당의 주요 지지 계층이 40-50대 직장인인만큼, 이는 자연스레 보수 후보에게 유리한 결과를 낳을 수 있습니다.
임예인: 그럼 조사시간대도 좀 더 세분화해서 오전, 오후, 저녁시간대로 나누어 전화를 한다든가, 주중과 주말 조사를 병합하게 한다든가 딱 정해놓으면 좋지 않을까요?
강태영: 일련의 사안들은 모두 조사업체들이 여심위가 설정한 최소 기준에만 조사 조건을 맞추다보니 발생하는 문제입니다. 가령 여심위에서는 조사 시간에 대해 “새벽에 전화걸지 마십시오” 정도의 규제 밖에 하지 않아요. 그 외에는 퇴근 이후 시간대에 몰아서 하든, 점심 시간에 몰아서 하든 조사 규정을 위반한다고 보질 않는 거죠.
마찬가지입니다. 어떤 문항을 함께 물어보는지, 문항의 배치 순서는 어떻게 해야 하는지, 이런 부분도 세세한 규정이 있지는 않습니다. 즉, 여론조사심의위원회가 정한 규정만 딱 지키고 나머지는 조사업체들이 그냥 업무 편의상 마음대로 할 수 있는 상황이에요.
여론조사기관에 대한 규제 보완, 그리고 언론의 자정이 필요하다
임예인: 어떻게 해야 하죠? 여론조사기관들에 대해 더 엄격한 규제가 필요한 걸까요? 문항 하나하나를 규율하는 건 너무 비현실적인 통제라는 생각도 드는데요.
강태영: 현실적으로 여심위가 모든 조사 하나하나를 검증하기는 어려울 겁니다. 또, 작은 요소 하나를 국가 기관에서 하나 하나 개입하는 것 역시 이상하죠. 하지만 위에서 말씀드린 이유들로 인해, 현재의 규정을 보완할 필요성은 상당히 높습니다. 그리고 여론조사심의위원회 이슈와 별개로 언론 보도 역시 문제입니다.
임예인: 언론은 어떤 문제가 있을까요?
강태영: 기사 제목만 봐도, “오차범위 내 우세” 같은 표현이 엄청나게 많이 사용되잖아요. 하지만 오차범위 내에 있다는 얘기는 두 후보간의 우열을 가릴 수 없다는 얘기예요. 여기에 ‘우세’같은 말을 쓰면 안 됩니다. 여론조사상 두 후보의 지지율이 역전됐다고 “골든크로스”같은 표현을 쓰는 경우도 있어요. 실제로는 오차범위 내에서의 움직임이거나, 통계적으로 큰 의미 없는 변화인데도 말이죠.
임예인: 어떤 규칙 같은 걸 정해야 할까요? “오차범위 내 우세”라는 표현을 쓰면 안 된다, “골든크로스”라는 말을 쓰면 안 된다는 식으로요.
강태영: 사실 그런 규칙은 이미 있습니다. 한국기자협회에서 선거여론조사보도준칙을 발표했고, 2016년 12월 8일부터 시행되고 있어요. 하지만 대부분이 잘 지켜지지 않고 있습니다. 당장 “오차범위 내 우세”라는 표현을 쓰면 안 된다는 내용이 제16조에 버젓이 나와있거든요. 이외에 주관적인 표현을 자제한다거나, 지지율 차이가 오차한계 내에 있을 경우 그래프를 동등한 크기로 제작해야 한다는 등 세세한 규칙이 정해져 있죠.
데이터는 어떻게 정치와 정책에 도움을 줄 수 있을까
임예인: 여론조사 이야기가 나온 김에 해 보고 싶은 이야기가 있는데요. 선거는 물론이고 정책까지 여론조사에 휘둘리는 느낌이 있잖아요.
강태영: 당연히 정치권에서는 여론조사로 사회 동향을 파악할 필요가 있습니다. 하지만 그게 절대적인 기준이 돼서는 안 되죠. 그럼에도 “아직 여론이 충분히 형성되지 않았다”는 이유로 많은 정치인들이 중요한 사안에 대한 의사결정을 회피하는 잘 알려진 사실입니다. 그런데 이건 전국민이 아는 이야기고요. 그보다 더 중요한 …
임예인: 그보다 더 중요한 게 뭔가요?
강태영: 언론 입장에서는 찬반 비율 보고 찬성이 많다, 반대가 많다 얘기하면 편해요. 그러니까 여론조사 데이터를 자주 다루죠. 그런데 과연 사회 이슈에서 여론조사 기술통계만 중요한가요? 여론이 우호적이지 않으면 특정한 정책을 집행하지 않아야 하나요?
임예인: 물론 그렇지 않죠.
강태영: 가령 국민의 과반이 백신 접종이 싫다거나 안전벨트 매기가 귀찮다고 하면 어떨까요? 해당 제도를 폐지해야 할까요? 그렇다고 답할 사람은 극히 일부 외엔 없을 겁니다. 우리가 정말 봐야할 건 “백신을 접종했을 때 유의미하게 감염병이 예방되는지”, “안전벨트를 의무화했을 때 정말 교통사고 사망률이 감소하는지”예요. 단순히 국민 N%가 찬성한다, 반대한다는 데이터는 큰 의미가 없습니다.
임예인: 그럼에도 불구하고, ‘찬성이 많으니 진행해야 한다’, ‘반대가 많으니 막아야 한다’는 이야기가 많이 나오는데요.
강태영: 단순히 다수결로 의사결정할 거면 경제학자, 보건학자, 교육학자 등의 전문가는 필요가 없죠. 마찬가지로 언론 역시 단순히 경마성 여론보도보다는, 실제 사회 사안에 관한 각종 심층 데이터 분석 결과들을 소개할 필요가 있습니다.
물론 민주국가에서 대부분의 국민들이 반대하는 사안을 정치권이 충분한 설득 없이 독단적으로 밀어부치는 것이 올바른가? 이 역시 바람직하다고 보기는 어려울 겁니다. 갑자기 원론적인 이야기를 하는 것 같지만, 전문가주의와 민주주의의 긴장은 오래된 정치철학적 주제입니다. 사회 조사 문제에서도 고민해 볼 필요가 있어요.
임예인: 혹시 여론조사 외에 선거를 보여주는 데이터로는 어떤 것들이 있을까요?
강태영: 선거 이전에는, 어차피 지지율을 직접 측정할 수 있는 데이터가 여론조사 밖에 없습니다. 선거 이후에야 실제 득표율이 나오는데, 여기에서 투표소 단위, 동 단위 득표율 데이터를 볼 수 있게 되죠. 다만 이 경우 분석의 단위(unit of analysis)가 지역이기 때문에, 개인 단위에 대한 분석까지는 할 수 없습니다. 이는 추가적인 조사(survey)로 해결해야 합니다.
임예인: 각 선거 캠프 입장에서는 어떨까요? 여론조사 외에 선거전략에 어떤 자료들을 활용해야 할까요?
강태영: 선거 전략을 결정하기 위해서도, 마찬가지로 여론조사 이외의 데이터를 활용해야 합니다. 단순 여론조사는 현재의 후보/정당 별 지지율만을 알려줄 뿐, ‘어떠한 특성의 유권자가 어떠한 정책을 선호하는지’에 대해서는 답해주지 않아요.
하지만 그동안 선거 캠프는 이런 데이터 없이 ‘유세현장의 감’, ‘오랜 직관’ 같은 것을 믿고 선거전략을 짜왔죠. 이러면 당연히 선거는 실패할 수밖에 없습니다. 안타깝게도 이와 같은 데이터 리터러시, 즉 데이터를 읽고 해석할 수 있는 능력을 충분히 갖춘 정치인은 거의 없는 것 같아요. 심지어 정당이나 캠프 내 의사결정자의 수도 상당히 적고요.
임예인: 선거는 끝났지만, 정치는 앞으로도 계속 이어져야 합니다. 정치인들이 정책 방향을 결정함에 있어서는 어떤 데이터를 어떻게 활용해야 할까요.
강태영: 통념과 달리, 한국은 데이터가 모자란 나라는 아닙니다. 중앙집권적인 국가 특성 상 공공기관 단위에서 구축된 데이터가 상당히 많습니다. 정부출연연구소나 부처에서는 이러한 데이터를 바탕으로 이미 분석 보고서를 작성하고 있습니다.
임예인: 하지만 실제로 저희가 데이터를 찾아보려고 하면 정말 쉽지가 않은데요.
강태영: 문제는 데이터는 많은데, 그 공개 수준이 상당히 낮다는 것입니다. 많은 지자체에서 데이터를 공개해두었다고 하는데, 정말 중요한 데이터는 누락되어 있거나 복잡한 청구 절차를 필요로 하는 경우가 상당수입니다. 공개는 되어 있지만 직접 기관에 방문해 특정 시간만 제한적으로 이용할 수 있다거나 하는 경우도 많아요. 이건 실질적으로 데이터 공개를 안 하겠다는 뜻이나 마찬가지입니다.
임예인: 눈 가리고 아웅 식이군요.
강태영: 진정한 의미에서의 데이터 공개가 이뤄지기 위해서는, 외부 연구자가 이 데이터에 접근하기 쉬워져야 합니다. 가령 기관이나 정부연구소의 데이터 분석 결과나 해석이 이상하다는 의심이 든다면, 대학 교수든 외부 전문가든 이를 자유롭게 검증하고 토론할 수 있는 환경이 조성되어야 합니다. 그래야만 정책 추진 과정에서든, 정치적 논의 과정에서든 데이터가 활용될 수 있는 거죠.
임예인: 감사합니다. 마지막으로 한마디 부탁 드립니다.
강태영: 사회 이슈를 다룰 때, 데이터에 대해 사람들이 취하는 좋지 않은 태도는 두 가지입니다. 첫 번째, 데이터는 인간의 내밀한 무언가를 오롯이 담을 수 없기 때문에 그 분석 결과를 신뢰할 수 없다는 입장인데요, 아주 고전적인 시각이죠. 두 번째, 데이터가 ‘유행’이니 모든 사회적인 이슈들을 데이터로 풀어내어 정답을 찾을 수 있다는 입장, 즉 일종의 데이터 만능론입니다.
두 가지 태도가 양극단에 있는 것 같지만, 흥미롭게도 양쪽 모두 데이터와 통계에 관한 지식이 충분한 경우는 거의 없는 경험을 자주 했습니다. 결국 중요한 건 “데이터를 통해서만 답을 할 수 있는 문제를 찾고, 적절한 기법을 통해 양질의 데이터를 분석하고 해석할 수 있는 리터러시”가 아닐까 싶습니다.