(빅)데이터는 객관적인 사실을 뒷받침할 수 있는가
요즘 여러 잡일을 하다 보니 정신이 좀 없었는데, 며칠 전 페친께서 흥미로운 기사를 공유해주셨다. 얼마 전에 식약처에서 발표한 치약에 관련된 기사다. 조선일보의 ‘식약처, ‘가습기 살균제 성분 포함’ 치약 11종 긴급 회수’와 연합신문의 ‘식약처, 가습기 살균제 성분 치약·화장품 제조사 현장조사(종합)’ 등 이들 기사에 나온 본론을 갈무리하면 다음과 같다.
요약하자면 관련 제품에 가습기 살균제의 성분이 해외 기준치보다 1/10,000이나 낮음에도 해당 제품들에 대한 회수를 조치했다는 거다. 1/100도 아니다. 자그마치 1/10,000이다! 보다 결정적으로 같은 물질이라고 하더라도 어느 경로로 흡수되느냐에 따라서 그 위험도는 훨씬 더 떨어질 수 있다. 가습기 살균제의 성분이 적은 성분임에도 가습기에서 치명적인 이유는 흡수경로가 호흡기이기 때문이다. 만약 위에서 말한 것처럼 가습기 살균제 성분의 치약이 위험하다면 치약 자체를 사용해서는 안 된다. 왜냐하면 치약의 주성분인 불소를 기체화(혹은 분자화)해서 흡입하면, 극소량이라도 사람이 죽는다.
역설적으로 위의 조사가 정확했다는 전제하에 사실상 문제가 있다고 언급된 치약들을 사용해도 문제가 되지 않는다. 하지만 정부에서는 해당 치약 회수 조치를 취했다. 이럴 때는 정부가 민심을 정말 잘 듣는다.
왜 이런 말도 안 되는 황당한 일이 발생하는 걸까?
1. 데이터는 객관적인가?
사람들은 수치나 테이블 사용하기를 좋아한다. 자신의 주장을 열 마디 하는 것보다 테이블이나 그래프처럼 수치화된 무언가를 보여주면 자신의 주장을 “객관적”으로 뒷받침할 수 있다고 생각하기 때문이다. 이런 뒷받침은 애석하게(?) 듣는 사람들을 혹하게 한다. 이건 데이터, 혹은 통계의 속성을 전혀 모르는 무식자의 이야기이다. 여기서 다시 한번 말하지만 (빅)데이터는 주장이나 사실을 “객관적”으로 뒷받침할 수 없다.
이유는 간단하다. 데이터를 수집하는 데 있어서 한계가 존재하기 때문이다. 데이터 수집의 한계는 모집단(Mother Set)의 수가 클수록 전수를 하는 것이 사실상 불가능하다는 거다. 예를 들어 대한민국의 인구의 남녀성비를 구한다고 하자. 우리나라의 남녀성비를 구하기로 했으니 모집단은 ‘우리나라 인구 전체’고 정확한 계산을 하기 위해서는 우리나라 인구 전체를 전수(조사)해야 한다. 하지만 우리나라의 남녀 성비를 구별하기 위해서 우리나라 인구 전체를 조사하는 것은 어리석다 하겠다.
그래서 나온 방법이 바로 표본(Sampling)이다. 즉 모집단을 대표할 수 있다고 생각되는 표본을 추출해 그 데이터로 통계지표를 구하는 것이다. 이런 샘플링기법은 상당히 유용하지만 추가적인 문제를 야기하게 되는데, 그것이 바로 데이터 수집의 객관성이다. 데이터 수집의 객관성은 데이터의 자체의 객관성과는 차이가 있다. 데이터 자체의 객관성은 “데이터를 조작하지 않는다”는 것을 의미하고 데이터 수집의 객관성은 샘플링 하는 데이터가 모집단을 잘 표현할 수 있도록 객관적이라는 것을 의미한다.
자신의 주장이 혹은 어떤 사실이 맞다는 것을 뒷받침하기 위해서 데이터 자체를 조작하는 경우는 엄연한 범죄행위이며 이런 조작 사실이 발각되었을 때 사람들, 언론의 경우 독자나 시청자의 반감이 엄청나기에 최근 들어서는 언론에서조차도 잘 사용하지 않는다. 하지만 샘플링을 객관화하지 않는 것엔 사람들이 훨씬 관대하게 받아들인다.
특히 많은 양의 데이터를 수집하고 처리하기 어려웠던 1980-1990년대엔 그런 한계가 일반적이었고 통계/데이터를 배웠던 사람들도 넘어설 수 없는 한계를 인지하고 있었다. 심지어는 단순히 많은 양의 데이터를 사용했다는 사실 하나만으로 해외 정상급 저널에 논문을 실을수 있을 정도였으니 말이다.
정보통신 기술의 발전으로 소위 ‘빅데이터’가 실제 생활에 활용될 수 있는 가시권에 들어오면서 태생적인 한계로 느껴졌던 표본수집이 보다 많은 양으로 보다 객관적인 표본추출을 할 수 있는 시대가 된다. 빅데이터의 출현은 많은 (통계적 지식이 없는) 전산계통을 전공자에게 꿈을 심어주었다. 빅데이터의 출현으로 정확한 미래를 예측할 수 있을 것 같고, 모집단 자체를 직접 분석할 수 있을 것 같았을 것이다.
물론 통계를 전공해본 사람은 알겠지만 이 두 가지는 빅데이터가 아니라 빅데이터의 할아버지라도 실현 불가능하다. 지금도 불가능하고, 앞으로도 불가능한 꿈일 뿐이다. 하지만 빅데이터의 출현으로 과거에 비해서 보다 정밀하고 정확한 데이터 분석이 가능해진 것은 확실하다. 자신의 주장이나 사실을 뒷받침할 때 데이터 자체를 조작한다거나 자기주장에 맞게 샘플링 편협하는 꼼수는 점점 줄어들고 있다.
요즘은 좀 더 지능적인 방법으로 꼼수를 쓴다. 예를 들자면 이런 거다. 당신은 회사 사장으로 하청업체를 선정해야 한다. A사와 B사 최종 후보인데, A사의 세일즈 매니저가 당신을 설득하기 위해 다음과 같이 이야기한다.
“우리 A사의 전 분기 매출 성장이 B사 대비 5배나 월등합니다!”
이때 위의 주장을 뒷받침하는 데이터의 객관성을 따져보자. 우선 샘플링(샘플링의 객관성)에 관해서는 가능성이 없는 것은 아니지만 의문의 여지가 적다. 오직 자사(A)와 경쟁사(B) 데이터만 있으면 되니까 말이다. 하지만 A사 매니저가 매니저가 거짓(데이터 자체의 조작)을 말했을 수는 있다. 실제로 5배가 안 되는데 5배라고 말하는 걸 의미한다.
여기까지는 다들 아는 내용일 것이다. 충분히 조작 가능성도 있고 확인해봐야 할 문제라는 것에 동의할 것이다. 그런데 위의 주장을 증명하는 데이터가 모두 객관적이라면 여러분은 위의 주장을 신뢰할 것인가? 다음 문단을 읽기 전에 한 번 고민해 보시라.
만약. 회사 A와 회사 B의 상황이 아래와 같다면 어떨까?
- A사 전 분기 매출 5백만, 회사 규모 100억
- B사 전 분기 매출 1천만, 회사 규모 1000억
위의 경우를 보면 A사 매니저의 주장을 뒷받침하는 데이터(혹은 정보)는 사실이다.
- A사의 매출성장은 회사 규모 대비 0.005% (B사 대비 5배)
- B사의 매출성장은 회사 규모 대비 0.001%
사실상 당신은 두 회사중 누구도 선택을 해서는 안 된다. 왜 둘 다 선택하면 안 되는지 모른다면 경영 관련 서적을 참고하시라. 물론 A사 매니저는 거짓말을 하지 않았으며 데이터를 조작하지도 않았고 샘플 수집도 제대로 했다. 틀림없이 매출성장은 A가 B사보다 5배 높다.
2. 더 근본적인 문제는…
이 글을 읽으며 짐작했겠지만 처음 이야기를 시작했던 치약 회수에 관련한 것과 A사 매니저의 매출발표 예제는 모두 데이터의 비객관성에 대해서 이야기하고 있다. 즉 데이터가 거짓 없이 사실을 기반으로 하고 객관적으로 수집이 되있다 하더라도 말하는 사람에 따라, 혹은 듣는 사람의 타성(이라 쓰고 “느낌”이라 읽는다)에 따라 얼마든지 의미가 달라질 수 있다. 이는 어쩌면 데이터 자체의 문제라기보다는 데이터를 사용하고 받아들이는 사람들의 감성 문제다.
요즘 세상은 감성을 중요시하고 인문학적 소양을 강조한다. 하지만 세상을 올바르게 이해하는데 있어서 필요한 것은 감성을 자극하는 공감 능력, 즉 인문학적 소양이 아니라 논리적으로 세상을 바라보는 물리학적 소양과 그렇게 바라본 세상을 논리에 맞게 풀어가는 수학적 소양, 통상적으로 말하는 과학적 소양이다.
과학적 소양의 바탕이 없는 인문학적 소양은 많을수록 개인을 합리적이고 똑똑한 존재로 착각하게 만든다. 단순히 가습기 살균제 성분이 포함되었다는 이유로 전량 회수를 결정하고, 이것도 모자라 국민은 극도의 공포를 느끼는 이런 사태를 보면서 이게 뭔가 싶다.
정말 마지막으로 과학적 소양의 바탕없이 인문학적 소양만 풍부한, 공감 능력이 뛰어난 사람들만 모이면 어떻게 되는지 궁금한 분들은 다음 영상을 참고하시라.
진짜 끝.
원문: AmangKim의 브런치