아는 분들은 아시겠지만, 요즘 본의 아니게 AI이니, 머신러닝이니, 바이오매트릭 등등을 하고 있다. 더구나 20년 만에 코딩 아닌 코딩을 하고 말이다. 오늘 글의 제목은 “나의 데이터, 남의 데이터”이긴 하지만, “나의 통계, 너의 통계” 라고 읽어도 무관하리라. 우선 시작하기 전 최근 알바 중인 것 중에 괜찮아(?) 보이는 그림을 투척하고 시작할까 한다.
본론을 시작하기 전에 다음 질문들에 대한 답변을 한번 고민해 보길 바란다. 참고로, 여기서 언급한 수치는 내가 마음대로 지어낸 것이니, 너무 숫자 자체에 연연하지 않았으면 한다.
- 갑돌이는 미국과 한국 이중 국적자이다. 만약, 미국국민(재외 국민 포함)의 암 발병 사망률이 0.1%이고, 한국 국민의 암 발병 사망률이 0.5%라고 한다면, 프랑스에 살고 있는 갑돌이의 암 발병 사망률은 얼마인가? 0.1%인가? 0.5%인가? 아니면, 프랑스 암 발병 사망률일까?
- 갑돌이와 철이가 한판승 가위바위보 대결을 한다. 참고로 철이의 가위바위보의 승률은 80%이다. 그렇다면, 갑돌이가 가위바위보에서 철이를 이기거나 비길 확률은 20%인가? 66.666…% 인가?
- 영희는 유명한 시리얼 벤처 투자자이다. 이제껏 5번 투자하여 모두 성공하였다. 베트남은 요즘 경기가 너무 과열되어 최근 20%만이 투자에 성공했다고 한다. 영희가 베트남에 투자를 하려고 한다. 이때 영희가 베트남에 투자하여 성공할 확률은 100%인가? 20%인가?
- 이를 본 갑돌이가 영희를 따라 처음으로 베트남에 투자를 하려 한다. 갑돌이 베트남에 투자하여 성공할 확률은 얼마인가? 20%인가? 50%인가? 아니면, 100%인가?
- 아주 유명한 온라인 쇼핑몰에서 해킹에 대비한 자본을 확보하고자 한다. 해킹이 일어날 가능성이 20%이고, 그때의 피해액 1억 원이라고 했을 때, 이 쇼핑몰 CEO가 확보해야 하는 자본은 얼마인가? 1억원인가? 2천만(1억*20%) 원인가? 아니면, 0원인가?
- “확률(혹은 가능성)을 높인다(혹은 낮춘다)”는 것이 의미가 있는가? 예를 들자면, “고장 날 가능성을 줄인다”든지, “성공할 가능성을 높인다”든지, “(연애)애프터신청을 받을 가능성을 높인다”든지… 이런 것이 의미가 있을까?
이후 글을 보기 전에 시간을 가지고 질문에 대한 답을 생각해 보기 바란다. 예를 들어 놓았으니, 선택하는데 큰 어려움은 없을 것이다.
데이터(분석값)에 대한 단상
우선, 첫 번째 질문에 대한 여러분의 생각은 어떤가? 갑돌이를 한국인으로 봤을 때의 암 발병 사망률은 0.1%이고, 미국인으로 봤을 땐 0.5%라고 볼 수도 있을 것이다. 하지만, 결정적으로 국민을 대상으로 한 데이터(혹은 통계)는 개인의 “사망”과는 크게 관련이 없다. 갑돌이의 유전적 요인이나, 건강상태가 암 사망 보다 결정적인 영향을 미친다. 거시적인 데이터는 미시적인 행동 혹은 결정에 생각보다 관련이 없을 수 있다.
두 번째 질문은 어떤가? 철이를 기준으로 봤을 때, 갑돌이가 이거나 비길 가능성 즉, 철이가 질 가능성은 20% (100%-80%)이다. 하지만 가위바위보를 하는 갑돌이의 입장에서는 2/3가 된다. 만약, 갑돌이의 승률이 90%라고 하면, 갑돌이가 이길 가능성은 90%가 되고, 갑돌이가 “철이와 대결”에서 이기거나 진 비율이 40%라고 하면, 이번 판에서 갑돌이가 철이에게 이기거나 비길 가능성은 60%가 된다. 즉, 보기에 따라서 갑돌이가 철이에게 이기거나 비길 가능성은 20%가 될 수도, 66.666…%(2/3)가 될 수도, 90%가 될 수도 40%가 될 수도 있다. 하지만, 여기서 알아야 할 것은 이 데이터 값 중 일부는 나(즉, 갑돌이)의 데이터(분석값)이지만, 일부는 남의 데이터라는 점이다. 남의 데이터는 나(갑돌이)에게는 전혀 쓸모가 없다.
세 번째 질문에 대한 여러분의 생각은 어떤가? 우선 베트남 시장을 기준으로 보면, 또 다른 투자자인 영희가 베트남에서 성공할 확률을 20%로 보는 것이 타당해 보인다. 하지만, 영희는 지금까지 모든 투자를 100% 성공 했었다. 때문에 그다음 투자인 베트남 투자도 성공할 가능성이 커 보인다. 하지만, 그렇더라도 “100%는 너무하지 않냐?”라고 되묻는 당신 생각은…맞다! 영희입장에서의 베트남 성공 가능성은 대략 83% ~ 100% 사이의 가능성을 가질 것이다. 어떻게 이런 수치가 나왔는지 궁금한 이는 예전에 필자가 적었던 아래의 글을 참고하기 바란다.
하지만, 새로운 투자(베트남)는 이전 투자와는 연관성이 없을 가능성이 크다. 이전 상황(이벤트)과 독립적이란 뜻이다. 이럴 경우는 매번 처음 하는 것과 같은 가능성 즉, 50%(성공하거나 실패하거나)의 확률을 가질 수도 있다. 위에도 잠시 언급했듯이, 어떤 데이터 분석값은 나(영희)의 데이터이지만, 어떤 데이터 분석값은 남의 데이터이다. 때로는 복잡한 분석(베트남 시장 조사)으로 만들어진 데이터 분석값(20%)이 가장 간단한 논리로 만들어진 분석값(50%)보다 못할 수 있다.
설령, 복잡한 분석이 타당하다고 하더라도 말이다. 그렇다면, 갑돌이는 어떤가? 갑돌이의 경우는 “영희를 따라 한 경우”라고 하면, (83%~) 100%로 보는 것이, 최초 투자자의 관점에서 본다면, 50%로 보는 것이 타당하다. 둘 다 나의 데이터이기에 의미가 있는 것이다.
5번 문제에 대한 여러분의 생각은 어떠한가? 사실 이 문제는 나의 데이터, 너의 데이터에 대한 문제가 아니라, 확률(혹은 가능성)의 본질에 대한 문제이다. 이와 비슷한, 그러나 반대되는 개념을 예전에 다룬 적이 있다. 혹시라도 궁금하신 분들은 이전 글인 ‘도박과 확률 사이’를 참고하길 바란다.
CEO의 결정은 0원(투자 안 함)일 수도 있고, 1억 원(투자 함)일 수도 있다. 하지만, 확실한 것은 2천만 원(평균값)은 아니라는 것이다! 평균값(mean)은 데이터 과학을 하면서 가장 많이 사용하는, 가장 많이 알려진 데이터 분석값일 것이다. 통계나 수학을 모르더라도 누구나 한 번쯤 “평균(average)”에 대한 이야기를 들어본 적이 있을 것이다. 엄밀하게 말해, Average(평균)와 Mean(평균값)은 다른 값이다. 어쨌든, 여기서 중요한 것은 때로는 평균(값)이 현실에서는 이루어질 수 없는 “상상의 값” 일 수가 있다는 것이다.
바로 5번 문제처럼 말이다. CEO가 1억 원 손해에 대한 평균(값)인 2천만 원을 확보했다고 했을 때, 이 액수는 사실상 의미가 없다. 해킹을 당하게 된다면, 8천만 원이 모자라게 되고, 운이 좋아 해킹을 당하지 않았다면, 2천만을 낭비한 것이 된다. 어느 상황이 되던, 평균값(2천만 원)은 아무런 의미가 없는 것이다. 그렇기에 차라리 0원(투자 안 함)이 2천만 원보다는 더 현명한 투자가 되는 것이다. 즉, 0원이나 1억은 내 데이터이지만, 2천만 원은 남의 데이터인 것이다.
6번 질문에 대한 여러분의 생각은 어떤가? 예제들이 타당한 것 같은가? 예제를 보면 대체로 타당하다고 느낄 것이다. 그리고, 어떤 식으로든지 이러한 가능성을 높이거나 줄이는 일을 하는 것이 맞을 것이다…라고 단정하기 전에 다음 예화를 한번 보자.
통계학자가 타고 있던 비행기가 운항 도중 사고의 위험에 직면하게 된다. 기장은 승객들에게 사고로 인한 부상이나 사망의 “가능성”을 줄일 수 있는 모든 조처를 해달라고 승객들에게 이야기한다. 어떤 승객은 기도하고, 어떤 승객은 아이를 보호한다. 이때 통계학자가 등장한다. 그리고 모든 승객에게 다음과 같이 해줄 것을 당부한다. “모든 승객은 양말은 뒤집어 신으시오… 왜냐하면, 모든 승객이 뒤집힌 양말을 신은 채로 사고 날 확률이 일반 승객(양말을 제대로 신은)들에게 사고가 날 가능성보다는 훨씬 적을 테니까요….”
여기서 추가 질문이 있다.
- 통계학자의 (통계적) 논리는 타당한가?
- 통계학자의 조치로 사고의 가능성을 줄일 수 있을까?
위의 두 문제에 대한 대답이 6번 문제의 대답이 될 것이다. 우선, 위의 조치는 통계적인 논리로는 타당하다. 무슨 뜻이냐 하면, 확실히 뒤집힌 양말을 신은 사람이 비행기 사고로 죽거나 다칠 가능성이 제대로 양말은 신은 사람이 비행기 사고로 죽거나 다칠 가능성보다는 현저히 낮다. 그렇기에 사고의 “가능성”은 확실히 줄어든다.
하지만, 여러분도 아시다시피, 승객들이 양말을 바꿔 신는다고 해서 해당 비행기 사고로 인한 부상/사고에 영향을 주는 것은 아무것도 없다. 그보다는 아이를 보호한다거나, 안전벨트를 한다거나 하는 안전조치들이 사고로 인한 부상/사망을 직접 줄일 수 있는 요인인 것이다. 양말을 바꿔 신은 이가 사고가 나서 죽거나 다칠 가능성은 남의 데이터인 것이다. 때로는 “가능성”을 줄이는 것이 의미가 없을 때가 있다는 것이다. 가능성을 줄이거나 높이기보다는 실제적인 사건을 줄이는 것이 훨씬 중요하다. 비행기 사고에서 양말을 뒤집어 신는 대신 안전조치를 취하는 것처럼 말이다.
나의 데이터 남의 데이터
문제를 진지하게 풀어보고, 위의 단상들을 본 독자들이라면, “나의 데이터, 남의 데이터”가 무엇을 의미하는 것인지 어렴풋이 감이 왔으리라. 요즘 데이터 사이언스네, 비즈니스 애널리틱스네, 빅데이터네 많은 데이터 분석기법과 도구들이 난무하는 세상이지만, 데이터 분석보다 중요한 것이 데이터 자체이고 데이터 자체보다 중요한 것이 데이터가 내 것인지 남의 것인지를 아는 것이다. 데이터 과학을 제대로 하기 위해서 수학이 중요하고, 과학이 중요하고, 철학이 중요한 이유도 데이터 분석 자체 보다 근본적인 본질을 파악하기 위해서가 아닐까 싶다.
원문: amangkim의 브런치