제목만 보고 ‘그래서 선거를 조작했다는 거냐?’의 대답이 궁금해서 이 글을 읽는 경우라면, 지금이라도 읽지 말고 그냥 가던 길 가시길 권고드립니다.
본 글은 확률의 기본 정의와 증명 방법을 설명하는 글입니다. 글 내용이 길고 생각을 많이 하셔야 합니다. 더 결정적으로, 이 글을 끝까지 읽더라도 원하는 대답을 얻으실 수 없습니다. 그럼에도 글의 제목을 저렇게 만든 이유는 이번 총선 조작 여부에 관한 예제를 이 글 말미에 사용했기 때문입니다.
선거 조작을 통계적으로 증명할 어떤 대답을 원했던 분들께는 미리 사과의 말씀 드립니다. 죄송합니다. 낚이셨습니다…:p
0. 확률의 기본정의 (Definitions of Probability Theory)
간만에 복습도 할 겸, 확률의 정의(Definition)와 이 정의를 기반으로 한 몇 가지 증명을 해 보았다.
확률을 수학적으로 정의하는 데는 여러 방법이 있지만, 그중 가장 쉽고 기본이 되는 ‘집합’을 이용한 확률(론)의 정의를 하도록 하겠다. 그림에 표시된 것처럼 ①–④까지는 확률(론)의 정의(defnition)이다.
이게 별것 아닌 것 같지만 위의 정의는 확률론뿐 아니라 통계를 포함해 데이터를 다루면서 ‘확률론적’ 내지는 ‘통계적’ 내지는 ‘수학적’이라는 이름을 갖다 붙이는 순간, 이후의 모든 분석과 전개는 위의 4가지 정의를 만족해야 한다. 그 이유는 통계적 이론은 확률이론을 기반으로 만들어졌기 때문이다.
굳이 집합관계에서 이야기하자면 수학(이론)이 가장 큰 집합, 확률(이론)이 수학 안에 포함되는 부분집합. 그리고 통계이론은 확률이론 안에 포함되는 부분집합이 된다. 즉 수학 이론을 벗어난 확률 이론이 있을 수 없고, 확률 이론을 벗어난 통계 이론이 있을 수 없다는 의미이기도 하다. 그리고 위 4가지를 기반으로 참(True)임이 증명된 내용 ⑤–⑧ 또한 그 어떤 데이터 분석이나 통계 분석의 결과보다 우선한다.
이게 무슨 말이냐 하면, 어떤 명제의 증명에 있어서 데이터 분석이나 통계가 아무리 참이라고 이야기하더라도, 위의 ①–⑧ 중 한 가지라도 위배가 된다면 그 데이터 분석이나 통계 분석은 ‘통계적’으로 잘못된 것((False))이다.
1. ⑤–⑧의 의미
확률의 정의를 통해 확장된 내용이 실제로 어떤 의미인지 하나씩 풀어보도록 하겠다.
⑤: 불가능(P(w)==0) 하다는 것 == 사건이 일어나지 않는다 (w가 공집합)
참인 명제. 이게 무슨 뜻이냐 하면 ‘사건이 일어난다’는 의미는 ‘가능성이 있다’라는 의미와 동일하다는 뜻이다. 즉 사건이 일어났다면 (그 가능성이 많고 적고를 떠나) 0이 아닌 확률값이 존재한다는 뜻이기도 하다. 반대로 불가능, 즉 확률값이 0이면 ‘그 사건은 절대로 일어나지 않는다’는 의미도 동일하다.
⑥ 사건이 일어나지 않았는데(즉, w==공집합), 0보다 큰 가능성(확률값)이 존재한다는 명제
거짓인 명제. ⑥이 거짓인 이유는 ⑤가 참이기 때문이다. 사건이 일어날 수 있다면 무조건 0보다 큰 확률값(즉, 가능성)이 존재해야 하고, 사건이 일어날 수 없다면 확률값은 반드시 0(즉, 불가능)이어야 한다.
⑦ 사건이 일어날 수 있는데(즉, w!=공집합), 가능성이 존재하지 않는다(즉, P==0)는 명제: 거짓
거짓인 명제. ⑦이 거짓인 이유는 ⑤이 참이고, ⑥이 거짓이기 때문이다. 사실 ⑤만으로도 거짓임이 증명 가능함. 사건이 일어날 수 있다면 그 가능성은 무조건 존재해야 하고, (어떤 사건의) 가능성이 존재한다면 그 사건은 반드시 일어나야 한다. 반드시 일어나야 한다는 의미는 ‘현재’에 이미 일어났을 수도 있고, ‘미래’에 일어날 수도 있다는 걸 뜻한다.
⑧ 가능하다는 것(P(w)!=0) == 사건(w)은 반드시 (한번은) 일어난다(w!=0)
④와 ⑤가 참이기 때문에 ⑧ 또한 참이다. 다만 ⑦에서 언급한 것처럼 확률의 기본 정의에는 시간 개념이 없다. 즉 현재를 기준으로 이미 일어났을 수도 있고, 현재까지는 일어나지는 않았지만 미래에 일어날 수도 있다. 확실한 것은 ‘반드시’ 사건은 일어난다는 것이다. 반드시!
2. 동전 100개를 한꺼번에 던지기
당신이 동전 100개를 한꺼번에 던졌는데 전부 앞면이 나왔다고 하자. 그런데 이를 본 미동이가 ‘동전 100개가 모두 앞면이 나오는 것이 확률적으로 불가능하니까, 이 동전들은 조작되었다’라는 주장을 했다고 하자. 당신은 미동이의 주장을 어떻게 받아들일 것인가?
우선 위의 주장엔 ‘확률적’이라는 표현이 있다. 이 단어가 의미하는 것은 미동의 주장은 ‘확률의 정의’를 기반으로 한다는 의미이다. 미동이의 주장을 명제 꼴로 쓰자면,
- C1: Fair한(즉 조작되지 않은) 동전 100개 모두 앞면이 다 나오는 것이 확률적으로 불가능하다.
- S0: 동전은 조작되었다.
- S1: C1 → S0
여기서 S1은 미동의 주장을 명제의 형태로 바꾼 것이고, 미동이가 S1 명제가 참이라는 것을 주장하는 것이다. 미동이의 주장(S1)이 참이 되려면 C1이 참이 되어야 한다. 그리고 C1는 거짓인 명제. C1이 주장하는 것을 조금 더 풀어 쓰자면,
- Fair한(조작되지 않은) 동전 100개가 동시에 앞면이 나올 가능성은 있으나 (p(w) >0) [AND] 그 사건은 일어날 수 없다(w=공집합)
- C1: p(w) >0 [AND] w=공집합
이 된다. 잘 보면 알겠지만 위의 문장은 수학적으로 ⑥과 동일한 문장이다. ⑥이 왜 거짓인지는 이전에 설명했으니 생락하고. 그래서 결론은 C1, 즉 ‘Fair한 동전 100개가 앞면이 다 나오는 것이 확률적으로 불가능하다.’는 거짓인 명제라는 것이다. 바꿔 말해 Fair한 동전 100개가 동시에 앞면이 나오는 것은 ‘확률적/통계적’으로 가능하다는 의미이기도 하다.
이 즈음 되면 여러분께서는 한 가지 의문이 들것이다. 위의 문장이 맞다면 ‘100개의 동전은 조작되지 않았다(모두 Fair하다)는 의미인가?’라는 질문일 것이다. 대답은 ‘알 수 없다’이다. 조건부 명제에서 조건(C1)이 거짓인 경우, 원래 명제(S1)는 C1 명제에 관계없이 ‘(S1자체가 참이면), S1은 무조건 참’이라는 의미이기 때문이다.
혹시라도 위의 문장이 왜 그런지 모르겠다면 집합과 명제 파트 중에 조건부 명제의 진리표를 참고하기 바란다. 다시 말해 미동이는 100개의 동전이 어떻게 나오든 ‘상관없이’ 동전이 조작되었는지 ‘별도로’ 밝혀야 한다는 뜻이기도 하다.
3. 어떤 정치꾼의 글
통계학자였으며 물리학자였던 어떤 정치꾼이 다음과 같은 글을 페북에 올렸다.
투표자의 행위를 ‘통계적’으로 해석할 때 불가능한 일이 일어난 것이다.
=그렇기 때문에 이 선거는 조작이다. 참고로 이 주장은 동전 100개 던지기의 미동이 주장과 동일하다. 이해를 돕기 위해 주장을 명제의 형태로 풀어 쓰면,
- C1: 투표자의 행위를 통계적으로 해석할 때 (가능성은 있으나(P(w)>0) 0(zero)에 수렴하기에, 현실에서는) 불가능한 일(w)이 일어난 것(w!=공집합)이다.
- S1: 선거는 조작이다.
- S1: C1 → S0
이 된다. 원래 문장과 약간 수정이 되었음을 참고하고, 읽는 이들은 가운데는 0과 0으로 수렴하는 게 같은 것이 아니냐는 생각을 하실 수도 있다. 결론부터 이야기하면 틀렸다. 0과 0으로 양수(+) 쪽에서 수렴하는 것과 0으로 음수(-)에서 수렴하는 것은 다 다르다. 즉,
- 0 != 0+ != 0-
이다. 혹자는 수렴하는 것이니 같다고 할 수 있는 것 아니냐고 이야기할지도 모르겠는데 그 또한 기각(Reject)이다. 그 이유는 이 정치꾼이 ‘통계적’으로 해석했기 때문이다. 위에도 언급했지만 통계적이라는 것은 확률적이라는 것이고, 확률적이라는 건 수학적이라는 의미이다. 수학적/확률적으로 0과 0으로의 수렴은 완전히 다른 말이다.
이야기가 옆으로 샜는데 어쨌든 C1을 다시 명제의 형태로 풀어 쓰자면,
- 선거구 투표 숫자가 동일하게 나올 가능성은 있으나 (p(w) >0), [AND] 그런 일은 (현실에서) 일어날 수 없다(w=공집합)
- C1: p(w) >0 [AND] w=공집합
여기서의 질문,
- C1 명제는 참인가? 거짓인가?
- C1이 거짓이라고 했을 때, S1명제의 참/거짓에 어떤 영향을 미치는가?
위 질문의 답은 여러분이 직접 구해보기 바란다. 늘 그렇듯이 판단은 각자의 몫이다. 페북에 올렸던 피딩으로 글을 마무리하겠다.
원문: Amang Kim의 브런치