대학 선배 한 분이 이 페이스북 포스트에 댓글을 남기셨습니다. 해당 포스트 내용은 이렇습니다.
조선일보에서 복잡하게 설명했지만 동일한 지역에서 출생신고한 사람은 (주민번호) 뒷자리 중 네 개가 같다.
거기에 첫자리는 성별에 따라 나뉘니 경우의 수는 2. 6번째 숫자는 신고순서에 따라 붙이는 거라 대부분이 1이다. 적당히 봐줘도 경우의 수는 1.2 정도. 결국 마지막 숫자만 10개의 경우의 수가 있다. 대충 계산해보면 한지역에서 신고한 사람들이 다른 번호를 받을 경우의 수는 10*2*1.2 =24 정도다. 확률적으로 20명이 모이면 한쌍 이상 일치할 확률은 거의 100%에 수렴한다”고 하셨다.
그렇다면 여기 등장하는 조선일보 기사는 어땠을까요?
이정희 공동대표도 이날 회견을 갖고 반박에 나섰다. 이 대표는 “우리나라 주민번호 체계상 동일한 지역에서 출생신고를 한 사람 20명만 모이면 그중 한 쌍 이상은 뒷번호 7개가 일치할 확률이 대단히 높다”고 말했다. 하지만 정부 관계자는 “말도 안 되는 얘기”라고 했다.
주민번호 앞자리 6개 숫자는 생년월일을 의미한다. 뒷자리 7개의 숫자 중 맨 앞은 성별, 다음 4개의 숫자는 출생한 지역(3629개 읍·면·동)의 고유번호다. 같은 읍·면·동에서 태어난 남성(또는 여성)은 모두 다섯 번째 숫자까지는 똑같은 것이다. 그 다음 여섯 번째 숫자는 신고일의 출생신고 순서에 따라 1, 2, 3 순으로 번호를 부여한 뒤 0까지 갔다가 다시 1을 부여한다. 같은 읍·면·동에서 태어났더라도 여기서부터 10개의 숫자로 나뉘는 것이다.
마지막 7번째 숫자는 이렇게 생성된 주민번호가 정상인지를 검증하기 위해 일정한 수식에 의해 자동 추출되는 ‘오류검증번호’다. 따라서 성별이 같고 같은 지역에서 태어난 사람의 경우 뒷번호의 앞 5자리가 같을 수 있지만 나머지 2자리까지 같을 확률은 매우 낮다는 것이다. 더구나 3만6000여명의 투표자 중에 뒷자리 번호가 같은 사람이 다섯 사람이나 나올 확률은 극히 낮을 수밖에 없다.
한 번 통계적으로 따져 보겠습니다. 글쓴이는 여섯 번째 자리가 “대부분이 1이다. 적당히 봐줘도 경우의 수는 1.2 정도”라고 하셨지만 저부터 3입니다. 그러니 1.2는 사실 너무 작죠. 그래서 0~9까지 최대치를 따져 10이라고 치겠습니다.
그러면 같은 동네에서 출생 신고한 사람 뒷자리는 성별(2개) – 물론 지금은 4개지만 이번 사안에서는 2개가 맞습니다 – 여섯, 일곱 번째 자리(각 10개)를 조합해 만들게 됩니다. 중간에 네 자리는 어차피 똑같으니까요. 그러면 2×10×10=200을 경우의 수로 상정할 수 있습니다. 그러면 20명이 모였을 때 뒷번호가 일치할 확률은 10분의 1일까요?
여기에 등장하는 개념이 ‘생일 역설’ 또는 ‘생일 문제’입니다. (4년 마다 돌아오는) 2월 29일을 제외하면 1년은 365일입니다. 만약 23명이 모였을 때 생일이 똑같은 두 사람이 있을 확률을 얼마일까요? 정답은 50.7%입니다. 언뜻 생각하는 것보다 훨씬 높죠? 365분의 1부터 따져야 할 것 같지만 확률적으로는 그렇지 않은 겁니다. 70명이 모이면 생일이 똑같은 두 명이 있을 확률은 99.9%까지 올라갑니다.
같은 방식으로 ‘이정희 역설’을 계산해볼 수 있습니다. 그러니까 1년이 200일이라고 할 때 20명이 모이면 생일이 똑같은 사람이 존재할 확률을 계산해 보는 겁니다. 그러면 62.6%가 나옵니다. 아무래도 태어난 순서에 경우의 수 열 가지를 적용하는 건 너무 많은 듯 싶으니 절반(5)으로 줄이면 하면 87.0%, 제 주민번호를 따라 3을 기준으로 삼으면 97.2%가 나옵니다. 글쓴이처럼 1.2를 기준으로 잡으면 수렴하는 정도가 아니라 사실상 100%라고 봐도 무방한 수준입니다.
이정희를 편들고 싶은 마음은 추호도 없고, 이 문제는 결국 사기친 걸로 밝혀진 내용. 또 이정희가 말한 “대단히”가 어느 정도인지는 모르겠지만 통계적으로는 정부 관계자가 “말도 안 되는 얘기”라고 했던 게 더 말도 안 되는 얘기였다는 얘기입니다.