야구는 수학과 가장 연관이 많은 스포츠 종목 중 하나이며 실제 메이저리그 대다수의 팀들은 통계학적인 분석을 바탕으로 팀을 운영해 성공을 거두기도 한다. 다만 종목의 특성상 야구는 다른 종목에 비해 한 경기를 놓고 봐선 운이 크게 작용하기에 승패를 맞추기 더 어렵다.
야구에서 예측 자체가 어떤 의미가 있나 싶긴 하지만(이는 간단히 스포츠토토의 배당률이나, 각 종목 리그별로 승률이 어떻게 분포되는지를 보면 쉽게 알 수 있다.) 그래도 수치 덕후들이 많이 관심을 가지는 종목답게 수학적으로 승률을 예측하는 식이 존재한다.
피타고리언 승률
1981년, 세이버메트릭스의 아버지인 빌 제임스는 본인의 저서 ‘Bill James Baseball Abstract’를 통해 Log5라는 공식을 공개했다. 로그라는 용어가 나오기에 바로 관심을 접을 수도 있겠지만 이는 ‘지수와 로그’에 나오는 개념의 로그가 아니라 빌 제임스가 붙인 이름일 뿐이다.
아무튼 이는 팀의 승률을 바탕으로 리그 평균의 팀(.500 승률의 팀)과 맞붙었을 때의 팀의 능력을 구한 후, 그 팀의 능력을 바탕으로 각 팀이 서로 맞붙었을 때의 승률을 구하는 시스템이다.
화요일부터 시작될 삼성과 넥센의 한국시리즈를 이 시스템을 바탕으로 예상해보도록 하겠다. 팀의 승률 대신, 팀의 진정한 재능을 더 잘 표현한다고 생각되는 피타고리안 승률을 이용하여 구해보도록 하겠다. 먼저 삼성은 이번 시즌 812득점, 621실점을 올렸는데 피타고리안 승률로 기대승률을 구해보면 .620이 나온다.
실제 삼성의 승률은 .624인데 실제 팀이 보여준 퍼포먼스만큼의 승률을 올렸다고 볼 수 있다. 841득점, 716실점을 기록한 넥센이 기대승률은 .573인데 이는 정규시즌 승률 .619에 비해 떨어지는 승률이다. 득실점을 바탕으로 구하는 승률이기에 크게 이기거나 크게 지는 경우가 잦을 경우나 혹은 그냥 운이 좋거나 없을 때 등 여러 가지 이유로 실제 승률과 어느 정도의 차이는 나타날 수 있다.
아무튼 이렇게 구한 기대승률을 2로 나누고, 그 결괏값을 (1-기대승률)로 나눠준다. 그렇게 하면 특정 값이 나오게 되는데, 그 값이 바로 그 팀의 Log5 값이다. 특정 Log5 값을 가진 팀이 리그 평균의 팀과 맞붙는다면 기대승률이 나온다는 것을 의미한다. 맞대결 시의 기대승률은 그렇게 나온 각 팀의 Log5값을 바탕으로 구한다. A팀과 B팀이 경기할 때 A팀의 승률은 A팀의 Log5값/(A팀의 Log5값 + B팀의 Log5값)으로 구할 수 있다.
그렇게 구한 삼성과 넥센의 맞대결 시 기대승률이다. 한 경기를 했을 때 삼성이 이길 확률이 54.9%, 넥센이 이길 확률이 45.1%라는 의미이다. 앞서 말한 야구라는 종목의 특성상 원래 승부를 예측하기 어려우며, 특히나 한국시리즈까지 올라온 팀들이기에 기본적인 전력을 갖추고 있는 팀들이라 예상 승률의 오차는 10%밖에 나지 않는다.
한국시리즈 승률을 피타고리언 승률로 예측해 보기
한국시리즈는 7전 4선승제로 펼쳐지는데 한 경기 승률이 아니라 7전 4선승제의 시리즈 승률도 구할 수 있을까? 중고등학교 수학 시간에 배운 확률과 통계를 응용한다면 구할 수 있다. 예를 들어 삼성이 넥센을 5차전 만에 4승 1패로 꺾고 우승할 확률을 구하는 방법은 아래와 같다.
삼성의 맞대결시 기대승률과 넥센의 맞대결 시 기대승률에 각각 승을 넣어주고 경우의 수를 곱해준다. 뒤의 경우의 수는 마지막 경기에서 이기는 팀이 우승을 하는 것이기에 그걸 빼고, 나머지 경기(5차전, 4승 1패 기준이니 4경기)에서 3승을 거둘 경우의 수를 구해주는 것이다.
위의 방법으로 나올 수 있는 모든 경우의 수를 구하면, 삼성이 우승할 확률은 60.5%, 넥센이 우승할 확률은 39.5%라는 결과가 나오게 된다.
물론 이는 지나간 숫자를 바탕으로 구하는 것이기에 앞으로의 미래를 예측하는 데 있어 정확도가 떨어질 수 밖에 없으며, 특히나 정규시즌과 포스트시즌의 근본적인 차이(이동일로 인한 휴식일 보장으로 인해 정규시즌 돌아가는 5인 로테이션 대신 3~4명의 선발투수가 등판하며, 정규시즌에 비해 마무리투수가 소화하는 이닝의 비중이 크게 올라간다.) 등으로 인해 득실차로 구한 기대승률을 바탕으로 맞대결시 기대승률을 구한 것의 정확도가 떨어지게 된다.
그러나 어떤 방법으로 예측하더라도, 어차피 다들 틀리는 것이 야구라는 종목이 아닐까. 믿거나 말거나, 혹은 의미부여를 얼마나 하는지는 각자 개인의 판단에 달린 일이고, 숫자는 삼성이 6차전에서 4승 2패로 한국시리즈 우승을 거둘 확률이 가장 높다고 말해주고 있다.
원문 : KBReport