※ The Conversation의 「How Cambridge Analytica’s Facebook targeting model really worked – according to the person who built it」을 번역한 글입니다. 조지워싱턴대학의 매튜 힌드맨(Matthew Hindman) 교수가 이번 페이스북 스캔들의 중심에는 있는 케임브리지대학 연구원 알렉산더 코건(Aleksandr Kogan)과 주고받은 이메일을 바탕으로 한 기사를 요약했습니다.
기사에는 케임브리지 아날리티카의 요청으로 개발한 심리 테스트 앱을 통해 수집한 페이스북 사용자 데이터가 머신러닝으로 어떻게 분석되고 사용자들의 성향은 어떻게 파악됐는지, 정치권은 이를 선거 때 맞춤형 유권자 공략에 어떻게 사용했는지에 관한 상세한 설명이 나옵니다.
페이스북 – 케임브리지 아날리티카(Cambridge Analytica)의 데이터 분석과 정치 광고 스캔들 폭풍의 한 가운데 선 연구자 알렉산더 코건은 페이스북 타깃팅 모델이 넷플릭스 영화 추천 모델과 비슷하게 작동한다고 밝혔습니다. 코건은 필자에게 이메일을 보내 케임브리지 아날리티카의 페이스북 데이터 통계 모델의 원리를 설명했습니다.
그가 밝힌 모델의 정확도는 인종, 나이 및 성별에 따른 기존의 유권자 맞춤형 공략법과 비슷해 보입니다. 그의 주장이 사실이라면, 케임브리지 아날리티카의 모델은 몇몇 사람이 주장한 것처럼 미래를 정확히 예측한 수정구슬 같은 역할까지는 하지 못한 것으로 보입니다. 그러나 코건의 설명을 따라가다 보면 머신러닝으로 개인 데이터를 분석해 정치적으로 활용하려 할 때 어떤 예측이 가능했는지 알 수 있습니다.
사용자의 성격이나 ‘심리 분포(psychographics)‘ 정보는 사용된 모델이 일반 시민을 정치적 타깃으로 했음을 보여주는 일부분에 불과합니다. 정확하게 표현하면 이 모델은 단순한 성격 기반 모델이 아니라 인적 통계 분포, 사회적 영향력, 성격 및 다른 요소들을 서로 연관성이 있는 큰 덩어리로 묶어 ‘심리 분포’라고 부른 이 접근법이 가치 있는 캠페인 도구를 만들어 낸 것입니다.
개인 성향 타깃팅
트럼프 선거 캠페인에 컨설팅을 제공했던 케임브리지 아날리티카가 2016년 미국 대통령 선거 기간 동안 5,000만 명의 페이스북 사용자의 데이터를 이용해 디지털 정치 광고를 타깃으로 한 사실이 알려지면서 페이스북은 주식가의 몇천만 불을 잃었고 미국 정부와 유럽 정부는 조사에 착수했으며, 사용자들에게 페이스북 계정의 삭제를 촉구하는 #DeleteFacebook 움직임이 시작되었습니다.
그러나 가장 핵심적인 질문에 대한 대답이 아직 남아 있습니다. 케임브리지 아날리티카는 회사 내부 고발자가 주장하듯 실제로 성향에 따라 시민들의 속에 잠자던 분노를 부추기며 효과적으로 시민들을 타깃팅 했을까요? 페이스북 데이터에서 얻은 거대한 데이터를 가지고 케임브리지 아날리티카가 실제로 무엇을 했는지 아는 사람은 알렉산더 코건과 공동 연구자 조셉 챈슬러(Joseph Chancellor)입니다.
이 두 사람이 시작한 글로벌 과학 리서치 스타트업은 ‘Thisisyourdigitallife’라는 심리 테스트 앱을 사용해 27만 명의 페이스북 유저와 수많은 사용자의 친구들로부터 데이터를 수집했습니다. 코건은 아직 케임브리지 대학에서 연구원으로 재직하며 챈슬러는 현재 페이스북에서 일합니다. 필자는 코건에게 이메일을 보내어 질문을 했고, 놀랍게도 코건에게 회신을 받았습니다.
넷플릭스에서 심리경제학까지
지난 2006년, 넷플릭스는 다른 회사가 소유한 방법 외에 사용자의 영화 순위를 더 나은 방법으로 예측을 하는 참가자에게 100만 달러의 상금을 제안한 대회를 열었습니다. 최종 우승자는 사이먼 펑크(Simon Funk)라는 가명을 쓰는 프리랜서 소프트웨어 개발자였습니다. 그가 사용한 방법은 궁극적으로 모든 최고의 팀들이 제출한 방식을 모두 합한 것과 같은 방식이었는데, ‘비 정칙값 분해(Singular Value Decomposition, SVD)’로 불리는 분석기술을 도입했습니다.
사용자의 영화 평점을 일련의 인자(factor)나 요소(component), 즉 근본적으로 유추된 카테고리들로 압축해 중요도에 따라 순위대로 나열한 것이었습니다. 펑크의 블로그에는 이렇게 설명이 되어있습니다. ‘액션 영화 카테고리를 예로 들면, 순위에서 위쪽에는 액션이 많이 포함된 영화가 있고 아래쪽에는 좀 느린 영화가 나열됩니다. 그리고 이에 상응해 액션을 좋아하는 사용자들이 위쪽에 배치되고 좀 더 느린 영화를 좋아하는 사용자들은 아래쪽에 있게됩니다’
이런 인자(Factor)들은 인공적으로 만들어진 카테고리이며 사람이 흔히 생각해낼 만한 카테고리가 아닐 수도 있습니다. 펑크의 초기 넷플릭스 모델에서 가장 주목할만한 요인은 〈진주만〉이나 〈웨딩 플래너〉 같은 영화를 좋아하고 〈사랑도 통역이 되나요(Lost in Translation)〉나 〈이터널 선샤인〉 같은 영화를 싫어하는 사람들을 그룹으로 정의했다는 사실입니다. 펑크의 모델은 머신 러닝이 사람들과 영화들 사이에 상관성을 찾고 인간들이 알아채지 못하는 그룹들을 발견할 수 있는지 보여주었습니다.
펑크의 일반적인 접근은 넷플릭스 사용자와 영화들에서 각각 500-100개의 가장 중요한 요소를 찾아서 각 사용자가 영화 하나마다 어떤 평점을 줄지 예상을 하도록 했습니다. 차원 축소(dimensionality reduction)’ 나 ‘행렬 분해(matrix factorization)’라고 불리는 이 방법은 새로운 분석법은 아닙니다. 정치학 연구자들은 호명식(roll-call) 투표 데이터를 사용해 유사한 방법으로 국회의원들의 투표를 90%의 정확도로 예측할 수 있었습니다. 또한, 모델은 심리학에서 ‘다섯 가지 성격 특성 요소(Big Five)’ 에 유사한 대답을 보이는 질문을 그룹으로 묶어 행동을 예측하는 데 사용했습니다.
그러나 펑크의 모델은 큰 발전을 한 것이었습니다. 그의 모델은 대량의 데이터가 있는 경우뿐 아니라 대량의 데이터가 없는 경우, 즉 사용자가 넷플릭스의 라이브러리 내 몇천 개의 영화 중 10-20개의 영화에만 평점을 준 경우에도 매우 잘 예측했습니다. SVD 기반 모델이나 내포된 데이터에 대한 관련 모델은 넷플릭스 대회가 열린 지 10여 년이 지난 지금도 많은 웹사이트에서 사용자들이 무엇을 읽고, 보고, 구매할지 예측하는 도구로 아직도 선택됩니다. 이 모델은 이번 페이스북 사건처럼 다른 사항들도 예측 할 수 있습니다.
페이스북은 당신이 공화당 지지자라는 사실을 알고 있다
2013년 케임브리지 대학 연구원인 마이클 코신스키(Michal Kosinski), 데이빗 스틸웰(David Stillwell)과 토리 그레에펠(Thore Graepel)은 온라인 성격 테스트를 통해 집계된 정보를 사용한 페이스북 데이터의 예측력에 대한 논문을 발표했습니다. 연구원들의 초기 분석은 넷플릭스 대회에서 사용된 분석과 거의 동일한 SVD 방법을 사용해 사용자와 사용자들이 ‘좋아요‘를 누른 내용 두 가지를 상위 100개의 요인으로 분류했습니다.
논문은 사용자의 페이스북 ‘좋아요’ 데이터만 이용해 만든 요인 모델만으로도 응답자가 백인인지 흑인인지 95%의 정확도로 맞췄으며, 남녀를 구분하는 정확도는 93%였고 성 소수자와 그렇지 않은 사람을 88%의 정확도로 구분해내었습니다. 심지어 사용자의 정치 성향이 공화당인지 아니면 민주당인지도 85%의 정확도로 맞출 수 있었습니다.
또한 사용자들의 ‘다섯 가지 성격 특성 요소’ 성격 테스트의 점수를 정확히 맞추지는 못했지만 예측하는 데 유용했습니다. 이 논문을 본 사람들은 엄청난 항의를 했습니다. 몇 주 후 페이스북은 사용자의 ‘좋아요’ 정보에 대한 기본 설정을 비공개로 변경했습니다.
당시 케임브리지 대학의 연구원이었던 코건과 챈슬러는 케임브리지 아날리티카의 모회사인 SCL사와 협력해 선거 타깃팅을 목적으로 페이스북 데이터를 사용했습니다. 코건은 코신스키와 스틸웰을 프로젝트에 초대했지만 그들은 참여하지 않았습니다. 코신스키는 코건과 챈슬러가 페이스북의 ‘좋아요’ 모델을 리버스 엔지니어링 했다고 의심했습니다. 코건은 ‘직접 만든 소프트웨어로 수집한 우리가 소유한 데이터를 사용해 모델을 만들었다‘며 이를 부인했습니다.
코건과 챈슬러는 무슨 일을 벌였을까
코건과 챈슬러가 ‘Thisisyourdigitallife’ 앱을 통해 실제로 데이터를 수집한 사실은 분명합니다. 두 사람은 코신스키와 스틸웰이 발표한 연구에 사용한 모델과 동일한 예측 SVD 모델을 만들었을 수도 있습니다. 필자는 코건에게 이메일을 보내어 사실 여부를 물었습니다. 코건은 다음과 같이 답신을 보냈습니다.
저희가 사용한 분석법은 정확히는 SVD 분석 방법이 아닙니다.
이렇게 밝힌 코건은, 일부 사용자가 다른 사용자에 비해 더 많은 ‘좋아요’를 누르게 될 경우 SVD 모델이 잘 작동하지 않을 수도 있다고 이메일에 설명했습니다. 코건은 “우리가 사용한 분석법은 직접 개발한 기술이며, 공개적으로 오픈되어 있는 분석법을 사용하지 않았습니다”라고 말하면서 다른 부연 설명 없이 자신이 사용한 분석 방법을 ‘다중 단계 동시 발생 접근법(multi-step co-occurrence approach)‘ 이라고 말했습니다.
그러나 이메일의 뒷 부분에서 그의 접근법은 넷플릭스 경연대회의 SVD나 코신스키–스틸웰–그레에펠 페이스북 모델의 행렬 분해 방법과 매우 유사하다는 사실이 확인되었습니다. 페이스북 데이터의 차원 축소(dimension reduction)가 바로 그의 모델의 핵심이었던 것입니다.
모델은 얼마나 정확했을까?
코건은 사용된 모델의 방법은 별로 중요하지 않으며 중요한 건 예측의 정확도라고 말했습니다. 코건에 따르면 예측된 점수와 실제 점수간의 상관 관계는 모든 차원에서 약 30% 정도였습니다. 이전의 다섯 가지 성격 특성 요소 점수를 이용한 예측은 테스트를 다시 실시했을 때 나온 점수에 대해 약 70-80% 정확도를 보였습니다.
코건의 모델의 정확도에 대한 주장은 독립적으로 확인될 수 없습니다. 그리고 이렇게 주목 받는 스캔들의 한 가운데 있는 사람이라면 자신의 참여도에 대해 더 축소해서 말하는 것이 유리할 수도 있습니다. 코건은 CNN에 출연해 그의 말에 의문을 가졌던 앤더슨 쿠퍼에게 자신이 만든 모델의 예측이 실제로는 잘 맞지 않았다고 설명했습니다.
CNN에 출연한 알렉산더 코건, 질문에 답하다
코건이 주장하는 모델의 정확도는 다소 낮게 보이나 타당해 보이는 결과입니다. 코신스키, 스틸웰, 그레에펠은 유사하거나 약간 더 개선된 결과를 보고했으며 디지털 흔적(digital footprint)을 사용해 성격을 예측한 학계의 많은 다른 연구들도 좀 더 나은 결과를 보고했습니다(그러나 이중 몇몇 연구는 페이스북의 ‘좋아요’보다 더 많은 데이터가 있었습니다).
코건과 챈슬러가 이미 기존 분석법과 유사한 정도의 정확성을 위해서 자신의 독점적인 모델을 설계하는 수고까지 한 사실은 좀 이상합니다. 그러나 중요한 점은 성격 테스트 점수에 대한 모델의 정확도가 코건의 결과를 다른 연구와 비교할 수 있게 해준다는 점입니다. 성격을 예측하는데 동등한 정확도를 가진 발표된 모델은 인적 통계 및 정치 다양성을 예측하는 데 있어 훨씬 더 정확도가 높습니다.
예를 들면 유사한 코신스키–스틸웰–그레에펠의 SVD모델은 ‘좋아요’ 정보 이외의 다른 어떤 프로필 정보를 사용하지 않아도 어느 정당을 지지하는지 85%의 정확도로 예측했습니다. 코건의 모델은 유사하거나 더 나은 정확도를 보였습니다. 친구나 사용자의 인적 사항에 대한 작은 정보를 추가하는 것만으로도 정확도를 90% 이상으로 올릴 수 있을 것입니다. 성별, 인종, 성적 취향 및 다른 특징들에 대한 예측 또한 90% 이상이 될 것입니다.
더욱 중요한 건 이런 예측은 페이스북을 가장 활발하게 사용자일수록 특히 더 잘 맞으리라는 사실입니다. 모델은 바로 이런 사용자 그룹을 중점적으로 이용합니다. 분석할 활동 데이터가 적은 사용자는 어차피 페이스북을 잘 사용하지 않기 때문에 타깃팅을 할 이유가 없게 됩니다.
심리 데이터가 곧 인적 데이터를 의미할 때
모델이 어떻게 만들어졌는지 알고 나면 모델을 만드는 과정에서 성향 프로파일링과 심리 분포 데이터의 역할(혹은 아무 역할도 하지 않았다고 주장하는)에 대한 케임브리지 아날리티카의 모순적인 발언을 이해하게 됩니다. 그 모든 발언들은 코건의 설명과 기술적으로 일관성을 보입니다.
코건이 개발한 종류의 모델은 모든 사용자 그룹의 가용 변수에 대한 예측을 제공하게 됩니다. 즉 모든 투표자들에 대한 다섯 가지 성격 특성 점수를 자동으로 예측한다는 의미입니다. 그러나 이런 성격 점수는 모델의 결과물이지 입력값이 아닙니다. 모델이 알던 유일한 데이터는 페이스북의 ‘좋아요’나 특정 사용자들이 그룹을 이루는 경향입니다.
케임브리지 아날리티카는 이 모델로 덜 개방적이고 더 신경질적인 성향의 사람들을 인식했다고 할 수 있을 겁니다. 하지만 동일한 모델로 정확히 같은 예측을 통해 교육 수준이 낮고 나이가 많은 공화당을 지지하는 남자를 또한 예측할 수 있었다고 주장할 수 있습니다.
코건의 정보는 또한 데이터를 사용해 만들어진 모델이 여전히 사용되고, 심지어 더 개발되는 것으로 보이는 현 시점에 케임브리지 아날리티카가 자신들이 획득한 페이스북 데이터를 실제로 삭제했는지에 대한 혼란을 정리할 수 있게 해줍니다.
차원 축소 모델의 주요 논점은 수학적으로 데이터를 더 단순한 형태로 표현한다는 점입니다. 이는 케임브리지 아날리티카가 상당히 고화질의 사진을 찍은 다음, 사진을 작은 크기로 재조정한 후 원본을 삭제하는 과정에 비유할 수 있으며 그 사진은 아직 존재한다는 것입니다. 그리고 케임브리지 아날리티카의 모델이 존재하는 한 데이터 역시 사실상 존재한다는 의미입니다.
원문: 뉴스페퍼민트