※ 이 글은 slate에 실린「Who Controls Your Facebook Feed」를 번역, 발췌하여 필자의 의견을 덧붙인 글입니다.
페이스북 이용자는 일주일 평균 1,500개의 포스팅, 친구가 수백 명에 달한다면 1만 개의 포스팅에 노출된다고 한다. 그런데 페북 뉴스피드 알고리즘에 따라 대부분의 이용자는 이 중 몇백 개만 보게 된다고. 즉, 이용자가 맘에 들어 할 일부만 골라주는 게 페북의 능력이다.
왜 알고리즘에 매달리게 되는지는 결과가 말해준 알고리즘 덕에 버즈피드나 Vox는 날개를 달고, 100년 전통의 신문사들은 죽어간다. 징가나 리빙소셜을 수십억 달러 가치의 기업으로 키운 것도 페북이요, 페북이 코드 좀 바꿨더니 빈털터리 투자자와 해고된 노동자들만 남기기도 하고.
페북 알고리즘에 따라 노출 좀 잘 되려고 안간힘을 쓰는 건 당연지사다. 사실 검색 최적화(Search Engine Optimization)라든지, 어뷰징이라든지, 모두 검색 엔진, 즉 알고리즘에 따라 눈에 잘 띄기 위한 발버둥이다. 검색 최적화는 마케팅 하는 분들이 열심이고, 어뷰징은 언론사들이 열을 올리는 정도.
매체들, 광고주들, 온갖 전문가들이 알고리즘을 통한 바이럴 비법을 밝혀내려고 혈안이 되어 있다. 어떤 키워드를 집어넣어야 검색엔진에 걸릴지, 언제 포스팅을 하는 게 좋을지, 사진과 글을 어떻게 배합해야 최적의 결과가 나오는지를 연구한다. 그리고 이런 소비자를 낚으려는 ‘의도’에 걸리지 않고 순수하게 적합도에 따라 노출하는 걸 목표로 하는 게 알고리즘. 알고리즘은 언제나 어뷰징과 싸우게 마련이다.
페북도 마찬가지. 페북 바이럴 마케팅을 연구하는 이들이 뭔가 노하우를 찾아내면, 금세 코드를 바꾼다고 한다. 페북 알고리즘은 놀라울 정도로 우아하지 않고, 미칠 듯이 변덕스럽고, 고집스럽게도 불투명하다는 얘기를 듣게 되는 것이다.
페이스북의 알고리즘은 어떻게 짜여지나
이 기사의 글쓴이는 페이스북 사무실을 방문해서 실제 어떻게 알고리즘을 조정하는지, 어떻게 이뤄지는지 이야기를 들었다고. 그리고 결론적으로 머신러닝의 한계, 데이터 기반 결정의 함정을 확인했다고 한다. 더 많은 데이터로 더 치밀하게 분석하고 알고리즘을 계속 바꾸지만, 한계를 넘어서기 위해 이용자 패널 조사도 늘리고 있다고 한다.
페이스북 알고리즘의 문제는 우리가 꿈꿔온 공상과학의 순수한 알고리즘이 아니라 사람이 만든다는 것이다. 수많은 데이터 중 어떤 데이터를 쓸지, 그 데이터로 뭘할지 결정하는 건 사람이다. 알고리즘에 문제가 있다면 그건 사람 탓이란 얘기다. (여담이지만 사람이 하는 것에 비해 자동 알고리즘으로 하면 낫다고 여겨지는 분야 중 하나가 뉴스다. 우리만 그럴지도. 야후는 기계가 아니라 사람이 편집한다고 얼마나 자랑하는지…)
막상 자동 알고리즘을 도입했더니, 알고리즘의 원리가 뭐냐, 알고리즘도 이상하게 짠 게 아니냐고 시비를 걸기도 한다. 그러나 알고리즘의 목표는 대개 단 하나. 이용자를 만족시켜서 더 몰입하게 하는 것. 그러니 최선을 다하는 것 외에 다른 의도는 들어가기 어렵다.
그리고 그렇게 최선을 다하는 것조차 어렵다. 예컨대 오랜 친구, 혹은 팔로우 하는 유명인사의 포스팅 중 어떤 것이 더 적합할까. 페북은 이용자가 좋아요를 클릭할지, 댓글을 달지, 공유할지, 숨길지를 예측하고자 한다. 사실 ‘좋아요’는 이용자 상호작용을 위한 것일 뿐 아니라 뉴스피드 필터를 조정하는 솔루션이다. 사람들이 어떤 게시물을 좋아하고 공유하고 싶어하는지의 반응을 보고 알고리즘을 바꾸게 된다.
이용자가 들여다보는데 5초면 좋다. 그러나 2초는 나쁘다. 어디서 차이가 나올까. 페북은 녹스빌이란 곳에서 이용자 패널을 운영하다가 이제는 전 지역으로 확대했다. 데이터만으로 해석되는 것은 없기 때문. 이용자를 다양한 타입 별로 미세한 조정 등의 결과를 체크하고 밸런싱해야 한다. 스크롤하고 지나가거나, ‘Hide post’하는 현상에 대해 연구할 때, 페북은 5%의 이용자가 ‘숨김’ 처리의 85%를 차지하는 사실을 발견했다. 패널 연구를 통해서야 밝혀진 가설은 superhider 들의 ‘숨김’ 처리는 dislike 하지 않은 것도 별 뜻 없이 hide 한다는 것.
페북의 알고리즘 조정은 매번 오프라인 시뮬레이션과 사내 테스트, 일부 이용자 상대로 테스트를 거친다. 단계별로 데이터를 수집해 분석한다. 일부 이용자 그룹은 원 상태로 수개월까지 그냥 두면서 비교한다. 테스트 덕분에 십여 가지 알고리즘 버전이 실시간 운영된다는 얘기다. 온 정성을 다해, 다만 몇 초라도 이용자들을 더 붙들기 위한 노력이 알고리즘이다. 이용자들이 너무 편리하고 재미나서 다른 데 가지 못하도록 하는 게 알고리즘이다.
대중이, 아니 데이터가 미디어를 결정한다
중요한 한 가지 사실은 21세기, 즉 지금은 페이스북에 의해 언론이 대중들에게 얼마나 노출되는지 정해진다는 것. 그동안 미디어들은 기자들과 편집자들의 판단을 통해 무엇이 얼마나 얘기되는지를 결정해왔다. 진실과 뉴스 가치, 공공의 이익 등에 어필할 수 있는 정보들이 생산되었다.
그러나 페이스북은 이용자들이 원하는 정보가 뭐냐에 뉴스피드를 결정한다. ‘좋아요’하는 이유를 분석하여 뉴스피드를 만들고, 그에 따라 매체 기사도 노출된다. 게이트키핑이 오롯이 언론의 몫이었던 시대가 있었다면, 이제는 알고리즘이 게이트키퍼다.
그게 더 공정한가? 완전히 다른 얘기다. 구글이 자동 알고리즘 뉴스를 자랑할 때, 야후가 사람의 편집을 뿌듯해 하듯, 그 또한 서비스 색채이고, 미디어 다양성이다. 페북 뉴스피드 알고리즘에 대해, 혹은 그 어떤 서비스의 알고리즘에 대해서도 옳다 그르다 판단은 의미가 없다. 알고리즘이란, 이처럼 온갖 방식을 동원해 ‘적합한 결과’를 찾는 과정일 뿐이다.
데이터는 만능이 아니다. Full story를 말해주지도 않는다. 알고리즘은 결코 완벽할 수 없다는 게 페북이 10여 년 얻은 교훈. 그래서 계속 더 나은 알고리즘을 위해 데이터를 더 수집하고, 더 많은 이용자 피드백을 받아보고, 끝없이 테스트를 반복한다. 우리가 단 몇 개라도 포스팅을 더 보도록, 푹 빠지도록 유도한다. 다시 미디어로 돌아가서, 이게 최선일까? 알 수 없다. 나는 사람의 편집을 신뢰하는 사람이다. 그러나 그 못지않게 괜찮은 결과물을 위해 애쓰는 알고리즘도 신뢰한다. 사람도 알고리즘도 비판적 피드백 속에 진화하는 수밖에 없다.
덧붙여, 페북을 비롯해 데이터 기업들은 끊임없이 코드를 바꾸고 알고리즘을 개선한다. 알고리즘에 최적화해서 바이럴을 일으켰는데 어느 날 순위가 고꾸라질 수 있다. 의존도가 높을수록 리스크가 커진다. 그때마다, 당신네 알고리즘이 이상하다고 분노해봐야 어렵다. 플랫폼이 힘이 센 이유다. 콘텐츠 기업은 플랫폼 의존도를 낮추기 위해 다양한 플랫폼에 도전하고 그 콘텐츠가 이용자 선택을 더 많이 받는 전략을 구사할 수밖에 없다.
원문: 마냐님의 브런치