작년 4월 無異님의 데이터 기반 퍼소나에 대한 사내 강의가 진행되었습니다. 데이터 기반으로 사용자 유형 나누기와 유형을 쉽게 파악하기 위한 데이터 시각화 작업에 대한 내용이었으며, 트루밸런스와 트위터 프로젝트에서 데이터를 활용했던 사례와 함께 강의가 진행되었습니다.
강의 이후에는 無異 님의 코치를 받으며 또 다른 프로젝트에서 데이터 활용을 적용해 볼 기회가 있었습니다. 이번 글에서는 당시 실제 프로젝트에서 데이터 분석을 활용하면서 느낀 점들을 정리해 보고자 합니다.
사용자 선별과 기회 요소의 발굴
T 커머스 서비스를 기획할 당시 프로젝트 착수와 함께 가장 먼저 한 일은 사용자에 대한 데이터 확보였습니다. 이후 구매자와 반복 구매 이력이 있는 사용자의 데이터를 바탕으로 사용자 조사 계획을 수립하였습니다. 당시 프로젝트는 아직 고객 수가 많이 확보되지 않은 서비스 초기 단계의 상태였습니다. 그래서 사용자 한 명 한 명이 소중했고, 대면 이전에 잘 선별하고 준비할 필요가 있었습니다.
이후 사용자 조사를 통해 TV 도메인의 사용 맥락과 서비스 사용 프로세스 등을 파악할 수 있었고, 사용자가 서비스에 최초로 유입한 상황과 재방문의 의도 등을 알아낼 수 있었습니다.
이 프로젝트에서 인사이트의 실마리가 되었던 것은 사용자의 구매 이력 데이터였습니다. TV를 시청하던 사용자가 어떻게 구매 단계까지 이르게 되는지, 어떤 사용자들에 더 주목해야 하는지 등의 기회 요소를 발굴해 내는데 좋은 근거가 되었습니다.
데이터 분석을 위해 필요한 선행 작업
최근 수행한 프로젝트는 모바일 서비스 개선 프로젝트였습니다. 이 프로젝트에 착수하면서 저희 팀원은 이전 T 커머스 서비스에서 리서치 했던 것처럼, 우선 사용자 데이터를 확보하고자 했습니다. 또한, 클라이언트도 이미 수집된 로그 데이터 분석에 대한 기대감이 있었었습니다.
그러나 로그 데이터 수집을 시작한 지 얼마 되지 않아, 의미 있는 수의 샘플을 뽑기 어려운 현실적인 문제가 있었습니다. 로그 데이터를 수집하기 위해서는 앱에 추적코드를 심는 작업이 우선 되어 있어야 하는데 이러한 선행 작업이 되어 있지 않았던 것입니다. 이러한 상황에서, 적은 수지만 현재까지 수집된 데이터의 속성을 더욱 자세히 확인하였고, 프로젝트가 진행되는 동안 추가로 수집되는 로그 데이터를 지속해서 전달받아 진행하였습니다.
또한, 데이터로 증명해 내기 어려운 부분을 보완하기 위하여 인터뷰를 병렬로 진행하였습니다. 해당 서비스를 사용해 본 경험이 있는 사내 구성원들을 대상으로 빠르게 인터뷰를 진행하였는데 이 과정에서 의외의 발견을 하게 되었습니다. 서비스를 만족스럽게 사용하는 사람 중 많은 수가 서비스의 핵심 기능을 앱 자체에서 사용하지 않고, 다른 앱을 통해 우회적으로 사용하고 있다는 것이었습니다.
이를 통해 개선하고자 했던 타깃 앱에서 수집되는 로그 데이터가 서비스 사용자 전체를 대변하지 않을 수도 있다는 판단을 내렸습니다. 그래서 앱 진입 단계에 초점을 맞추어 사용자마다 유입 방법이 어떻게 다른지를 살펴보았고, 다시 타깃 앱으로 돌아오게 하기 위한 전략을 고민하였습니다.
통계 지식의 중요성
데이터는 많은 정보를 가지고 있지만, 그 데이터가 어떤 사용자의 것인지 특정할 수 없다면, 데이터로서의 의미와 가치는 없게 됩니다.
두 번째로 소개해 드렸던 모바일 프로젝트 당시에 이를 깨닫게 되었습니다. 로그를 남긴 사용자 수와 전체 서비스 가입자 수를 비교해 본 결과, 80%가 넘는 사람들이 해당 앱에 방문하지 않거나 한 번 정도만 방문한다는 사실을 발견하였습니다. 이들을 해당 서비스의 사용자라고 할 수는 있습니다. 하지만 이들이 남긴 로그 데이터를 갖고 이 서비스를 사용하는 대부분의 사람이 이러한 사용 흐름을 나타낸다고 해석할 수는 없는 것입니다.
다시 말해, 이 서비스의 핵심 기능을 잘 사용하는 사람들의 진짜 니즈는, 로그 데이터를 남긴 사용자들에게서 발견되지 않을 가능성이 큽니다.
실제로 앱 내에서 로그를 남기는 나머지 20%의 사용자를 살펴보니, 비일상적인 이벤트를 앞두고 있거나, 모바일 앱에 익숙하지 않은 연령대가 높은 사용자인 경우가 많았습니다. 만약 샘플 데이터를 액면 그대로 받아들여 이들을 해당 서비스의 메인 사용자라고 이해했다면, 나머지 80%의 진짜 사용자를 위한 서비스로 기획되기 어려웠을 것입니다.
이때의 경험을 통해 느낀 것은, 당장 내 손으로 직접 데이터를 추출하고 가공하지는 못하더라도 데이터를 읽어내기 위한 올바른 통계 지식은 기본이라는 생각을 하게 되었습니다.
글을 마치며…
위의 경험처럼 우리가 확보한 데이터에 드러나지 않는 사용자가 있을 수 있습니다. 따라서 본격적으로 로그 데이터를 분석하기에 앞서, 추출된 데이터가 전체 사용자를 대변할 수 있는지를 점검하는 단계가 필수적인 것 같습니다.
데이터를 살펴본 경험이 없었던 때를 떠올려 보면, 넘겨받은 엑셀 파일에 질서 정연하게 기록된 숫자들을 한 번 보고, 이 데이터만 잘 해석하면 답이 나올 것이란 막연한 확신을 했던 것 같습니다. 그러나 측정 가능한 부분에 대한 기록을 남기는 것이 ‘데이터’라고 했을 때, 우리가 살펴보려고 하는 것이 측정할 수 없는 지점에서 발견되는 것은 아닌지, 또 이 데이터로부터 뽑아낸 정보가 타당하게 받아들여질 수 있는지를 먼저 살펴봐야겠습니다.
원문: PXD