빅데이터라는 단어는 아직도 뜨거운 감자다. 빅데이터만 하면 요술 상자처럼 답을 척척 내고 모든 것을 해결할 것만 같다.
빅데이터에서 정의하는 수준의 ‘빅’은 어느 정도의 규모인 걸까? 테라바이트(TB) 단위의 데이터면 ‘빅’이라고 자칭할 수 있는가? 빅데이터라는 이름이 본질을 호도하는 것은 아닌지 생각해볼 문제다.
데이터 분석에 대해 제대로 생각해봐야 한다
빅데이터라는 단어는 사실상 빅데이터(분석)이다. 데이터를 규모 있게 쌓아놨다고 해서 분석이 제대로 되는 것은 아니다. 자료가 무조건 많다고 소화가 되던가? 그렇게 치면 프린트물 잔뜩 뽑고 서재에 책이 가득한 사람이 제일 똑똑해야 한다. 현실은 그렇지 않다.
자원은 한정되어 있다. 특히 시간이 말이다. 중요한 것은 필요한 부분을 긁어낼 수 있는 데이터를 수집하는 것이다. 그 데이터를 통해 문제 해결에 필요한 단서를 발견하는 것이 데이터 분석의 목적이다.
필요한 부분의 의미를 찾아낼 수 있는 정도의 규모면 된다. 데이터의 크기가 클수록 도움이 되는 것은 사실이다. 하지만 쓸데없이 많은 것보다 제대로 된 데이터가 필요하다.
정제된 데이터 또는 정제하는 작업이 필요하다
네트워크에는 수많은 데이터가 있다. 그중 대부분은 정제되지 않은 로우 데이터다. 그것을 의미 있게 분석해내기 위해서는 정제를 거쳐야 한다.
아무리 많은 시트의 엑셀 데이터가 있어도 행과 열, 그리고 공통된 기준으로 정렬되어 있지 않다면 정확한 분석이 이루어질 수 없다. 마찬가지로 데이터가 많은 것도 중요하지만, 제대로 정제된 데이터를 찾거나 그렇게 만드는 것도 중요하다.
실무에서 정렬되어 있지 않아 올바른 값으로 치환되지 않은 데이터를 만나면 그보다 곤란한 경우가 없다. 데이터의 크기는 커서 처리하는데 시간이 많이 걸리지만 제대로 된 결과를 나타내지 못한다. 쓸데없이 덩치만 큰 것이다.
문제 해결에 맞는 데이터가 필요하다
데이터 분석은 그 자체가 목적이 되어서는 안 된다. 정제하거나 분석하거나 시각화를 하는 것은 결국 문제 해결을 위해 가장 효율적인 수단을 강구하는 것이다.
가장 효과가 높은 방법을 찾아내거나 핵심요인을 발견하여 문제 해결에 기여해야 한다. 패턴을 찾아내고 흐름을 읽어낼 수 있는 규모면 된다. 그것이 어느 정도인지 가늠할 수가 없기 때문에 크기를 키우곤 한다. 그래서 데이터를 찾기에 앞서서 제대로 된 ‘문제 정의’가 더욱 필요하다.
기술적인 부분뿐만이 아니라 데이터에서 의미 있는 맥락을 찾아내는 컨텍스트 능력이 중요한 것이고, 그것을 위해 필요한 크기의 데이터를 찾아내는 것이 중요하다.
데이터 분석이 만능은 아니다
데이터 분석은 모든 것을 해결하는 만병통치약이 아니다. 문제를 효과적으로 해결하기 위해 만든 프로세스의 하나일 뿐이다.
여태 존재해왔던 기술이 적합한 환경을 만나 꽃피우려는 단계다. 이 분야로 뛰어들려는 사람이라면 처음부터 큰 데이터를 만지려고 하기보다 작은 데이터로 차근차근 문제를 해결해나가는 연습을 하는 것이 필요하다. 정의부터 해결까지의 하나의 싸이클를 돌려보며 시행착오를 거치고 이를 통해 데이터의 속성을 이해해야 한다.
중요한 것은 문제 해결을 위한 방법을 찾고 그것을 위해 정의하고 분석하고 디자인하는 일련의 프로세스를 반복하는 것이다. 아는 것에서 끝나는 것이 아니라 숙련되어 제대로 문제를 해결하는 것이 중요하다.
원문 : 지식을 연주하는 사람