데이터와 관련한 수많은 단어를 볼 수 있습니다. 빅데이터, 데이터 애널리틱스, 데이터 시각화 등 여러 가지가 있습니다. 아직까지 이들은 데이터과학이라는 이름으로 통칭할 수 있습니다.
데이터과학은 도대체 무엇일까요? 무엇이기에 주목받고 있고, 우리 주변에서 회자되고 있을까요? 그것이 가지는 의미는 과연 무엇일까요?
위키피디아에 나온 정의를 살펴보겠습니다.
Data Science is an interdisciplinary field about processes and systems to extract knowledge or insights from large volumes of data in various forms, either structured or unstructured, which is a continuation of some of the data analysis fields such as statistics, data mining and predictive analytics, as well as Knowledge Discovery in Databases.
이렇게 나와 있습니다. 데이터과학은 다양한 정형, 비정형 형태의 데이터셋에서 지식과 통찰력을 뽑아내는 행위이고, 통계·데이터마이닝·예측분석 등에서 이어지는 흐름이라고 요약할 수 있습니다.
데이터과학이 가지는 의미는 ‘데이터’가 중심이 되는 구조가 아닐까 생각됩니다. ‘숫자’가 중요하다고 이야기는 많이 했지만, 정작 의사결정 과정에서 그 숫자가 의미 있는 역할을 하는 경우는 많지 않습니다. 의사결정권자나 리더들의 ‘경험적 감’이 더 큰 영향력이 있었습니다. 데이터과학의 부상은 데이터가 가지는 의미를 생각하게 합니다. 데이터 기반의 의사결정 구조, 문화를 가능케 하는 저변으로 기능할 수 있습니다.
물론 데이터가 모든 것을 대변하지는 않습니다. 통계로 대표되는 숫자를 이용한 방법에도 함정은 존재하고, 그 폐해도 있습니다. 의미 없는 평균이 나오기도 하고, 이미 알고 있는 것을 숫자로 보여주기도 합니다. 하지만 기술은 사람이 이용하는 목적과 방법, 그리고 정도에 따라 그 쓸모가 달리합니다. 데이터 관련 기술의 발달은 무엇보다 빠른 처리를 가능하게 함으로써 실시간에 가까운 판단을 가능하게 합니다. 잘 사용한다면 좋은 효율성을 담보할 수 있습니다.
<앞으로 데이터 분석을 시작하려는 사람을 위한 책> 1 페이지에는 다음와 같은 내용이 나옵니다.
데이터 분석의 가장 큰 효과는 ‘의사 결정 프로세서의 최적화’ 다. 복잡한 수리 모델을 구축하는 것도, 대규모 데이터를 빠르게 처리하는 것도 아니다. 단순하면서도 운용하기 쉽게, 한정된 경영 자원이나 정책 자원을 효율적으로 사용할 수 있도록 의사 결정을 지원하는 것. 바로 이것이 데이터 분석의 진정한 가치라고 할 수 있다.
이와 같은 관점에서 본다면 데이터 과학은 경영에서의 효율성을 추구하는 도구로 볼 수 있습니다. 같은 책 136페이지에는 이렇게 언급합니다.
데이터 분석 프로젝트를 성공시킬 때 중요한 것은 분석 자체가 아니라 분석을 통해 얻은 결과를 현장의 프로세스에 반영하는 것이다. 그러나 분석 결과를 과신하다 현장에 예측 모델을 도입하는 단계에서 큰 실패를 맛보는 경우가 있다. 올바른 프로세스를 통해 분석한 결과는 높은 정확도로 현실을 말해 준다. 그러나 단순히 그 결과를 보여주기만 해서는 사람, 즉 조직은 움직이지 않는다.
분석 자체가 아니라 반영하는 것이 중요하다고 말하고 있는 것입니다.
그래서 시각화가 주목받고 있다고 생각합니다. 분석은 데이터 마이닝이라는 형태로 꾸준히 실행되고 있었습니다. 하지만, 의사결정과정에서 반영되는 것은 다른 문제였습니다. 분석결과와 설득은 별개의 것이기 때문입니다.
하지만 최근에는 “Visual Data is Great, Real Data is Better”라고 할 정도로 시각화가 중요하다고 이야기합니다. 링크드인은 분석된 결과를 보다 직관적으로 보여줌으로써 서비스의 효과를 극대화하기도 했습니다. 시각화는 데이터가 의사결정으로 직행할 수 있도록 기능합니다.
아래 그림을 보시면 기존에 데이터가 단계별로 밟아갔다면 각화는 데이터를 바로 의사결정(Decisions) 과정으로 바로 올라가게 합니다. 효율적이죠.
데이터과학에서 간과되지만 중요한 것이 맥락을 뽑아내는 능력이라고 생각합니다. 컨텍스트라고도 하죠. 행간을 의미 있게 해석해내는 것입니다.
데이터를 본다는 것은 분석만 하는 것이 아닙니다. 문제를 해결하도록 기여할 수 있는 과정의 일부여야 합니다. 그러기 위해서는 숫자와 현실 세계를 이어낼 수 있는 지식이 필요하고, 그것을 잘 표현하고 반영하도록 할 수 있는 커뮤니케이션 능력도 중요합니다. 그래서 맥락에 대한 이해 없이 기술적으로만 접근하는 것은 위험하다고 생각합니다. 본질과 목적에 대한 고려 없이 항해하는 모양과 비슷하죠.
최근 기업의 사례를 보면 재미있는 움직임을 볼 수 있습니다. 데이터를 중심으로 전략을 수립하는 것입니다. 구글, 페이스북 같은 지배적인 정보기업은 물론이고 제조업 기반의 회사들도 데이터에 기반하여 미래를 설계합니다.
대표적인 기업이 GE입니다. 전통적인 제조업 회사인 GE는 ‘Industrial Internet’을 모토로 각종 데이터를 기반으로 새로운 산업을 펼쳐내는 계획을 선보였습니다. 수많은 제조 인프라와 센서에서 나오는 데이터를 무기로 삼겠다는 것입니다.
핀테크 역시 그 일환으로 볼 수 있다고 생각합니다. 금융데이터를 누가, 어떻게 활용할지에 대한 거대한 흐름이죠. 전통적인 금융회사는 데이터를 쥐고 있으면서 기술까지 가지려고 하고, 스타트업들은 처리기술에 더해서 데이터를 확보하기 위해 노력합니다. 앞단이냐 뒷단이냐의 차이는 있지만 결국은 데이터를 가지고 처리하여 헤게모니를 차지하려는 움직임입니다. 데이터 중심의 통합전략의 하나로 볼 수 있습니다.
데이터는 지금 이 시대를 움직이는 하나의 모멘텀입니다.
데이터과학의 의미는 ‘데이터’와 함께하는 것에 있다고 생각합니다. 데이터를 중심에 놓고 산업의 구도를 재편하듯이 말이죠. 여기서 데이터는 부차적인 수단이 아닙니다. 프로세스에서 항상, 중요하게 고려되는 요소입니다.
그래서 저는 데이터과학이 어떤 하나의 기술이나 방법 이전에 ‘컨셉’이라고 판단합니다. 데이터에 기반하여 생각하고 문제에 접근하며 결국에는 해결해내는 프로세스 말입니다. 데이터과학의 목적은 데이터가 의미하는 바를 제대로 끌어내는 데 있습니다. 그러기 위해서 과학적인 방법을 통해 알아보는 것입니다. 그래서 ‘빅’이라는 사이즈보다 ‘어떻게’ 라는 방법과 사고방식이 더 중요하다고 봅니다.
Work with Data, think through Data.
이것이 데이터과학이 가지는 진정한 의미가 아닐까요? 그리고 데이터과학자는 데이터 중심의 혁신에서 의미 있는 역할을 하는 사람을 지칭한다고 여겨집니다. 단순하게 기술만 아는 사람이 아니라 말이죠. 보다 종합적이고 깊이 있게 본질에 다가설 수 있는 그런 사람 말입니다. 그런 의미에서 앞으로 데이터를 디자인하는 사람이 보다 그런 의미에 가까울 것이라 생각합니다.
엔지니어와 기술자의 차이는 사고방식(설계)에 있습니다. 단순하게 분석만 하는 이가 아니라, 데이터에 기반해서 사고(설계)하고, 그것을 의미 있게 디자인(표현)해낸다는 관점으로 본다면 보다 적합한 표현이리라는 생각이 듭니다.
원문 : 지식을 연주하는 사람