※ Data Science Central의 “How to Become a Data Scientist for Free“를 축약·번역한 글입니다.
데이터 과학 분야를 무료로 배울 수 있는 방법입니다. 원문 페이지에는 26가지의 가이드가 있습니다. 그중에 10가지만 우선 공유합니다. 10가지만 해도 충분히 시간이 걸리고 해볼 만 한 일인 것 같습니다. 텍스트 일부를 번역했고, 의역이 있으니 참고해주시기 바랍니다.
1. 데이터 속성에 대해 이해하기
콘텍스트가 없는 데이터는 오해로 이어지거나 쓸모없을 수도 있습니다. Hadoop, NoSQL, Tableau와 같은 툴이나 트렌드 단어 없이 데이터 자체에 대해 이야기할 수 있는 사람이 필요합니다. 또한 데이터가 의미하는 바를 제대로 끌어낼 수 있어야 합니다. (개인적으로 데이터 과학은 새로운 기술이나 방법이 아니라 생각하는 방식의 변화, 즉 데이터를 기반으로 생각하고 문제에 접근하는 사고적 개념이라고 생각합니다.)
2. 데이터 과학자에 대해 이해하기
데이터 과학 분야에서 가장 혼란스럽게 사용되는 단어가 ‘데이터 과학자’ 일 것입니다. 이 분야의 사람 중 일부는 Hadoop, NoSQL 등 기술에 익숙하고 또 다른 일부는 수학이나 통계를 이용하고 매우 어렵게 설명합니다. 또 다른 이들은 대시보드를 시각화하거나, 끝없는 ETL 프로세스를 구동합니다. (ETL : Extract, Transform, Load의 약자로 전통적인 데이터웨어하우스에서 데이터를 변형하여 처리하는 프로세스를 말합니다.)
하지만 데이터 과학자는 위의 언급된 사람들보다 각 분야에 대한 이해도나 실제로 만들어내는 역량은 다소 부족하지만, 각각을 어떻게 이어나가 일로 만들어낼지는 아는 사람이라고 생각합니다. 좋은 데이터과학자는 outside the box 방식으로 무엇이 가능한지 이해하고 데이터를 현실의 필요와 기술 사이에서 연결하는 사람이라고 할 수 있습니다. 또한 데이터로 부터 인간의 행동을 읽어내고 명확하게 비즈니스적으로 이어내는 사람이라고 볼 수도 있습니다.
3. TED에서 공부하기
다음 링크에 나와 있는 13가지 TED 영상을 시청해보세요. Making sense of too much data
4. 통계학자 한스 로슬링의 TED 강의
다음 링크의 TED 영상을 시청해보세요. The best stats you’ve ever seen
5. 팟캐스트 구독
Partially Derivative라는 팟캐스트를 구독해보세요.
6. MOOC 강의
Coursera의 University of Washington’s Introduction to Data Science 코스나 Class Central의 Computing for data analysis는 이 분야를 시작하기에 좋은 강의입니다. 이 강의로 데이터 분석 분야에 입문해보세요.
- MOOC란? 온라인 공개수업(Massive Open Online Course)의 약자로 인터넷을 기반으로 이루어지는 상호참여적 교육을 의미한다. 무료로 강좌를 공개하는 경우가 많다.
7. Resources for Continued Learning 이 깃허브를 수시로 살펴보세요.
8. Measure of America 이 페이지를 통해 데이터가 어떠한 차이를 만들어내는지에 대해 이해해보세요.
9. 부즈앨런에서 펴낸 Field Guide to Data Sciences 문서 읽어보세요.
10. 이 인포그래픽(How to become a Data Scientist)에 나와 있는 대로 따라해보세요.
아래 이미지는 데이터 과학의 역사라는 제목으로 작성된 이미지를 가져온 것입니다. 기술발전의 측면에서 참고할만합니다.
원문: 지식을 연주하는 사람