※ 한화투자증권에서 주최한 Cloudera 윤명호 이사님의 커넥티드 카 세미나 내용을 정리·편집한 글입니다.
편집자 주: ‘커넥티드 카’란 IT에 자동차를 연결시킨 것으로, 인터넷을 통해 차량과 양방향으로 연결되는 것을 의미한다. 따라서 스마트폰 등을 통해 외부에서 시동을 걸거나 히터 등을 켜고 끌 수 있으며, 차량에서 뉴스와 날씨 등의 정보를 받아 볼 수 있다. 애플을 선두로 구글 등의 IT 기업들이 개발 중이며, 볼보, 벤츠, 아우디 등 기성 자동차 기업들도 개발에 박차를 가하고 있다. 자율주행 기술과 함께 차세대 자동차 산업의 가장 핵심적인 영역으로 손꼽히고 있다.
1. 모바일이 PC보다 파급력이 더 큰 이유
2000년대 컴퓨터의 웹은 사람과 정보를 만나게 해주었다면,
2010년대 모바일 앱은 사람과 사람을 연결시켰다.─김지현, 『프로비스』, 5쪽~
그리고 이제는 모바일 앱이 사람과 사물까지 연결시키고, 삶 자체를 통째로 바꾸려 하고 있습니다. PC 혁명도 대단한 것이었지만, 모바일 혁명이 더 큰 파급력을 갖게 될 것이라고 생각하는 이유입니다. 직관적으로 생각해서 PC는 가구당 보통 하나이지만, 스마트폰은 한 사람당 하나라는 것만 생각해봐도 그렇죠.
2. 클라우드가 다시 관심을 받게 된 세 가지 배경
클라우드라는 말을 들어본 지는 좀 되었을 거에요. 그런데 왜 또 지금 시장의 관심이 집중될까요? 이쪽에서 일하시던 분들 입장에서는 좀 의아할 수도 있는 것이, ‘우리는 꾸준히 그냥 일하고 있는데, 왜 갑자기 난리지?’ 이런 느낌일 겁니다.
최근의 변화를 세 가지로 정리해보죠.
첫째. 데이터가 엄청나게 늘어났습니다. 페이스북, 트위터, 카카오톡 등 사람들이 엄청나게 쓰고 올리고, 읽고 공유하고 난리도 아니죠.
둘째. 네트워크 속도가 빨라졌습니다. 3G가 LTE(4G)로 발전하면서 이제 동영상을 보는 것도 부담이 없어졌어요.
셋째. 클라우드로 데이터가 이동하고 있습니다. 집에 있는 하드에 저장하는 것이 아니라, N드라이브나 아이클라우드 쓰시죠?
여기서 중요한 것이, 데이터가 오프라인에서 온라인으로 옮겨왔다는 겁니다.
과거에는 “난 누굴 좋아해.” 이런 글을 혼자서 밤에 일기장에 썼는데, 이제는 페이스북에 씁니다. 일기장에 있는 글은 아무도 볼 수 없지만, 페이스북에 있는 글은 누군가 저장하고 접근해서 활용할 수 있습니다.
꼭 비밀스러운, 그래서 감추고 싶은 것뿐만 아니라, 내가 생각하지도 못했던 무의식적인 행동들과 습관까지 일기장이 아닌 온라인 공간에 저장된다는 것. 이는 그 정보를 가지고 있는 사람 입장에서는 무궁무진한 기회가 되는 것이죠.
3. IoT (사물인터넷)
IoT란 사물을 네트워크를 통해서 연결시키고, 그 사물의 상태를 확인하고 제어하는 서비스를 말합니다. 가장 직관적으로 이해할 수 있는 사례가 작년에 구글이 인수한 네스트랩스입니다.
써모스탯은 대략 일주일간 사용자의 사용패턴을 학습해 온도 설정 시점을 자동 스케줄링(Auto-scheduling)한다. 동작 인식 센서가 내장돼 있어 사람의 움직임이 없을 때는 ‘외출’로 인식해 온도를 낮추고, 집집마다 다른 온도, 습도와 외부 날씨도 모두 분석해 효율적인 지시를 내린다. 그리고 써모스탯이 사용자의 패턴을 학습하면 할수록 이 모든 것이 더 정교해진다. 이를 통해 써모스탯은 각 가정마다 약 20%의 에너지를 절감해준다.
네스트랩스는 Smart Home의 대표사례라고 할 수 있습니다. 이뿐만 아니라, IoT는 커넥티드 카나 제조공정의 최적화, 물류시스템의 자동화 등 매우 다양한 분야에 적용될 수 있습니다.
4. 빅데이터
데이터가 많아졌습니다. 단순히 데이터의 양이 많아지기도 했지만, 일기장에 꽁꽁 숨겨놓은 것이 아니라(오프라인), 활용될 수 있도록(온라인) 열려 있는 데이터들이 늘어났다는 것이 중요하다 했습니다.
빅데이터는 데이터가 크다는 의미이기도 하지만, 데이터에 기반한 접근을 하고 분석하고 판단한다는 의미를 갖습니다. 전문용어로 “Data driven approach”라고 하는데요. 이 빅데이터는 세 가지 구성요소로 이루어져 있습니다. 3V라고 하는데,
- Volume: 데이터의 양은 산술적으로 증가하는 것이 아니라, 기하급수적으로 증가합니다.
- Velocity: 데이터가 실시간으로 생성됩니다. 데이터가 만들어지는 데 걸리는 시간이 엄청나게 빠르다는 거죠.
- Variety: 데이터가 양이 많고, 빨리 만들어진다는 것만큼 중요한 점이 다양하다는 것인데, 이를 비정형 데이터라고 합니다. 예를 들어 삼성전자의 주가 데이터를 보면, 과거 10년 동안 해당 날짜의 삼성전자의 주가는 딱 정해져 있습니다. 그러니 “1979년 3월 22일(제 생일) 삼성전자 주가 알려줘.” 하면 못 알려줄 이유가 없죠. 이런 걸 정형화되었다고 합니다. 그런데, Big data는 뭐가 뭔지 뒤죽박죽, 데이터를 저장하는 사람도 사용하려는 사람도 뭘 어떻게 물어봐야 할지조차 모르게 섞여 있다는 겁니다. 그래서 이런 걸 비정형 데이터라 하고, 그래서 분석이 어렵습니다.
이렇게 분석하기 어려운 데이터를 분석할 수 있도록 한방에 도와주는 솔루션으로 Hadoop이 있는데요. 이름이 재미있죠. 하둡? 뭐 특별한 의미는 없고요, 개발자의 딸이 노란색 코끼리 인형에게 붙여준 이름이랍니다. 그런데, 빅데이터 관련 일을 하는 친구들에게 물어봐도 이게 참 강력하다네요.
간단하게 개념만 이야기하면, 기존에는 데이터를 분석하려면 저장하는 곳에서 필요한 데이터를 불러와서 분석했는데, 하둡을 통하면 데이터가 있는 곳에서 분석을 해서 저장공간이나 비용이 크게 줄었다고 합니다.
어쨌든 하둡을 통하면, 비정형의 데이터도 실시간으로 생성되는 데이터도 분석이 가능합니다. 여기서 중요한 건 돈인데, 기존 방식에 비해서 하둡이 대략 20~100배 정도 비용이 저렴하다고 하네요.
여기까지가 모바일의 영향력이 커지면서 데이터의 양이 기하급수적으로 많아지고 또 빨라지고 복잡해졌는데, 그걸 (적은 비용으로) 분석할 수 있는 기술(Hadoop)까지 개발이 되었다는 이야기입니다.
이제 멍청한 기계를 교육시키는 이야기입니다.
5. 머신 러닝
머신 러닝의 개념은 간단합니다. 말 그대로 컴퓨터를 학습을 시킨다는 건데요. 컴퓨터에게 0부터 9까지 숫자가 쓰여진 카드를 보여줍니다. 그리고 “이게 숫자 몇이야?”라고 물어봅니다. 멍청한 컴퓨터가 대답하죠.
“1이요~”
“어이쿠~ 이 멍청아 이게 왜 1이야 7이지! 공부 열심히 안 할래?”
한 대 퍽 칩니다. 그리고 다른 숫자를 보여줍니다.
“이건 뭐야?”
“(소심하게) 2요~”
“아오~ 열받아. 이게 왜 2냐? 3이지!”
맞추면 상을 주고, 틀리면 벌을 주는 식으로 수없이 많은 학습을 시킵니다. 그러면 나중에는 컴퓨터가 아주 똑똑해져서 필기체로 쓴 숫자까지 정확하게 맞출 수 있게 됩니다.
투자의 관점에서도 Machine Learning이 부각되는 이유는 그리고 앞으로 더욱 부각될 수밖에 없는 이유는 정보다 너무 많기 때문입니다.
CEO의 말 한마디, 기사 하나, 수없이 많은 보고서들까지. 이런 걸 언제 다 읽고 분석해서 인사이트까지 얻어내냐는 거죠. (물론 그렇게 어려운 일이기 때문에 능력 있는 펀드매니져들이 돈을 법니다.)
그래서 이런 것도 기계한테 시키자. 이런 움직임이 있는데, 주가에 미치는 요인들이야말로 ‘비정형’의 대표적인 사례일 겁니다. 바로 이 점이 “그걸 어떻게 멍청한 기계가 하냐? 말도 안 된다.”라는 주장이 나올 수 있는 결정적인 이유입니다.
하지만, 하둡을 통해서 머신 러닝이 더 싸고, 빠르게 가능해졌다는 점을 보면, 당장은 아니겠지만 언젠가 그 날이 오겠죠.
원문: Managyst 가 보는 세상