빅데이터에 관해 기존에 작성했던 글과 새롭게 파악한 내용를 잘 버무려 전달드리고자 합니다. 해외는 물론 우리나라에서도 빅데이터 분야를 키우고자 한다는데요. 사실 데이터는 계속해서 쌓이고, 우리가 상상할 수 없을 만큼 방대하고 거대하며 광활하답니다. 긍정적인 의미에서 잘 활용되면 좋겠지만 불안한 요소는 늘 있죠. 늘 그렇듯 좋은 정보가 되었으면 합니다!
빅데이터는 무엇인가?
인터넷이 등장한 이후 인류는 모바일과 함께 하는 세상을 산다. 무언가 궁금할 때면 네이버나 구글 검색을 통해 원하는 값을 찾았는데 이젠 동영상 전문 플랫폼인 유튜브를 통해 그 값을 찾는다. 그렇게 트렌드는 또다시 변했다. 구글 검색 엔진에서 ‘Youtube’를 입력하고 엔터키를 누르면 등장하는 결괏값이 120억 개에 달하고 ‘big data’라는 키워드를 검색해보면 약 63억 4,000개의 결괏값을 볼 수 있다.
사용자는 기본적으로 몇십억 개나 되는 웹 페이지의 결과물을 바라지 않는다. 등장하는 검색 결과에서 원하는 값을 찾을 때까지 수십 번, 수백 번씩 웹페이지를 열어보지도 않는다. 결국엔 얼마나 정교한 답을 주느냐, 그 답이 상위에 올라와 있느냐가 제일 중요하다. 그렇기에 네이버도 구글도 검색 결과 상위에 노출되는 값을 제일 중요시할 수밖에 없고 이를 통한 광고 상품도 꽤 있는 편이다.
그렇다면 수십억 개에 달하는 결괏값은 어디서 가져올까? 전 세계 웹 서버나 웹 사이트 어딘가에 널려있는 문서들을 수집해 검색 대상이 되는 색인 값에 포함하는 기술을 크롤링(crawling)이라고 한다. 그러니 단어 하나만 검색해도 이와 유사한 값을 내놓는 알고리즘에 의해 엄청난 양의 데이터가 등장하는 것이다. 구글 검색 엔진과 같이 데이터를 수집하고 서버에 저장하는 것, 그리고 이런 데이터를 관리하고 분석하는 행위를 넘어서는 개념이 바로 빅데이터인데 규모 면으로만 보면 1,000기가바이트(GB) 이상의 데이터를 의미하기도 한다.
조금 더 쉽게 풀어보자. 인터넷을 사용하는 미국의 ‘빅’이라는 인물이 ‘데이터’라는 사이트에 접속하기 위해 회원가입을 했다. 당연히 회원가입에 필요한 정보를 기입하고 그 사이트의 회원이 되었을 것이다. 옆에 있던 스마트폰으로 사진을 찍고 아카이브에 전송한 후 그 사진을 끌어다가 텍스트를 붙여 전체 공개로 공유를 했다. 처음부터 끝까지 인터넷을 이용해 자신의 정보를 그 사이트에 제공하고, 자신이 가진 사진도 어디에 있을지 모를 서버에 저장을 시킨 셈이니 내 정보는 데이터로 변했고 그 데이터는 인터넷망 어딘가에 존재한다.
하루가 멀다 하고 쌓여만 가는 페이스북의 피드나 인스타그램의 사진 정보, 유튜브의 동영상들은 그 규모 자체가 셀 수도 없이 방대하다. 유튜브에 올라온 영상만 해도 인간의 수명보다 훨씬 긴 분량을 차지한다고 했다. 데이터의 형태와 퀄리티에 관계없이 하루하루 쌓이는 수많은 데이터를 ‘빅데이터’라고 한다. 1천 기가바이트라고 ‘용량’의 개념으로 표현하긴 했지만 이렇게 단순하게 해석하기엔 무리가 있다.
전 세계 인터넷 유저 특히나 SNS를 사용하는 사람들로 인해 무엇인가를 전송하고 공유하면서 생기는 행위는 서버가 부담을 가질 법한 트래픽의 과부하가 생길 정도로 폭증한다. 네이버가 강원도 춘천을 포함해 일부 지역에 서버로 사용하는 대단지가 있을 만큼이니 페이스북이나 유튜브와 같은 글로벌 플랫폼 모두 충분한 서버 용량을 확보했으리라.
이미지가 작고 텍스트로만 존재하는 콘텐츠는 용량 면에서 크게 문제가 없겠지만 동영상이나 유저가 방문했던 위칫값이 방대한 범위의 지도에 새겨지는 케이스는 데이터의 분량도 매우 크다. 이는 모두 빅데이터라는 테두리 안에 포함되는데 이런 데이터가 딱히 정해진 규격이나 용량, 형태가 없다는 측면에서 데이터를 제한하는 범위 자체가 없다는 걸 알 수 있다. 따라서 빅데이터의 ‘빅(Big)’은 크다는 의미와 확장성을 가진 ‘Wide’, 제한이 없다는 ‘Limitless’라고도 말할 수 있겠다.
빅데이터의 3Vs
소프트웨어는 물론 하드웨어 등을 개발하는 미국의 오라클(Oracle)은 빅데이터가 가진 특성에 대해 아래와 같이 말했다.
빅데이터가 가진 주된 특징은 사이즈(Volume), 다양성(Variety), 속도(Velocity)를 합쳐 이른바 빅데이터의 ‘3Vs’라고 표현한다.
앞서 언급한 것과 같이 텍스트만 존재하는 메가바이트 수준의 작은 용량의 데이터도 존재하겠지만 기업 데이터나 UHD급 고퀄리티의 동영상 같은 경우는 우리가 생각한 것보다 규모가 더욱 방대하다. 가령 1,000기가바이트가 모여 1테라바이트(TB)로 확장되고, 약 1,024테라바이트가 모였을 때 페타바이트(PB)급으로 커지는 케이스라 하겠다.
1페타바이트는 무려 100만 기가바이트에 이른다. 하지만 페타바이트라는 규모 자체도 점차 의미가 없어지는 추세다. 생각해보자. 우리가 바라보는 영상들은 점차 고화질로 변모해간다. 4K나 아이맥스, VR과 같은 360도 화면을 꽉 채우는 동영상들이 늘어갈수록 우리의 눈과 귀는 더욱 풍성해지지만 반드시 서버의 용량을 감당해야만 한다.
고화질·고용량 동영상으로 데이터가 쌓일 경우 1페타바이트의 규모는 다시 1엑사바이트(EB, 1,000PB), 그리고 다시 1제타바이트(ZB, 1,000EB)로 점차 커진다. 미국 의회도서관에 존재하는 인쇄물의 10만 배 수준이 약 1엑사바이트인데 그게 어느 정도의 수준인지 쉽게 감이 오지 않지만 향후 우리 인류가 쌓아왔던 그리고 지속적으로 쌓아갈 데이터가 언젠가는 분명 그 수준과 닿는다.
동영상의 규모는 텍스트를 몇 겹으로 쌓아도 상대가 안 될 만큼 어마어마해질 수밖에 없다. 그렇다고 텍스트라는 콘텐츠나 데이터가 생산되지 않을 리 없다. 인스타그램 역시 동영상으로 채워지는 트렌드가 이어지지만 기본적으로 엄청난 양의 이미지들이 올라오는 플랫폼이다. 텍스트와 사진으로 웹 페이지는 채우는 국내외 수많은 언론사도 존재한다. 이 언론사들이 꾀하는 수익으로 플래시(Flash) 기반의 배너 광고도 데이터로 존재한다.
영상부터 이미지, 텍스트, 일러스트 심지어 그래프나 표에 이르기까지 기준이 없는 데이터의 다양성도 고려해야 한다. 사물 인터넷이나 인공지능 스피커가 인지하는 사람의 음성 또한 빅데이터의 다양성에 존재하는 값들이다. 그렇다면 이렇게 규모가 크고 형태가 정해지지 않은 데이터들을 원활하게 사용하려면? 구글이 쓰는 검색엔진에는 반드시 구글이 보유한 서버가 존재할 것이고, 네이버의 클라우드 서버를 이용하는 기업들도 존재할 것이다.
이런 정보가 서버나 클라우드에 존재하는 동안에도 새로운 데이터는 어디선가 다시 생성된다. 주춤할 시간 없이 서버에 데이터를 쌓아야 하고 데이터를 필요로 하는 또 다른 누군가에게 원하는 값을 찾아 제공해야 하니 빅데이터는 늘 바쁠 수밖에 없다. 5G 통신속도가 도래했고 혹자는 6G나 7G를 꿈꾼다고 하니 데이터의 처리 속도는 조금씩 나아질 전망이다. 이런 측면에서 보면 빅데이터의 처리 ‘속도’도 꽤 중요한 이슈로 꼽는다.
빅데이터가 가진 주요 3가지 요소들을 살펴봤지만 기본적인 데이터의 개념과 의미를 뛰어넘는 또 다른 요소들도 생겨나는 추세다. 무분별하게 생성되는 데이터가 과연 올바르고 정확한가에 대한 문제를 짚고 넘어가 볼 수 있겠다. 사실 쓰이지 않는 데이터, 누구도 찾지 않는 콘텐츠는 무의미하다.
굉장히 유사하고 비슷한 데이터들이 다른 어딘가에 존재할 텐데 지금 우리 서버에 있는 크고 쓸모없는 데이터가 과연 가치가 있을까 하는 문제다. 데이터는 정제되어야 하고 정확해야 하며 가치가 있는 정보를 효율적으로 제공해야 한다. 이러면 데이터의 가치(Value)와 정확성(Veracity)도 매우 중요한 요소다.
빅데이터, 어떻게 활용하나?
위에서도 언급했듯, 구글은 데이터의 수 자체를 많으면 많을수록 사용자가 찾고자 하는 값을 제공해 정보의 퀄리티가 오히려 좋아질 수 있다고 했다. 물론 정제된 데이터가 필요하겠지만 검색 최적화를 통해 더 예리한 결괏값을 제공하는 것이 구글의 몫이겠다. 네이버도 마찬가지겠지만 인터넷을 쓰는 유저들은 분명히 1번 이상 쇼핑 키워드에 대한 검색을 해봤을 것이다.
내가 검색했던 결과를 찾아 또 다른 링크를 타고 들어가는 경우 다시 그 안에서 원하는 상품을 찾는 경우들이라면 캐시(Cache)에 정보가 쌓인다. 로컬 메모리라고도 불리는 캐시 메모리는 임시 저장소이기 때문에 기억 용량은 매우 적은 편이다. 그러나 주기억 장치보다 고속이고 나중에 다시 링크를 찾아 페이지를 열 때 더 빠르게 접근한다는 장점이 있다. 웹페이지에서 구글이 심어놓은 배너 광고의 경우 이런 캐시 값이나 방문 데이터를 활용해 리타게팅이라 불리는 광고 기법을 사용하기도 한다. 유저의 정보를 분석해 다시 방문을 유도할 수 있도록 하는 마케팅 기법 중에 하나다.
미국의 아마존(Amazon)은 소비자의 소비 패턴을 데이터로 축적하고 이 데이터를 분석한 후 소비자가 관심이 있을법한 또는 구매 의사가 있을 아이템이나 관련 쿠폰을 제공하는 경우들이 있는데 빅데이터에 쌓인 정보를 마케팅으로 활용하는 케이스라 하겠다.
카카오의 AI 스피커 ‘카카오 미니’나 구글의 ‘구글 홈’과 같은 인공지능 스피커들 역시 인공지능을 더욱 고도화시키기 위한 데이터를 축적하고 학습한다. 인공지능이야말로 데이터가 많으면 많을수록 더욱 정교한 답을 제시한다. 빅데이터는 검색은 물론이고 커머스나 마케팅, 인공지능 등에 접목해 다양한 분야에서 활용된다.
빅데이터, 빅브라더가 되지는 않을까?
구글이나 아마존과 같이 유저들이 데이터를 확보하려면 어마어마한 저장용량이 필요하다. 이른바 데이터 센터라 불리는 저장소는 거대한 규모로 조성이 되는데 서버는 기본이고 네트워크가 연결되어야 하며 저장용량이 풍부한 스토리지 등 IT 서비스 제공에 필요한 인프라로 꾸며진다.
당연히 24시간 하루 온종일 서버가 돌아야 하니 과열되는 것을 방지하거나, 수많은 기기가 마치 온실 속의 화초처럼 온전하게 유지되도록 항온과 항습기, 냉각탑 등도 필요하다. 서버 속 데이터의 유실을 방지하기 위한 백업 시스템과 보안 시스템도 확보해야 한다. 우리나라 정부에서는 금융, 통신 등 분야별로 존재하는 데이터를 수집하고 이를 제공하도록 빅데이터 플랫폼 10개와 빅데이터 센터 100개를 구축하겠다고 했다. 또한 국민들이 데이터 활용에 따른 혜택을 체감하도록 개인 데이터를 활용하는 사업도 실시할 예정이라고 했다. 물론 개인 데이터는 본인 동의 하에 이루어진다.
구글의 자율주행 자동차 ‘웨이모(Waymo)’나 스마트폰의 운영체제인 안드로이드 OS, 아마존의 AI 스피커 ’아마존 에코(Echo)’ 등 글로벌 IT 기업들이 빅데이터를 지속적으로 축적하고 이를 다양한 인공지능 산업과 연결하면서 시너지 효과를 누리는데 우리나라 정부 역시 이런 움직임에 대비하고 4차 산업혁명 시대의 새로운 산업 영역을 개척하고자 국가적으로 대책을 마련하는 데 있다.
한국 IDC에서는 빅데이터 및 분석 시장이 2022년 약 2조 2천억 원 규모로 성장할 것이라고 전망했다. 참고로 한국 IDC(International Data Corporation)는 1997년 설립되어 IT 및 통신 등 국내외 시장 정보를 조사하고 제공하는 컨설팅 기관이라 우리가 익히 아는 서버 컴퓨터와 네트워크 회선을 제공하는 시설 IDC(Internet Data Center)와는 다르다.
이처럼 우리가 가진 정보가 어느 한 곳에 쌓여 ‘세상을 널리 이롭게’ 하는 데이터로 활용된다면 충분히 동의할 의향이 있다. 좋게 말하면 사회를 돌보며 국가가 ‘국력’을 가질 기회를 맞이할 것이고 부정적으로는 수많은 정보가 어느 한 곳에 모여 사회 통제의 수단이 되는 경우 매우 악용될 여지도 있는 것이다.
영국 소설가인 조지 오웰(George Orwell)의 『1984』에 보면 독재자 ‘빅브라더’가 등장한다. 정보를 독점하고 사회를 통제하는 절대 권력이며, 겉으로는 사회를 돌보는 ‘보호’의 기능이라고 하면서 속으로는 나와 내 주변을 끊임없이 감시하고 침해한다. 빅데이터는 늘 빅브라더와 연결된다. 인터넷을 통해 검색하는 키워드부터 보호 및 감시 기능을 하는 CCTV의 영상들까지도 정보로 축적되므로 ‘빅브라더’라는 개념에서 보면 이는 ‘양날의 검’과 같은 것이다.
개인정보에 대한 문제는 몇 번이나 되풀이하고 곱씹어도 모자라다. 특히나 카카오톡과 같이 전파가 빠른 플랫폼의 경우 순식간에 나도 모르는 사람에게 내 정보가 드러날 수 있는 ‘공유’의 힘을 지녔다. 누군가의 동영상을 유포하거나 개인이 동의하지 않은 사생활에 대한 정보는 우리나라가 제정한 개인정보보호법이나 정보통신망법, 위치정보보호법에 의거해 어느 정도 지켜진다고 하는데 정부에서는 엄격한 수준의 개인정보 규제가 오히려 빅데이터 활용을 위축시킬 수 있다고 말한다.
빅데이터를 구매하고 가공하는 거래에 있어 저작권이나 개인 정보 침해에 대한 문제, 지적재산권에 대한 이슈를 논의하고 검토해 법 제도를 개선하는 방안도 추진 중이다. 데이터 전문기관 내에 전담팀을 설치해 충분히 있을법한 시나리오를 마련해 법적인 문제를 해결할 수 있도록 하겠다고 했다.
미국 워싱턴에 위치한 전자개인정보센터(EPIC)에 따르면, 유럽의회에서도 빅데이터에 대한 전망과 산업 분야에 응용할 기회를 충분히 인지하면서도 기본적인 권리를 지키도록 했고 빅데이터 기술에 대한 대중들의 신뢰가 보장될 때 실현 가능하다고 강조했다. 미국에서도 인간의 삶, 정부와 시민의 관계, 공공 및 민간 부문의 혁신을 촉진하고 정보의 흐름이 자유롭고 효율적으로 진행되도록 하되 위험은 최소화하는 방법에 대해 포괄적으로 검토해야 한다고 했다. 미국 정부는 인터넷에 존재하는 개인정보보호에 대한 규칙(Internet privacy rules)을 어떻게 관리하는 것이 바람직하고 올바르며 최선인지 지속적으로 검토한다.
우리나라 정부는 2021년까지 빅데이터 플랫폼과 빅데이터 센터 간 연계와 고도화를 추진할 계획이고 2023년까지 전체 플랫폼체 대한 통합을 추진할 것이라고 전했다. 또한 중소기업이나 벤처기업 대상으로 혁신 서비스 창출을 위한 데이터 구매와 가공에 대한 비용도 지원하겠다고 했다.
빅데이터는 앞으로 국가와 정부, 기업 그리고 개인에 이르기까지 매우 효율적이고 생산적으로 활용될 수 있다. 나라에서는 이 정보를 기반으로 새로운 분야에 진출이 가능해지고 국가의 경쟁력을 키울 수 있으며 기업들이 활용하는 경우 고객 데이터를 이용해 더 높은 마케팅과 새로운 상품이나 온전히 고객들을 위한 바람직한 서비스를 제공해줄 수도 있겠다.
빅데이터가 날이 갈수록 진화함에 따라 데이터와 개인에 대한 정보 보호, 보안 등 해결해야 할 문제도 그만큼 많아질 수밖에 없다. 빅데이터를 다루는 사람, 즉 전문가, 빅데이터와 소비자를 연결해줄 관리자 등 기술 발전에 비해 인력과 예산은 부족한 편이다. 통계상으로도 2020년 이후가 되면 지금보다 더욱 많은 정보가 쌓인다. 데이터를 수집하고 분석하는 역량, 이슈가 터졌을 때 대응할 해결 능력, 빅데이터에서 정말 중요한 정보를 추출하는 능력은 점점 중요해질 것이다.
기계적으로 추출하는 것이 아니라 면밀하게 검토하고 분석해 능숙함을 발휘해야 더욱 효율적이고 효과적으로 사용할 수 있다. 우리나라를 비롯해 각국과 기업에서 투자가 활발하게 진행되는 만큼 그 예산이 정말 필요한 곳에 올바르게 쓰여야 할 것이다.
원문: Pen 잡은 루이스의 브런치
참고
- 「What is big data?」, oracle
- 「혁신성장 전략투자: 데이터. AI 경제 활성화 계획(19년~23년)」, 과학기술정보통신부, 2019.1.16.
- 「한국 IDC, 국내 빅데이터 및 분석 시장 2022년 2조 2천억 전망」, IDC, 2019.2.14.
- 「Big data and the future of Privacy」, EPIC
- 「3 Massive big data problems everyone should know about」, Forbes, 2017.6.15
- 「빅데이터 시대, 개인은 어떻게 대응할 것인가?」, 중소벤처기업부 블로그, 2017.8.26