데이터 과학은 최근에 큰 주목을 받습니다. 데이터 시각화, 데이터 분석 등이 대표적입니다. 그중에 링크드 데이터(Linked data)라는 개념이 있습니다. 웹상에 존재하는 데이터를 개별인자로 식별하고, 링크로 연결해 상호연결된 웹을 지향하는 것입니다. 그 핵심은 데이터를 연결하고 개방한다는 데 있습니다. 그리고 그것은 디지털(Digital)과 개방(Open)에 기반 둡니다. 데이터 과학도 이 커다란 흐름 속에서 변화되어가는 것이 아닌가 생각합니다.
이 글은 데이터 과학과 링크드 데이터를 이해하기 위해 디지털 그리고 웹에 대해 일부 다룹니다. 데이터 과학에 관심이 있으신 분들이 읽으시면 작게나마 도움이 될 것이라 생각합니다.
세상의 최소 단위는 ‘비트’다
디지털을 이야기할 때 반드시 언급되어야 할 인물들이 있습니다. 니콜라스 네그로폰테는 그중 한 사람입니다. 그는 MIT 미디어 랩(MIT Media Lab)을 만든 인물로, IT 역사상 가장 중요한 잡지 중 하나인 《와이어드(WIRED)》의 초기투자자이자 칼럼니스트이기도 합니다.
MIT 미디어 랩은 상상력의 천국이라 불리며 전 세계에서 가장 실험적이고 도전적인 연구가 이뤄지는 곳이죠. 컴퓨터 인터페이스와 미디어 관련된 첨단 기술이 이곳에서 탄생했고, 구호로만 외치는 융합이 아니라 자연스레 분야가 연관되어 새로운 것을 만들어내는 연구가 이곳에서 이루어집니다.
네그로폰테는 기계와 사람 사이의 상호작용을 연구해왔는데, 이는 1985년에 MIT 미디어 랩을 만드는 계기가 됩니다. 그의 가장 중요한 업적은 디지털 혁명을 예언하고 관련 개념을 주장한 데 있습니다. 그는 앞서 말한 《와이어드》의 창간에도 관여했는데 1993년부터 1998년부터 칼럼을 연재하며 그것을 엮어 책으로 만들게 됩니다. 그것이 바로 국내에는 『디지털이다(Being Digital)』로 번역된 책입니다.
Move bits, not atoms.
앞으로 세상의 최소 단위는 원자(atom)가 아니라 비트(bit)다.
이 책에서 그는 이렇게 말하며 디지털 시대를 예측하기도 했습니다. 비트로 구성된 데이터로 사고하고 연결하는 지금에 와서 생각해보면 당연하지만, 당시로써는 획기적인 발상이었을 겁니다. 더불어 무선이든 TV와 유선이든 전화가 스위치 될 것이라 했고, 이런 개념은 네그로폰테 스위치라고 명명됩니다.
아래는 네그로폰테가 1993년부터 1998년까지 《와이어드》에 연재한 칼럼의 제목입니다. 현재에도 의미 있는 키워드가 들어 있는 것을 볼 수 있습니다. 이런 개념이 1995년에 고안하고 글로 작성한 내용의 키워드입니다. 현재 우리가 화제로 삼거나 고민하는 것들도 포함됩니다. 월과 연도로 주요한 것들을 정리해보았습니다.
- Talking with Computers(Mar, 1994)
- Less is more: Interface Agents as Digital Butlers(June, 1994)
- Bits and Atoms(Jan, 1995)
- Bit by Bit, PCs Are Becoming TVS. OR is it the Other Way Around(Aug, 1995)
- Wearable Computing(December, 1995)
- The Future of Books(Feb, 1996), Affective Computing(Apr, 1996)
- Pay Whom Per What When(Feb-Mar, 1996)
- One-Room Rural Schools(Sep, 1998)
- Pricing the Future(Nov, 1998)
이처럼 니콜라스 네그로폰테가 디지털과 관련된 콘셉트를 제안하고 관련한 미래를 그려봤다면 그것을 더 실체화한 것이 있습니다. 바로 인터넷입니다. 디지털화를 이야기할 때 빠져서는 안 되는 매우 중요한 축입니다. 인터넷은 우리가 디지털 방식으로 살아가고 사고하게 만든 인프라입니다. 우리는 인터넷을 통해 정보를 찾고, 데이터를 쌓으며, 관계를 구축합니다.
월드 와이드 웹과 메타 데이터
그렇다면 그 인터넷은 누가 그 개념을 제안하고 발전시켰을까요. 현재의 인터넷의 개념의 기초를 만든 사람은 팀 버너스리 경(Sir Timothy John ‘Tim’ Berners-Lee)입니다. 그가 유럽 입자 물리 연구소(Conseil Européenne pour la Recherche Nucléaire, CERN)에서 개발한 인콰이어(Enquire)가 현재의 인터넷을 구성하는 월드 와이드 웹(World Wide Web, WWW) 개념의 시작입니다.
팀 버너스리 경은 월드 와이드 웹을 창시한 20년 뒤에 더 넥스트 웹(The Next Web)을 모토로 링크드 데이터를 주장합니다. 링크드 데이터는 데이터를 연결의 기준으로 하는 개념입니다. 문서를 기반으로 했던 기존의 웹을 데이터 중심으로 개편하는 접근입니다. 더 데이터에 접근하기 쉬우며 데이터 중심적이라고 할 수 있습니다.
그는 2009년 TED에 나와 “정보를 엮는다는 것은 그래서 생각보다 엄청난 것입니다. 정보가 발생하는 출처의 양이 많고 적고가 중요한 게 아닙니다. 중요한 건 정보가 연결된다는 것이지요. 정보가 유의미하게 연결되면 그건 곧 ‘힘’이 됩니다.”라고 말하며, 그가 만들어낸 웹의 구조를 데이터 중심으로 새로이 짜볼 것을 제안합니다. 개방(Open)의 개념을 웹에 도입한 것입니다. 정확히 말하면 연결의 효과성을 극대화하는 접근입니다.
팀 버너스리 경은 1998년에 그가 고안한 시맨틱 웹(Semantic Web)을 더 잘 구현하기 위한 형태를 제안한 것입니다. 시맨틱 웹이란 정보와 자원 사이의 관계-의미 정보를 컴퓨터가 처리할 수 있는 온톨로지형태로 표현하고, 이를 컴퓨터가 처리하도록 하는 프레임워크 기술입니다.
현재의 웹은 데이터의 구조를 나타내는 메타 데이터(metadata)와 자연어로 기술한 문장으로 구성되어 있습니다. 메타 데이터는 데이터 안에 데이터를 설명하는 데이터가 포함된 것으로 디지털 카메라가 사진을 저장할 때 각종 정보를 포함하는 것이 대표적인 예입니다.
링크드 데이터는 이런 메타 데이터적 특징을 더욱 강화하는 개념입니다. 링크 기능이 강조된 시맨틱 웹의 형태로 볼 수 있습니다. 아래는 링크드 오픈 데이터를 클라우드 형태로 연결한 그림입니다. 데이터가 어떤 모습으로 연결되고 관련되었는지 더 쉽게 볼 수 있습니다.
링크드 데이터와 관련된 구분 기준이 있습니다. 팀 버너스리 경이 제안한 ‘오픈 데이터의 5단계 배포계획 5 스타’라는 개념입니다. 별 다섯 개를 기준으로 형태를 구분하며 각 별의 단계가 설명하는 내용은 다음과 같습니다.
- ★: 데이터를 웹상에 오픈 라이선스로 (포맷에 상관없이) 공개
- ★★: 구조화된 데이터로 제공(예, 표를 스캔한 이미지 대신 엑셀)
- ★★★: 비독점적 오픈 포맷으로도 제공(예, 엑셀은 물론 CSV)
- ★★★★: 사람들이 가리킬 수 있도록 개체를 나타내기 위해 URI를 사용
- ★★★★★: 데이터의 문맥과 배경을 제공하기 위해 다른 데이터와 링크
링크드 데이터의 개념을 잘 살펴보시려면 『링크드 데이터: 글로벌 데이터 공간으로 진화하는 웹(Linked Data: Evolving the Web into a Global Data Space)』을 읽어보시길 권합니다. 무료 다운로드가 가능합니다. 관련된 보고서로는 「Open data Driving growth, ingenuity and innovation」, 맥킨지의 「Open data: Unlocking innovation and performance with liquid information」, OECD의 「Open Government Data Towards Empirical Analysis of Open Government Data Initiatives」 등이 있습니다.
몇몇 국가에서는 실제 프로젝트로 진행하기도 합니다. 영국은 Where Does My Money Go?, 덴마크는 TAX FREE, 호주는 Research Data Ausralila, 영국은 data.gov 로 관련한 행보를 보입니다.
이런 움직임의 기저에는 디지털화와 개방(연결)이 있습니다. 데이터의 형태로 연결해 가치를 발견하고 삶의 효용을 높이겠다는 것입니다. 문서를 인쇄해서 주고받고 문서의 형태로 커뮤니케이션하던 것이 얼마 되지 않은 것 같은데 어느덧 그 형태마저 바뀌려 합니다. 그야말로 디지털화된 세상에서 모든 것이 디지털 단위의 것입니다.
디지털화가 진행될수록 데이터가 주목받는다
현재의 디지털 환경은 니콜라스 네그로폰테가 『디지털이다』에서 상상한 모습과 얼마나 같고 다를까요. 지금의 모습은 분명 그가 당시 이야기한 것보다 빠르게 변화하고 더욱 발전했습니다. 중요한 것은 디지털을 바라보는 그의 시각은 지금도 의미가 있다는 것입니다. 아톰이 아니라 비트가 세상의 최소단위라는 그의 말이 특히 그렇습니다. 비트로 구성된 데이터는 현재 산업과 우리 생활에서 매우 중요한 수단이자 자산입니다.
우리가 주목해야 할 것은 디지털화가 진행될수록 데이터가 주목받는다는 것입니다. 변화를 일으키는 본류로 들어가 거기에서 가치를 뽑아내려 합니다. 기존에는 데이터가 정보 또는 지식으로 변환되어야 활용 가능한 것으로 생각되었는데, 이제는 데이터가 활용 가능한 자산으로 인정받고, 그런 활동이 이루어집니다. 기술의 발전으로 가능해진 것이라 할 수 있습니다.
물론 데이터를 통한 연결이 긍정적인 면만 있는 것은 아닙니다. 데이터를 거대한 규모로 모은 집단은 골리앗처럼 우리 세상을 통제하는 권력 기준이 될 수도 있습니다. 개방된 만큼 어떻게 관리하느냐가 중요하다고 할 수 있습니다.
읽지 않고 놓아두는 한 권의 책은 마른 나뭇잎을 모아 놓은 것에 불과하다. 그러나 우리가 그것을 펴들고 읽으면 책은 살아 움직이는 거대한 형태를 드러낸다.
- 장폴 사르트르
펴들고 읽는 것은 의미를 부여하는 행동이며 맥락을 지어내는, 즉 연결하는 행위로 볼 수 있을 것입니다. 지금도 그렇지만 앞으로는 더욱 그 기저가 데이터가 될 것입니다. 데이터로 웹을 규정하는 링크드 데이터는 그것을 대표적으로 나타냅니다. 거미줄처럼 연결될 때 그 영향력과 파급의 힘은 더욱 커질 것입니다.
디지털화의 흐름은 지금까지 이어져 왔습니다. 앞으로도 가속화되어 지속될 것입니다. 그리고 그 흐름은 인터넷의 데이터화 또는 데이터의 인터넷화로 명명할 수 있는 링크드 데이터의 형태로 구성되고 새로움을 지펴갈 것으로 보입니다. 개방하는 방향으로 그 모습을 더해갑니다. 디지털과 연결이 만들어내는 미래는 과연 어떤 모양일지, 우리에게 어떠한 메시지를 던질지, 참으로 궁금합니다.
데이터로 그것을 만들어낼 수 있습니다. 우리가 접하고 가공할 수 있는 그 데이터로 말이죠. 데이터 드리븐(Data Driven) 은 어려운 개념이 아닙니다. 데이터가 익숙해지고, 데이터가 무언가의 창출 원천이 되는 것이며, 데이터의 주소가 연결되면 그것이 링크드 데이터입니다. 기계와 사람, 사람과 기계가 더욱 효과적으로 상호작용하는 세상, 데이터의 연결이 만들어낼 미래입니다. 『디지털이다』의 모습입니다.
원문: 지식을 연주하는 사람