‘시각화’로 하는 데이터 분석(visualization analysis)은 텍스트 형태로 된 방대한 양의 데이터를 일일이 보지 않고도, 시각화 결과물의 시각적 패턴을 바탕으로 인사이트를 도출하는 것입니다. 이는 ‘시각적으로 아름답게 디자인’하는 것을 목표로 하는 예술적 관점의 데이터 시각화(Artistic Data Visualization)와는 달리, ‘데이터가 갖고 있는 인사이트’를 찾는 것을 최우선의 목표로 합니다.
즉, 예뻐 보이는 차트 보다 데이터와 분석 목적에 적합한 시각화 유형을 활용해 인사이트를 도출하는 것입니다. 그러므로 누군가 막대 차트가 지겨워 파이 차트를 그렸다고 이야기하면, 데이터가 제대로 시각화되었는지, 시각적 패턴이 보는 사람으로 하여금 오해를 하게 만들지 않는지 등을 주의 깊게 살펴봐야 합니다!
데이터 시각화를 논함에 있어서 시각적 분석의 중요성을 언급하는 것은 여러 번 해도 지나치지 않습니다. 지난번 연재 포스팅인 ‘시계열 데이터의 시각적 분석’을 읽어보신 분이라면 이에 대해 쉽게 공감하실 수 있을 텐데요! 이번에는 위치 데이터에서 의미 있는 인사이트를 도출하기 위한 방법으로 위치 데이터의 시각적 분석에 대해 이야기해보고자 합니다.
이번 포스팅은 2회차로 발행될 예정이며 각각의 내용은 ① 위치 데이터의 시각적 분석 방법과 ② 다양한 지도 시각화 콘텐츠를 바탕으로 시각적 분석의 효과를 알아보는 것입니다.
1. 위치 데이터의 시각화, 지도 시각화 유형이 다양한 이유는?
위치 데이터의 시각화는 어떤 형태로 가능할까요? 가장 먼저 떠오르는 이미지는 바로 ‘지도’일 것입니다. 위치 데이터라고 해서 꼭 지도 형태로 시각화해야 한다는 법은 없지만, ‘위치 정보’를 포함한다는 특장점을 가장 효과적으로 살릴 수 있는 방법이 지도임을 부정하기는 어렵습니다.
여러분 머릿속에 떠오르는 지도 시각화 형태는 어떤 모습인가요? 지도 시각화 자체를 하나의 분야로 따로 떼어서 이야기할 만큼 지도 시각화에는 다양한 유형이 있는데요! 대표적인 몇 가지 유형을 알아보도록 하겠습니다.
① Dot Density Map은 지도 위에 데이터의 분포를 나타낸 것입니다. 지도 위에 점(dot)이 많이 있는 지역과 그렇지 않은 지역을 시각적으로 빠르게 확인하여 인사이트를 도출합니다. 위 사례 ‘인종별 인구 점 지도(The Racial Dot Map)’의 경우 지점별 인구 데이터를 점으로 표시하고, 인종에 따라 색을 달리하여 시각화하였습니다.
② Choropleth Map(혹은 Field Map)은 지리적 영역 범위별 수치 데이터값을 색(color)으로 표현한 것입니다. 가장 기본적인 형태는 하나의 계열 색을 활용하여 데이터값을 표현하는 것으로, 이 경우 진한 색일수록 수치 값이 크다고 보면 됩니다.
위 사례는 뉴욕타임즈의 「여섯 개의 지도로 보는 기후 변화에 대한 미국인의 생각」 중 일부분입니다. 위 이미지상 2개의 지도는 각각 지구 온난화(Global Warming)와 관련된 의견에 미국인들의 동의 정도를 지역별로 시각화 한 것입니다. 컬러 범례를 참고하여 데이터의 시각적 패턴을 해석하면, 미국인이 지구 온난화에 대해 어떻게 생각하고 있는지 그 경향을 쉽게 파악할 수 있습니다.
③ Symbol Map(혹은 Bubble Map)은 지도의 특정 지점에 해당하는 수치 값을 심볼(symbol)의 크기로 나타낸 것입니다. 데이터의 분포뿐만 아니라 각 지점별 데이터의 크기를 시각적으로 확인할 수 있습니다. 색을 활용하여 각 심볼의 범주(category)를 표현할 수도 있습니다.
원을 심볼로 한 경우가 가장 보편적입니다. 수치 데이터의 값이 클수록 원의 크기를 크게 표현합니다. 간혹 다양한 형태의 픽토그램을 심볼로 쓴 경우를 볼 수 있는데, 사실상 직관적으로 크기를 비교하기 어려워 개인적으로는 피해야 할 시각화 형태라고 생각합니다.
사실 픽토그램에 비해 단순한 형태인 원으로 그려도 인지적 특성상 데이터의 분포나 길이를 비교하는 요소로서 위치가 아닌 면적을 기준으로 인사이트를 도출할 때, 정확한 비교가 어렵다는 점을 고려하면 더욱 그렇습니다. (이쯤에서 데이터 시각화에서 ‘비교’를 위한 최상의 시각화 유형이 막대 차트임을 다시 한번 생각해보게 됩니다!)
지역 간 이동 경로를 표현하는 지도 시각화 유형으로는 ④ Connection Map과 ⑤ Flow Map이 있습니다. 이 두 가지 유형은 이동 경로를 표시한다는 점에서 거의 유사하다고도 볼 수 있습니다. 사례로 우리가 평소에 자주 이용하는 길 찾기 서비스의 지도 화면을 떠올리면 금방 이해할 수 있습니다. 뉴욕 타임즈의 「역사상 가장 강력한 폭풍 중 하나인 허리케인 어마」는 허리케인의 이동경로를 시각화한 콘텐츠로 Flow Map을 활용한 대표적인 사례로 볼 수 있습니다.
그렇다면 이렇게 다양한 지도 시각화 유형이 있는 이유는 무엇일까요? 그 이유는 각 지도 시각화 유형별로 목적에 따라 쓰임이 다르며, 그에 따라 도출할 수 있는 인사이트에도 차이가 있기 때문입니다. 예를 들어 데이터의 분포가 어느 지역에 밀집되어 있는지를 알고 싶다면, Dot Density Map으로 시각화하는 것이 좋습니다.
반면, 각 지점(혹은 영역)별 데이터의 크기를 비교하고 싶다면 Proportional Symbol Map 혹은 Choropleth Map으로 시각화하는 것이 직관적입니다. 지역 간 단순 연결을 보고 싶다면 Connection Map으로, 지역 간 데이터의 이동 경로를 보고 싶다면 Flow Map으로 시각화하는 것이 효과적입니다.
따라서 우리는 위치 데이터에서 무엇을 알고 싶은지 분석 목적에 맞는 시각화 유형을 선택해 시각화하고, 이를 근거로 인사이트를 도출해야 합니다.
2. 위치 데이터에서 인사이트 도출하기, 뭔가 다른 게 있다?
위치 데이터의 인사이트 도출에는 남다른 무언가가 있습니다. 바로 위치 정보 자체가 갖고 있는 ‘의미’를 고려한 데이터 해석이 가능하기 때문입니다.
먼저 위치 데이터가 갖는 특징을 간단히 이해해봅시다. 일반적으로 위치 데이터는 위도·경도 값을 나타내는 숫자 혹은 주소를 의미하는 텍스트로 표현됩니다. 어떤 형태든 지도 위에 점(dot)으로 표현할 수 있는데, 이는 동시에 ‘주소’라는 ‘의미’를 갖고 있습니다. 특히 주소는 계층형 데이터 구조로 이뤄져 있어, 이를 고려하면 ‘위치 데이터이기 때문에’ 가능한 인사이트 도출을 할 수 있습니다.
예를 들어 시군구 혹은 행정동 등의 단위로 데이터를 비교 분석할 수 있다는 의미입니다. 더군다나 각 지역은 분석 대상이 되는 데이터 외에도 기본적인 정보(지리적 위치, 인구 통계학적 정보 등)을 갖고 있으므로, 이를 활용한 의미적 데이터 해석도 가능합니다.
이게 도대체 무슨 이야기인지… 사례를 통해 좀 더 쉽게 알아볼까요?
위 3개의 이미지를 차례로 살펴봅시다. 첫 번째 이미지는 위도, 경도 데이터를 활용하여 지도 위에 위치를 점으로 표시하고, 각 지점에 해당하는 인구 데이터를 원(circle)의 크기로 표현한 것입니다.
이 점들이 위치한 지역은 어디일까요? 앞서 위·경도 값은 동시에 주소 정보를 갖고 있다고 언급하였는데요, 두 번째 이미지를 보면 시/도 경계선에 따라 해당 점들이 서울 안에 위치해 있음을 알 수 있습니다. 마지막으로 시군구 단위의 경계선을 지도에 표시해 보면 각 점들이 위치한 지역은 서울의 25개 자치구임을 알 수 있습니다.
결론적으로 두 종류의 숫자 값이 위도, 경도이기 때문에 우리는 ‘서울시 ○○구’라는 주소 정보를 알 수 있고, 이를 근거로 서울시 자치구별 인구 데이터를 비교, 인사이트 도출을 할 수 있습니다.
뿐만 아니라 이 주소 정보를 근거로 계층형 데이터 분석을 할 수 있습니다. 시/도 단위의 데이터 분석으로 서울과 다른 지역의 인구 데이터를 비교해볼 수 있고, 하위 계층인 시군구 단위로 분석해 서울시의 자치구별 인구 데이터를 비교할 수 있습니다.
또한 각 데이터의 위치를 근거로 지도상 인접한 지역을 묶는 별도의 파생변수를 만들어, 인사이트를 도출할 수 있도 있습니다. 예를 들어 서울의 경우 25개 자치구를 5개 생활권역으로 그룹핑 할 수 있고, 이를 기준으로 생활권역별 인구 데이터를 비교, 인사이트를 도출할 수 있습니다.
마무리하며
지금까지 위치 정보를 포함한 데이터의 시각적 분석, 이를 위한 지도 시각화 유형에 대해서 알아보았습니다. 또 위치 데이터이기 때문에 가능한 인사이트 도출 방법에 대해서도 간략히 알아보았습니다.
본문에서는 깊이 있게 언급하지 않았으나, 위치 데이터가 지리적 영역 범주에 해당하는 지역을 나타낸다면 각 지역의 특징을 종합하여 좀 더 풍부한 데이터 해석이 가능하다는 점이 지도 시각화의 장점입니다. (아주 간단히 예를 들어 이야기하면… ‘강남의 수치가 낮네’라는 인사이트를 ‘고소득자가 많이 살고 있는 강남의 수치가 낮네’라고 해석할 수 있다는 거죠!)
이어질 다음 연재 포스팅에서는 지도 시각화를 활용한 다양한 콘텐츠 사례를 바탕으로 위치 데이터의 시각적 분석 효과에 대한 이야기를 이어 가보겠습니다.
원문: NEWS JELLY / 필자: Won Yang Kang