여러분은 아래 그림을 보신 적 있으신가요? 아래 그림은 사람의 에너지를 색깔로 나타낸 ‘AURA’라고 합니다. 이는 신비 체험을 주장하는 일부의 검증되지 않은 이론이지만, 에너지의 정도를 색상으로 나타내는 데이터 시각화 원칙이 충실이 적용되어 있어 오늘의 서론에서 가져와 봤습니다.
데이터에 색상을 입히는 방법과 관련해서는 지난 리포트 ‘데이터 시각화, 그냥 예쁘게 칠해도 될까요?’에서 말씀드린 바 있는데요! 특히 이 특징은 오늘 이야기할 ‘히트맵’이라는 데이터 시각화 차트에서 두드러집니다.
언뜻 벽돌 벽 같기도…? 히트맵 차트
히트맵은 1991년 미국의 소프트웨어 디자이너 Cormac Kinney가 고안한 격자형 차트입니다. X축과 Y축을 범주형 변수로 하고, 균일한 블럭으로 나누어 각 칸에 수치형 변수를 채우는 방식으로 제작합니다. 이때 수치나 빈도를 기준으로 색을 지정하는데요, 데이터값이 높거나 그 양이 많은 경우 진한 색을, 낮거나 적은 경우 연한 색을 사용하여 시각적 패턴이 자연히 만들어지게 합니다.
위는 간단하게 히트맵 차트를 만들어 본 예시입니다. 한국, 미국 등 7개의 나라에서 봄, 여름, 가을, 겨울 4계절 화재 위험이 얼마나 되는지를 히트맵으로 나타내 보았습니다. 이때 각 나라가 Y축, 계절이 X축이 되고 전체 칸수는 7*4=28개입니다. 위험도는 위험하지 않음, 적당한 위험, 매우 위험, 위험 감소의 4단계로 나타냈고 단계에 따라 다른 색상을 사용했습니다.
그에 따라 만들어진 히트맵을 보면, 한국의 겨울이 화재 위험이 매우 높다는 것을 볼 수 있습니다. 이처럼 히트맵은 구체적인 수치 없이도 많은 데이터가 시사하는 바를 패턴으로 나타내는 데 매우 효과적인 시각화 차트입니다.
그러면 다양한 예시를 통해 실제로 히트맵이 어떻게 쓰이는지 자세히 살펴보도록 하겠습니다.
‘히트맵’은 언제 쓰일까요? 히트맵 차트 예시
- 뉴스젤리 뉴스레터 ‘주룩주룩 내린 장맛비, 데이터로 헤아릴 수 있다면?’
기상 데이터는 히트맵으로 시각화하기에 최적화되어 있는 데이터 중의 하나입니다. 오랜 시간에 걸쳐 축적된, 온습도 등 수치형 변수를 한 화면에 나타낼 수 있고, 또 그 과정에서 ‘기후 패턴’을 찾아내는 데도 히트맵이 적절하게 쓰입니다. 관련하여 뉴스젤리도 뉴스레터 데이터 시각화의 모든 것 26호에서 올여름 장마와 관련한 데이터를 취합하여 히트맵 차트를 제작한 적 있습니다.
1973년부터 2020년까지의 기상 데이터를 시각적으로 분석해 여러 차트를 보여드렸는데, 그때 단연 많은 관심을 받았던 것이 위의 히트맵 시각화였습니다. 1973년 이후 강수일수를 각 지역(Y축)별로 나누고, 그 정도를 색의 진함 정도로 표현했습니다.
이 차트에서 우리가 볼 수 있는 패턴은 무엇일까요? 우선 1999년이 유난히 전국적으로 색이 밝은 것으로 보아 이때는 ‘마른장마’였음을 알 수 있습니다. 또 2011년 중부지방을 지났던 기록적인 폭우의 흔적은 히트맵의 진한 세로선으로 남아 있습니다. 이처럼 히트맵은 구체적인 수치 없이도 패턴을 통해 시각화의 중심 메세지를 한눈에 전한다는 매력이 있습니다.
각 도시별 시간에 따른 공기 질 by FancyGrid
위는 Fancygrid가 각 도시 별, 시간에 따른 대기오염 정도를 가상의 데이터로 시각화해본 히트맵 차트입니다. 별도의 범례가 없더라도 색상 사용의 관습에 따라 따라 붉은색이 나쁜 것을 의미하는 걸 금세 알아볼 수 있습니다.
서울과 홍콩의 공기가 가장 나쁘고, 미국 여러 도시와 시드니의 공기가 좋다는 걸 한눈에 확인할 수 있는데요. 이 시각화는 독특하게도 Y축 범례를 양쪽에 표시했습니다. 시각화가 가로로 길기 때문에, 이용자가 수치값을 쉽게 탐색할 수 있도록 시각적 보조 장치를 둔 것입니다.
체지방 데이터 시각화 차트 by anychart.com
이 예시는 연령대별로 체형을 4가지(Lean, Ideal, Average, Above average)로 나눈 히트맵 차트입니다. 4가지의 각 체형은 진한 파랑, 연한 파랑, 주황, 진한 주황색으로 구분됩니다. 특히 위 차트는 우리가 보아 왔던 시각화와 일부 차이가 있다는 점에서 해석에 유의해야 합니다. 차트의 범주는 동일한 구간으로 나누는 것이 일반적이지만, 히트맵 차트에서는 필요에 따라 이 원칙을 벗어나기도 합니다.
위 차트에는 2가지의 범주가 있습니다. 우선 Y축은 연령대를 나타냅니다. 이 범주는 구간이 18-20, 21-25…51-55, 56&up으로 나누어져 있는데, 이는 시각화 작성자가 필요에 따라 간격을 다르게 한 것입니다. 또 두 번째 범주인 X축이 의미하는 각 색상(Lean, Ideal, Average, Above average)역시 연령별로 기준이 다릅니다. 예를 들어 체지방률이 20%인 경우, 18-20세 사이에서는 Ideal한 체형이지만 36-40세라면 마른 편으로 구분이 되는 것이죠.
이처럼 히트맵 차트는 데이터에 따라 구간을 유연하게 조절하여 나타낼 수 있습니다. 다만 이 경우 설명과 범주 등을 보완하여 독자의 이해를 돕는 것이 바람직합니다.
정리하며
오늘은 히트맵 차트의 정의와 다양한 예시를 알아보았습니다. 데이터를 정리하는 데도 효과적이고 눈도 덩달아 즐거운 히트맵 차트는 가히 팔방미인이라 할 수 있는데요. 이런 히트맵 기법은 x,y 평면을 벗어난 다양한 곳에서 시각적 즐거움을 주고 있기도 합니다. 실제 지도 위에도 쓰이고, 실제 웹사이트에서 이용자의 경로나 클릭 빈도를 시각적으로 나타내는 등 다양한 시각적 분석에 널리 쓰입니다.
보유한 데이터를 활용해 위처럼 효과적인 히트맵 차트를 만들고 싶으신가요? 언제라도 저희 뉴스젤리 팀에 문의해주세요. 친절하게 상담해 드리겠습니다.
원문: 뉴스젤리 블로그
참고 자료
- 뉴스젤리 뉴스레터 ‘주룩주룩 내린 장맛비, 데이터로 헤아릴 수 있다면?’
- Pollution in cities by hour of the day*: Nitrogen dioxide
- Heat Map Chart Gallery – AnyChart
이 필자의 다른 글 읽기