• Skip to content
  • Skip to secondary menu
  • Skip to primary sidebar
  • Skip to footer

ㅍㅍㅅㅅ

필자와 독자의 경계가 없는 이슈 큐레이팅 매거진

  • Home
  • 스타트업
    • 마케팅
    • 투자
  • 시사
    • 경제
    • 국제
    • 군사
    • 사회
    • 언론
    • 역사
    • 정치
    • 종교
  • 문화
    • 게임
    • 교육
    • 덕후
    • 만화
    • 스포츠
    • 애니
    • 연예
    • 영화
    • 인문
    • 음악
    • 책
    • 학문
  • 테크
    • IT
    • SNS
    • 개발
    • 공학
    • 과학
    • 디자인
    • 의학
    • 환경
  • 생활
    • 건강
    • 부모
    • 성인
    • 여행
    • 영어
    • 음식
    • 패션
  • 특집
    • 개드립
    • 인터뷰
  • 전체글

데이터, 인사이트를 눈으로 확인하려면?

2020년 6월 30일 by NEWS JELLY

… 통계(calculations)와 그래프를 모두 만들어라! 정확한 이해에 기여하는 이 두 결과물에 대한 연구를 해야 한다.

F. J. 앤스콤브(Anscombe), 1793년(데이터 시각화에 관한 거의 모든 강의에서 반복한…)

일반적으로 사람들은 데이터 시각화를 데이터 분석 결과를 다른 사람들에게 보여주기 위한 수단으로 보는 경향이 있다.

Photo by Kaleidico on Unsplash

하지만 데이터 시각화는 단순히 데이터 분석 결과를 전달하기 위한 목적뿐만 아니라 정확한 분석을 위한 데이터 탐색 방법으로 활용되기도 한다. 데이터 분석 과정에서도 시각화가 중요한 역할을 한다는 의미다.

 

‘숫자’ 만 봐서는 인사이트를 알 수 없다

그림 1.22 동일한 요약 통계를 가진 데이터셋 4개(왼쪽), 왼쪽 데이터셋 4개를 시각화한 결과(오른쪽)

그림 1.22는 1973년 F. J. 앤스콤브(Anscombe)가 개발한 ‘앤스콤브의 4종류 데이터’다. 동일한 요약 통곗값(평균, 표준편차, 상관관계)을 가진 데이터셋(data set)을 산점도로 시각화했을 때 명확히 구별되는 시각적 패턴을 입증한다. 이에 따르면 요약 통곗값 정보만으로 데이터를 정확하게 파악할 수 없음을 이해할 수 있다. 우리는 요약 통곗값뿐만 아니라 시각화를 활용할 때 데이터를 정확하게 볼 수 있다.

 

정확한 이해를 위해서는 ‘보아야’ 한다

오랜 시간 동안 인용돼온 ‘앤스콤브의 4종류 데이터’에 이어 같은 맥락의 새로운 연구 결과를 살펴보자.

오토데스크 리서치(Autodesk Research)에서는 「같은 통계, 다른 그래프: 시뮬레이션 어닐링을 활용한 다양한 형태의 동일한 통계 데이터셋 생성」37이라는 제목으로 같은 요약 통곗값을 갖고 있으나 시각화했을 때 시각적 패턴이 뚜렷하게 구분되는 12개 데이터셋의 개발 결과를 발표했다.

그림 1.23 데이터 공룡(Datasaurus Dozen) – 데이터셋은 소수점 두 자릿수 기준으로 같은 요약 통곗값(평균, 표준편차,상관계수)을 보여주지만, 시각적 패턴은 모두 다르다.

그림 1.23은 데이터 시각화 분야의 유명 인사인 알베르토 카이로(Alberto Cairo)의 데이터 셋인 데이터 공룡(Datasaurus: 정상적인 통계처럼 보이지만 시각화하면 공룡 모양의 형태를 보임)과 소수점 두 자리수를 기준으로 같은 요약 통곗값을 갖는 12개의 데이터셋을 시각화했을 때 시각적 패턴이 모두 다르다는 것을 보여준다.

 

데이터 분석 과정에서 시각화는 필수다

두 가지 연구 결과를 바탕으로 우리는 데이터의 정확한 이해를 위해 데이터 분석 과정에서 시각화를 필수적으로 활용해야 한다는 점을 이해할 수 있다.

데이터 분석에서 ‘시각화’는 데이터의 정확한 이해를 위해, 또 쉽고 빠른 데이터 인사이트 발견을 위한 필수 요소라고 할 수 있다. 다른 한편으로 이를 ‘시각적 분석의 필요성’이라고도 요약할 수 있다.

시각적 분석이란 데이터 분석 방법으로서 시각화를 활용하는 것이다. 시각화 차트를 만들 때 활용하는 데이터 변수, 수치 계산 방식, 차트 유형 등의 조건을 달리하면서 다른 형태로 표현되는 시각화 차트의 시각적 패턴을 근거로 데이터 분석을 하는 것이다.

원문: NEWS JELLY의 블로그


참고자료

  • Justin Matejka, George Fitzmaurice, 「Same State, Different Graphs : Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing」, 2017
  • 위키백과, ‘Anscombe’s quartet’
  • Justin Matejka, George Fitzmaurice, 「Same State, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing」, 2017

Filed Under: 테크

필자 NEWS JELLY twitter

데이터, 어떻게 활용할지 막막하셨나요? 뉴스젤리는 데이터 분야의 전문 역량과 한발 앞선 R&D를 통한 자체 기술로 데이터 속에서 크리에이티브한 상상을 통해 새로운 인사이트를 쉽게 찾을 수 있도록 도와주는 데이터 시각화 전문 기업입니다.

Primary Sidebar

SPONSORED

RECOMMENDED

Footer

ㅍㅍㅅㅅ

등록번호: 서울, 아03293
등록일자: 2014년 8월 18일
제호: ㅍㅍㅅㅅ
발행인: 이승환
편집인: 이승환
주소: 서울특별시 서초구 강남대로 369 12층
발행일자: 2014년 8월 18일
전화번호: 010-2494-1884
청소년보호책임자: 이승환
Privacy Policy

Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in