• Skip to content
  • Skip to secondary menu
  • Skip to primary sidebar
  • Skip to footer

ㅍㅍㅅㅅ

필자와 독자의 경계가 없는 이슈 큐레이팅 매거진

  • Home
  • 스타트업
    • 마케팅
    • 투자
  • 시사
    • 경제
    • 국제
    • 군사
    • 사회
    • 언론
    • 역사
    • 정치
    • 종교
  • 문화
    • 게임
    • 교육
    • 덕후
    • 만화
    • 스포츠
    • 애니
    • 연예
    • 영화
    • 인문
    • 음악
    • 책
    • 학문
  • 테크
    • IT
    • SNS
    • 개발
    • 공학
    • 과학
    • 디자인
    • 의학
    • 환경
  • 생활
    • 건강
    • 부모
    • 성인
    • 여행
    • 영어
    • 음식
    • 패션
  • 특집
    • 개드립
    • 인터뷰
  • 전체글

클릭 한 번으로 할 수 있는 업계별 데이터 수집 활용법: 데이터 크롤링 10만 유저를 분석하다

2022년 10월 12일 by 임예인

데이터 수집이 중요하다는데, 어떤 데이터를 수집해야 하지?

데이터 수집에는 품이 많이 든다. 데이터 작업 시간의 80%가 데이터를 수집하고 정제하는 데 소요된다. 개발자를 뽑자니 작은 회사에는 부담이고, 개발자가 귀한 시대라 있는 개발자도 자기 일하기 바쁘다.

그래서 데이터 수집을 자동화해주는 서비스들이 나왔다. 해외는 Import.io, zyte.com, 국내는 리스틀리가 대표적이다. ‘리스틀리’는 크롬/엣지에 확장 프로그램을 설치하여, 브라우저상에서 버튼 하나만 누르면 온갖 형태의 데이터들을 긁어와 엑셀로 만들어준다.

자동화 툴을 사용하면, 웹 브라우저에서 버튼 하나만 누르면 크롤링 끝이다.
간단하게 엑셀 형태로 정보가 뽑혀 나온다.

데이터 수집은 쉽다. 문제는 ‘어떤 데이터를 긁어야 할지’다. 데이터 수집 서비스 ‘리스틀리’는 10만 유저 돌파를 기념하여, 유저들이 어떤 데이터를 수집하고 있는지를 분석해 발표했다. 이를 토대로 업계별, 분야별로 어떻게 데이터를 활용하고 있는지 알아보자.

리스틀리는 10만 유저 돌파를 기념해, 분야/업계별 데이터 추출량을 분석해 발표했다. (자료제공: 리스틀리)

 

커머스, 쇼핑: 경쟁 쇼핑몰 및 도매몰 인기상품, 최저가 정보 긁어오기

커머스, 쇼핑 분야는 데이터 크롤링이 가장 많이 사용되는 분야다. 리스틀리 데이터에서도 38.3%의 데이터가 이 분야에서 수집됐다. 대표적인 예가 최저가 수집이다. 대형 쇼핑몰 A사는 오픈마켓에서 경쟁사의 상품 가격 정보를 긁어와 최저가를 맞춘다.

가격 경쟁의 시작은 포털이나 경쟁 쇼핑몰의 가격 데이터를 긁어오는 것에서부터 시작한다.

호텔 예약 플랫폼 B사는 포털에서 숙박 상품과 숙소 연락처를 수집하여, 상품을 업로드하고 새 상품을 개발한다. C 여행사는 주기적으로 항공권 가격 데이터를 수집하여, 이를 자사가 판매하는 패키지 상품에 반영한다.

데이터는 언어의 장벽도 넘는다. 휴대전화 액세서리를 판매하는 D 소매몰과 구매대행 전문 E 쇼핑몰은, 중국 도매 사이트의 상품 데이터를 긁어와 자사 쇼핑몰 운영에 사용한다.

아이폰 케이스를 수입하려 한다고 생각해 보자. 중국 도매 쇼핑몰에 아이폰 케이스를 검색한 뒤 크롤링하면…
상품명(LABEL-3)과 가격 정보(LABEL-14) 등을 한눈에 볼 수 있게 엑셀이 뽑혀 나온다

 

엔터테인먼트: 음원 순위/판매량 분석, 유튜브 인기 분석

최근에는 엔터 분야에서도 데이터 수집의 중요성이 높아지고 있다. 음원 및 음반을 유통하는 F사는 음원 사이트의 순위와 재생 횟수, 신보 발매 상황을 매일 크롤링한다. 데이터 자체는 음원 사이트에 들어가면 언제든 볼 수 있다지만, 사이트별로, 일자별로 뿔뿔이 흩어져 있어 실제 활용하기 어렵다. 엑셀 등의 형태로 정량화할 필요가 있다.

매일 갱신되는 음원 순위, 판매량을 분석하려면, 제일 먼저 정형화된 엑셀 파일부터 뽑아내야 한다.

유튜브가 대세로 떠오르며 크롤링은 더 중요해졌다. 조회수 하나만 해도, 음원부터 뮤직비디오, 무대 영상, 팬 영상까지 봐야 할 데이터가 더 많기 때문이다. 긁어온 데이터를 엑셀로 펼친 후, 필터나 함수 등을 이용해 가공하여 살펴본다. 회사는 물론 팬들도 데이터를 활용한다. 가수 G의 팬클럽이 이렇게 데이터를 긁어와 음원 인기를 분석하고 음원 재생 ‘총공’ 등에 활용한다.

유튜브는 음원 사이트와 달리 뮤비부터 팬 영상까지, 데이터가 더 파편화되어 있다.
데이터가 파편화되어 있을수록 엑셀 파일로 정형화하는 게 더 필요하다. 필터와 함수를 사용하면 조회수 합산은 물론 채널별, 종류별 분류도 간편하다.

 

리서치: 공공/연구기관 데이터 수집, 뉴스 클리핑, 마케팅 성과 분석

리서치는 데이터가 가장 직접적으로 사용되는 분야로, 16.8%의 데이터가 리서치 분야에서 수집되었다. 리서치 전문 기업 H사는 정부의 최신 공개 데이터를 지속적으로 수집하여 경기, 시장 동향을 살핀다. 공공기관 입찰을 주로 하는 I사는 ‘나라장터’ 등에서 입찰 정보를 수집한다.

공공데이터는 CSV 등을 다운받을 수 있게 되어 있는 경우도 있지만, 그렇지 않은 경우도 많다. 이 경우 데이터 크롤링이 필요하다.

산업 동향을 살피는 데는 뉴스만 한 것이 없다. 블록체인 기업 J사는 ‘블록체인’, ‘이더리움’과 같은 키워드를 이용해 뉴스 검색 결과를 계속 수집한다. 마케팅에서도 뉴스 검색은 중요하다. 보도자료가 얼마나 효과적으로 발행되었는지, 어떤 언론이 우리 회사에 주목하고 있는지가 한눈에 보인다.

뉴스도 크롤링의 대상이다. 엑셀로 뉴스 페이지를 크롤링해 놓으면, 뉴스 발행 시점과 언론 명, 기사 제목 등을 한눈에 볼 수 있어 직관적으로 산업 동향을 파악할 수 있다.

마케팅 캠페인의 효과를 측정할 때도 데이터 크롤링이 중요하다. 병원 마케팅 대행사 K사는 검색어 광고를 집행한 후 해당 키워드를 매일 검색해 보고, 이 검색 결과를 크롤링해 엑셀 파일로 저장해둔다. 데이터가 많이 쌓일수록, 그냥 쌓아두기만 한 것과 엑셀로 정량화한 것 사이에 차이가 압도적으로 커진다.

 

기타: 리뷰 수집, 업체 연락처 수집, 부동산 데이터 정제

마케팅 에이전시 L사는 상품 리뷰를 수집한다. 정성적인 데이터도 엑셀로 뽑아 두면 한눈에 들어온다. 쇼핑몰별, 평점별로 데이터를 분리할 수도 있다. 또 ‘찍힘’ ‘배송’ 등 특정 키워드를 검색해, 유저들이 어떤 부분에 주로 불만을 제기하는지 알아볼 수 있다.

리뷰는 정량적인 데이터가 아니기에, 데이터 크롤링의 필요성이 덜 중요하게 보일 수도 있다.
그러나 리뷰 같은 정성적인 데이터도 엑셀로 뽑아놓고 보면 훨씬 편하다. 필터를 적용해 원하는 데이터만 볼 수도 있고, 특정 키워드로 검색해 유저들의 불만 사항을 체크해 볼 수도 있다.

또 한 가지 흥미로운 점이 있다. 무려 13.9%의 데이터가 ‘연락처 수집’이라는 한 가지 작업에 사용되었다는 점이다. M 에이전시는 각종 행사, 협회 홈페이지 등에 공개된 회사 정보와 연락처를 크롤링한다. 지도 앱의 검색 페이지를 크롤링하면, 주변 업소 연락처를 한 번에 수집할 수도 있다.

예를 들어, 카카오맵 지도에서 레스토랑을 검색한 뒤 이 페이지를 크롤링하면…
주변 레스토랑 주소, 연락처, 리뷰 정보 등이 한눈에 보이는 엑셀 파일이 짠 나타난다

한편, 최근 급격히 데이터 활용이 증가하고 있는 분야가 있다. 5.4%의 데이터가 부동산에서 수집되었다. 구글, 네이버 등에서 제공하는 부동산 포털을 크롤링하면, 특정 지역의 매물을 한눈에 볼 수 있다. 아파트/빌라, 전세/월세, 층수, 임대료 등의 속성에 따라 분류해 다양하게 사용할 수 있다.

네이버 부동산이나 구글 부동산이 부동산 시세, 면적, 형태 등에 대한 상세한 정보를 제공한다.
부동산 데이터는 면적, 임대료, 전세/월세/매매 형태 등 정량화된 데이터가 많다. 엑셀로 뽑아봤을 때 특히 많은 인사이트를 얻을 수 있다.

 

데이터, 이젠 선택이 아니라 필수인 시대

데이터는 이제 선택이 아니라 필수다. 하지만 모든 회사가 파이썬을 다루고 데이터 사이언티스트를 채용할 수는 없다. 데이터 수집과 정제는 이들에게도 보통 고달픈 작업이 아니다.

다행인 것은, 자동화 툴을 사용하는 것만으로도 데이터 사이언티스트 부럽지 않게 데이터를 수집하고 정제할 수 있다는 것이다. 설치도 간편하다. 웹 브라우저에 확장 프로그램 하나만 설치하면, 수천, 수만 개의 정보를 수집하는 게 클릭 몇 번으로 가능해진다.

커머스에서는 인기 상품이나 가격을 모니터링하기 위해, 마케터들은 리뷰나 뉴스, SNS 반응을 수집하기 위해, 영업직에서는 연락처를 수집하기 위해, 금융 분야에서는 투자 지표를 수집하기 위해. 필요는 무궁무진하다. 데이터 크롤링은 조직과 서비스를 고도화하기 위해 꼭 필요한 과업이다.

자료제공: 리스틀리, www.listly.io

위에서 소개한 사례들을 직접 체험해보고 싶다면 www.listly.io 에서 무료로 사용하실 수 있습니다.

☞ 리스틀리(Listly) 무료로 사용해 보기


표지 이미지 출처

  • Freepik

Filed Under: 마케팅 Tagged With: sponsored

필자 임예인 twitter twitter facebook

노동자의 세상을 꿈꾸는 (전 편집장 겸) ㅍㅍㅅㅅ 노조위원장. 그러나 과업에는 태만하고 두목에게 술이나 뜯어먹고 다닌다는 첩보가 입수된 바 있다. 경쟁매체 슬로우뉴스에서도 세작으로 일하고 있다.

Primary Sidebar

Footer

ㅍㅍㅅㅅ

등록번호: 서울, 아03293
등록일자: 2014년 8월 18일
제호: ㅍㅍㅅㅅ
발행인: 이승환
편집인: 이승환
주소: 서울특별시 서초구 강남대로 369 12층
발행일자: 2014년 8월 18일
전화번호: 010-2494-1884
청소년보호책임자: 이승환
Privacy Policy

Copyright © 2023 · Magazine Pro on Genesis Framework · WordPress · Log in