간혹 웹사이트 검색 유입량에 문제가 생긴 고객들을 만나볼 때가 있습니다. 마케팅 활동은 예전과 그대로인데, 어떻게 위와 같이 검색 유입량 감소가 있을 수 있는지 궁금해하는 것입니다.
이런 경우 검색엔진의 알고리즘 업데이트와 이로 인한 기존 웹페이지 랭킹 하락, 또는 웹페이지의 로딩 속도 등 여러 문제점이 원인이 될 수 있습니다. 하지만 제일 먼저 간과하지 말아야 할 것은 여러분의 robots.txt 파일이 제대로 설정이 되어 있느냐입니다.
간혹 규모가 큰 웹사이트의 경우 웹사이트 개발팀에 의해서 본의 아니게 robots.txt 파일 설정이 올바르게 되지 있지 않은 경우도 있습니다. 위에 나온 웹사이트도 페이지의 로딩 요소 중 상당수가 크롤링 되지 않게 설정되어 있어서 문제점이 있었던 것을 확인할 수 있었습니다.
Robots.txt 파일이란?
Robots.txt는 웹사이트에서 검색엔진의 크롤링 로봇들이 어떤 페이지 또는 요소들을 수집하고 검색에 띄워주는가 명령을 내리는 파일입니다. 이때 원하는 검색엔진을 특정해 명령을 내리거나 전체 적용을 통해 명령을 내릴 수도 있습니다.
언제 Robots.txt 파일에 주의를 기울여야 할까
여러분 웹사이트의 검색 유입량이 예전에 비해서 적어졌다면 먼저 살펴볼 만한 것은 robots.txt 파일과 변화를 준 활동입니다. 예를 들어 웹사이트의 보안 강화를 위해 http에서 https로 변경했다면 robots.txt 파일에도 사이트맵의 주소가 https로 변경되어 있는지 확인하는 것이 중요합니다.
그렇지 않다면 기존 검색엔진 크롤링 로봇은 여러분이 특정한 대로 http의 경로로 페이지들을 크롤링하고 검색엔진에 띄우려고 할 것입니다. robots.txt 파일에 있는 설명대로 구글이나 여타 검색 엔진들이 작동을 하기 때문에, 파일에 있는 명령어가 여러분이 의도했던 것과 다르다면 여러분의 웹페이지가 제대로 읽히지 않는 등 문제를 일으키게 됩니다.
기본적인 이해가 필요한 과정
그렇다면 robots.txt파일에서 여러분이 이해해야 할 필수적인 요소는 어떤 것이 있을까요? 기본적으로 이해하셔야 할 요소는 다음과 같습니다.
User-agent
User agent는 검색엔진의 이름을 특정하는 항목입니다. 대표적인 종류는 아래와 같습니다.
- Googlebot (구글)
- Bingbot (빙)
- Slurp (야후)
- Baiduspider (바이두)
- Yandexbot (얀덱스)
- Yeti (네이버)
여러분은 이런 User agent 이름 중 하나를 택해서 기입하거나 또는 모든 검색엔진 로봇을 타깃으로 할 때 * 표시를 사용하면 됩니다.
Disallow
검색엔진 로봇들이 크롤링하지 않았으면 하는 웹사이트 주소를 표시합니다. Disallow 항목에는 여러분이 접근을 제한하고 싶은 주소를 적는데, /을 적으신다면 여러분의 홈페이지 메인 URL을 포함한 전체 페이지를 검색엔진이 크롤링하지 못하게 명령을 내리게 됩니다.
좀 더 살펴볼 예시
- User-agent: *
- Disallow: /
모든 검색엔진 로봇이 여러분 웹사이트의 모든 페이지를 크롤링하지 못하도록 하는 명령입니다.
- User-agent: *
- Disallow:
위와 반대로 Disallow의 항목으로 빈칸을 만들어놔 모든 검색엔진 로봇들이 여러분 웹사이트의 모든 페이지를 크롤링하도록 허용합니다.
추가적으로 알면 좋은 것들
1. http를 https로 리디렉션 했을 경우
여러분은 robots.txt 파일의 sitemap 정보에 아래처럼 예전의 http 대신 https가 있는지 확인해봐야 합니다.
- Sitemap: https://www.example.com
만일 현재 웹사이트의 웹페이지가 https로 로딩이 되는데 http가 robots.txt에 나타난다면, 제대로 크롤링이 안 되는 문제가 발생하게 됩니다.
2. CSS나 JS 파일을 robots.txt 파일에서 차단했는지 확인
웹사이트가 특히 커스텀 방식으로 제작된 경우, 간혹 CSS나 자바스크립트(JS) 파일을 robots.txt 파일에서 차단하는 경우가 있는데 이는 검색엔진에서 웹사이트를 충분히 이해하지 못한다고 생각하게 만들 수 있습니다. 이는 검색엔진 랭킹에서 내려가는 결과를 만들게 되며, 위의 예시로 든 웹사이트도 해당 문제점이 발견된 케이스입니다.
결론
여러분의 마케팅 활동이 여느 때와 다름이 없었는데 갑자기 검색 유입량이 현저하게 줄어든다면 검색엔진의 알고리즘 변화 그리고 그 알고리즘에 여러분 웹사이트의 문제점이 새로 파악됐을 가능성이 높습니다.
웹사이트를 개발자 혹은 팀이 맡아서 운영하고 있다면, 먼저 robots.txt 파일이 어떻게 관리되고 있는지 확인하는 것이 처음으로 고려해야 할 사항입니다. 개발자들이라고 해서 검색엔진 또 robots.txt 파일에 관해서 모두 제대로 알고 있는 것은 아닙니다.
해당 파일에서 어떤 것이 특별히 설정되어 있는지 살펴보고 그 이유를 웹사이트 관리/개발팀을 통해 알아보고 아무도 이유를 모른다면 오히려 설정되어 있는지 않는 게 검색엔진 트래픽에 더 이롭습니다.
원문: Onlinebiz