고급: Google 검색 작동 방식

Google 검색의 콘텐츠 크롤링, 색인 생성, 게재 방식을 이해하는 것은 문제를 디버깅하고 사이트에서 Google 검색 동작을 예측하는 데 있어 중요합니다.

크롤링

크롤링은 Googlebot이 새로운 페이지 및 업데이트된 페이지를 방문하여 페이지가 Google 색인에 추가되는 과정입니다.

Google은 막대한 수의 컴퓨터를 사용하여 수십억 개의 웹페이지를 가져옵니다. 이 작업을 '크롤링'이라고 합니다. 웹페이지를 가지고 오는 프로그램을 Googlebot(또는 로봇, 크롤러, 스파이더)이라고 합니다. Googlebot은 알고리즘 프로세스를 사용하여 크롤링할 사이트, 각 사이트에서 가져올 페이지 수, 크롤링 빈도를 결정합니다.

Google의 크롤링은 이전 크롤링 과정에서 생성되어 웹사이트 소유자가 제공한 사이트맵 데이터가 추가된 웹페이지 URL 목록에서 시작합니다. Googlebot이 페이지를 방문하면 페이지의 링크를 찾아 크롤링할 페이지 목록에 추가합니다. 이렇게 새 사이트, 기존 사이트의 변경사항, 비활성 링크를 파악해 Google 색인을 업데이트하는 데 사용합니다.

크롤링하는 동안 Google은 최신 버전의 Chrome을 사용하여 페이지를 렌더링합니다. Google은 렌더링 과정의 일환으로 찾은 페이지 스크립트를 실행합니다. 사이트에서 동적으로 생성된 콘텐츠를 사용하는 경우 자바스크립트 검색엔진 최적화 기본사항을 따르세요.

Google은 크롤링하지 않을 페이지를 어떻게 파악하나요?

  • robots.txt에서 차단된 페이지는 크롤링되지 않지만, 다른 페이지에 의해 연결된 경우에는 그래도 색인이 생성될 수 있습니다. Google은 페이지를 가리키는 링크로 페이지의 콘텐츠를 추론한 후 콘텐츠를 파싱하지 않고 페이지의 색인을 생성할 수 있습니다.
  • 익명의 사용자가 액세스할 수 없는 페이지는 Google에서 크롤링할 수 없습니다. 따라서 로그인 또는 기타 승인 보호가 설정된 경우 페이지가 크롤링되지 않습니다.
  • 이미 크롤링되었고 다른 페이지의 중복으로 간주되는 페이지의 크롤링 빈도는 더 낮습니다.

크롤링 개선하기

다음과 같은 기술을 사용하면 Google이 내 사이트에서 올바른 페이지를 발견하게 하는 데 도움이 됩니다.

색인 생성

Googlebot은 크롤링하는 각 페이지를 처리하여 페이지의 콘텐츠를 이해합니다. 여기에는 텍스트 콘텐츠, 주요 콘텐츠 태그, 속성(예: <title> 태그나 Alt 속성, 이미지, 동영상 등) 처리가 포함됩니다. Googlebot은 많은 콘텐츠 유형을 처리할 수 있지만, 일부 처리가 불가능한 유형도 있습니다. 예를 들어 일부 리치 미디어 파일의 콘텐츠는 처리할 수 없습니다.

Google에서는 크롤링과 색인 생성을 하는 중에 페이지가 다른 페이지의 중복인지 표준 페이지인지 판단합니다. 페이지가 중복으로 간주되면 크롤링 빈도가 훨씬 낮아집니다. 유사한 페이지는 문서로 그룹화됩니다. 문서는 표준 페이지(그룹의 가장 대표적인 페이지) 및 발견한 중복 항목(같은 페이지로 연결되는 대체 URL 또는 같은 페이지의 대체 모바일/데스크톱 버전)을 포함하는 1개 이상의 페이지 그룹입니다.

Google에서는 noindex 지시어(헤더 또는 태그)가 포함된 페이지의 색인을 생성하지 않습니다. 하지만 Google에서 지시어를 확인할 수는 있어야 합니다. 페이지가 robots.txt 파일이나 로그인 페이지 또는 다른 기기에 의해 차단된 경우 Google에서 페이지를 방문하지 않더라도 페이지의 색인이 생성될 수 있습니다.

색인 생성 개선하기

다양한 기술을 사용해 Google의 페이지 콘텐츠 파악 성능을 개선할 수 있습니다.

'문서'란 무엇인가요?

Google 내부적으로 웹은 문서의 방대한 집합에 해당하며, 각 문서는 하나 이상의 웹페이지에 해당합니다. 이러한 페이지는 서로 동일하거나 매우 유사하지만 본질적으로 다른 URL로 연결 가능한 동일한 콘텐츠입니다. 문서의 서로 다른 URL이 완전히 동일한 페이지로 접속될 수도 있습니다(예를 들어, example.com/dresses/summer/1234 및 example.com?product=1234가 같은 페이지를 표시하는 경우). 또는 서로 다른 기기를 사용하는 사용자를 위해 같은 페이지의 약간씩 다른 변형을 표시하는 경우도 있습니다(예를 들어, 데스크톱 사용자에게는 example.com/mypage를, 모바일 사용자에게는 m.example.com/mypage 표시).

Google은 문서의 URL 중 하나를 선택하여 문서의 표준 URL로 정의합니다. 문서의 표준 URL은 Google이 가장 자주 크롤링하고 색인을 생성하는 URL입니다. 다른 URL은 중복 URL이나 대체 URL로 간주되며 사용자 요청에 따라 때때로 크롤링되거나 게재될 수 있습니다. 예를 들어 문서의 표준 URL이 모바일 URL이면 Google은 데스크톱에서 검색하는 사용자를 위해 여전히 데스크톱 (대체) URL을 게재할 수 있습니다.

대부분의 Search Console 보고서의 경우 문서의 표준 URL을 기반으로 데이터를 표시합니다. URL 검사 도구와 같은 일부 도구는 대체 URL 테스트를 지원하지만, 표준 URL 검사는 대체 URL에 관한 정보도 제공합니다.

표준 URL로 하고자 하는 URL을 Google에 알릴 수도 있지만, Google은 다양한 이유로 다른 표준 URL을 선택할 수 있습니다.

다음은 용어 요약과 Search Console에서의 용례입니다.

  • 문서: 유사한 페이지의 모음입니다. 사이트에 중복 페이지가 있는 경우 표준 URL이 있고 대체 URL도 있을 수도 있습니다. 문서의 URL은 같은 조직일수도 또는 다른 조직에 속할 수 있습니다(예: www.google.com의 'google'과 같은 루트 도메인). Google은 플랫폼(모바일/데스크톱), 사용자의 언어, 위치 및 여러 다양한 변수에 따라 Google 검색결과에 표시할 최선의 URL을 선택하며, 자연 크롤링 또는 사이트에서 구현한 기능(예: 리디렉션 또는 <link rel=alternate/canonical> 태그)으로 사이트의 관련 페이지를 발견합니다. 다른 조직의 관련 페이지는 내 사이트에서 (리디렉션이나 링크 태그를 통해) 명시적으로 코딩한 경우에만 대체 페이지로 표시될 수 있습니다.
  • URL: 사이트의 특정 콘텐츠에 접속하는 데 사용하는 URL입니다.
  • 페이지: 하나 이상의 URL로 접속될 수 있는 특정 웹페이지입니다. 사용자의 플랫폼(모바일, 데스크톱, 태블릿 등)에 따라 다른 버전의 페이지가 있을 수 있습니다.
  • 버전: 페이지의 한 가지 변형으로, 일반적으로 '모바일', '데스크톱', 'AMP'로 분류됩니다(단, AMP 자체에 모바일/데스크톱 버전이 있을 수 있음). 각 버전은 사이트 구성에 따라 URL이 다르거나(example.com 및 m.example.com) 같을 수 있습니다(사이트에서 동적 게재반응형 웹 디자인을 사용하는 경우 같은 URL에서 같은 페이지의 다른 버전을 표시할 수 있음). 다른 언어 버전은 다른 버전으로 간주되지 않지만 다른 문서로 취급됩니다.
  • 표준 페이지 또는 URL: Google이 문서의 가장 대표라고 간주하는 URL입니다. Google은 항상 이 URL을 크롤링하지만 문서의 중복 URL을 크롤링할 때도 있습니다.
  • 대체/중복 페이지 또는 URL: Google이 때때로 크롤링할 수 있는 문서 URL입니다. Google은 사용자 및 요청에 맞는 경우 이 URL을 게재하기도 합니다. 예를 들면, 데스크톱 요청에 대해 표준 모바일 URL 대신 데스크톱 사용자를 위한 대체 URL이 게재됩니다.
  • 사이트: 보통 웹사이트의 동의어로 사용되지만(개념적으로 관련된 웹페이지 모음), 때때로 Search Console 속성의 동의어로 사용되기도 합니다. 단, 속성은 사이트의 일부분으로만 정의될 수 있습니다. 사이트는 하위 도메인과 올바로 연결된 AMP 페이지의 도메인까지도 포함할 수 있습니다.

결과 게재하기

사용자가 검색어를 입력하면 Google 컴퓨터는 색인에서 일치하는 페이지를 검색하고 사용자와 가장 관련성이 높다고 판단되는 결과를 반환합니다. 관련성은 수백 가지 요인으로 결정되며, Google은 항상 알고리즘 개선을 위해 노력합니다. Google이 결과를 선택하고 순위를 지정할 때는 사용자 환경을 고려하므로 페이지가 빠르게 로드되고 모바일 친화적이어야 합니다.

게재 개선하기

다양한 방법으로 Google이 페이지의 콘텐츠를 게재하는 방식을 개선할 수 있습니다.

  • 결과가 특정 위치 또는 특정 언어의 사용자를 대상으로 하는 경우 Google에 내가 선호하는 사항을 알릴 수 있습니다.
  • 페이지는 빠르게 로드되며 모바일 친화적이어야 합니다.
  • 일반적인 실수를 피하고 사이트의 순위를 올릴 수 있도록 웹마스터 가이드라인을 따릅니다.
  • 사이트에 레시피 카드나 기사 카드 같은 검색결과 기능을 구현하는 것이 좋습니다.
  • 휴대기기에서 페이지가 빠르게 로드될 수 있도록 AMP를 구현합니다. 일부 AMP 페이지에서는 주요 뉴스 캐러셀 같은 추가 검색 기능도 사용할 수 있습니다.
  • Google의 알고리즘은 끊임없이 개선되고 있습니다. 따라서 알고리즘을 추측해 페이지를 디자인하려고 하기보다는 Google 가이드라인에 따라 사용자가 원하는 양질의 새로운 콘텐츠를 만들기 위해 노력하세요.