Googlebot과 다른 Google 크롤러 확인

서버에 액세스하는 웹 크롤러가 실제로 Googlebot과 같은 Google 크롤러인지 확인할 수 있습니다. 이 방법은 스팸 발송자나 악의적 사용자가 Googlebot을 가장하여 사이트에 액세스하지 못하게 하는 데 도움이 됩니다.

Google 크롤러는 세 가지 카테고리로 분류됩니다.

유형 설명 역방향 DNS 마스크 IP 범위
Googlebot Google 검색 제품의 기본 크롤러입니다. 항상 robots.txt 규칙을 준수합니다. crawl-***-***-***-***.googlebot.com 또는 geo-crawl-***-***-***-***.geo.googlebot.com googlebot.json
예외 상황 크롤러 robots.txt 규칙을 준수하거나 준수하지 않는 특정 기능(예: AdsBot)을 수행하는 크롤러입니다. rate-limited-proxy-***-***-***-***.google.com special-crawlers.json
사용자 트리거 가져오기 최종 사용자가 가져오기를 트리거하는 도구 및 제품 기능입니다. 예를 들어 Google 사이트 인증 도구는 사용자의 요청에 따라 작동합니다. 사용자가 가져오기를 요청했으므로 해당 가져오기는 robots.txt 규칙을 무시합니다. ***-***-***-***.gae.googleusercontent.com user-triggered-fetchers.json

Google 크롤러 확인에는 다음 두 가지 방법이 있습니다.

  • 수동: 일회성 조회의 경우 명령줄 도구를 사용합니다. 이 방법만 사용해도 대부분의 사용 사례에 충분합니다.
  • 자동: 대규모 조회의 경우 자동 솔루션을 사용하여 크롤러의 IP 주소를 게시된 Googlebot IP 주소 목록과 대조합니다.

명령줄 도구 사용

  1. host 명령어를 사용해 로그의 액세스 IP 주소에 역방향 DNS 조회를 실행합니다.
  2. 도메인 이름이 googlebot.com, google.com, 또는 googleusercontent.com인지 확인합니다.
  3. 검색된 도메인 이름에서 host 명령어를 사용해 1단계에서 검색된 도메인 이름에 순방향 DNS 조회를 실행합니다.
  4. 로그의 원래 액세스 IP 주소와 동일한지 확인합니다.

예 1:

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

예 2:

host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.

host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240

예 3:

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

자동 솔루션 사용

또는 크롤러의 IP 주소를 Googlebot 크롤러 및 가져오기의 IP 범위 목록과 대조해 IP 주소로 Googlebot을 식별할 수도 있습니다.

사이트에 액세스할 수 있는 다른 Google IP 주소(예: Apps Script)는 액세스 IP 주소를 Google IP 주소 목록과 대조합니다. JSON 파일의 IP 주소는 CIDR 형식으로 표시됩니다.