Googlebot과 다른 Google 크롤러 확인
서버에 액세스하는 웹 크롤러가 실제로 Googlebot과 같은 Google 크롤러인지 확인할 수 있습니다. 이 방법은 스팸 발송자나 악의적 사용자가 Googlebot을 가장하여 사이트에 액세스하지 못하게 하는 데 도움이 됩니다.
Google 크롤러는 세 가지 카테고리로 분류됩니다.
유형 | 설명 | 역방향 DNS 마스크 | IP 범위 |
---|---|---|---|
Googlebot | Google 검색 제품의 기본 크롤러입니다. 항상 robots.txt 규칙을 준수합니다. |
crawl-***-***-***-***.googlebot.com 또는
geo-crawl-***-***-***-***.geo.googlebot.com
|
googlebot.json |
예외 상황 크롤러 | robots.txt 규칙을 준수하거나 준수하지 않는 특정 기능(예: AdsBot)을 수행하는 크롤러입니다. | rate-limited-proxy-***-***-***-***.google.com |
special-crawlers.json |
사용자 트리거 가져오기 | 최종 사용자가 가져오기를 트리거하는 도구 및 제품 기능입니다. 예를 들어 Google 사이트 인증 도구는 사용자의 요청에 따라 작동합니다. 사용자가 가져오기를 요청했으므로 해당 가져오기는 robots.txt 규칙을 무시합니다. | ***-***-***-***.gae.googleusercontent.com |
user-triggered-fetchers.json |
Google 크롤러 확인에는 다음 두 가지 방법이 있습니다.
- 수동: 일회성 조회의 경우 명령줄 도구를 사용합니다. 이 방법만 사용해도 대부분의 사용 사례에 충분합니다.
- 자동: 대규모 조회의 경우 자동 솔루션을 사용하여 크롤러의 IP 주소를 게시된 Googlebot IP 주소 목록과 대조합니다.
명령줄 도구 사용
-
host
명령어를 사용해 로그의 액세스 IP 주소에 역방향 DNS 조회를 실행합니다. -
도메인 이름이
googlebot.com
,google.com
, 또는googleusercontent.com
인지 확인합니다. -
검색된 도메인 이름에서
host
명령어를 사용해 1단계에서 검색된 도메인 이름에 순방향 DNS 조회를 실행합니다. - 로그의 원래 액세스 IP 주소와 동일한지 확인합니다.
예 1:
host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
예 2:
host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240
예 3:
host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77
자동 솔루션 사용
또는 크롤러의 IP 주소를 Googlebot 크롤러 및 가져오기의 IP 범위 목록과 대조해 IP 주소로 Googlebot을 식별할 수도 있습니다.
사이트에 액세스할 수 있는 다른 Google IP 주소(예: Apps Script)는 액세스 IP 주소를 Google IP 주소 목록과 대조합니다. JSON 파일의 IP 주소는 CIDR 형식으로 표시됩니다.