Google 크롤러 및 가져오기 도구(사용자 에이전트)에 관한 개요
Google은 크롤러 또는 가져오기 도구를 사용하여 자동 또는 사용자 요청에 의해 트리거되는 방식으로 제품에 대한 작업을 수행합니다. 크롤러('로봇' 또는 '스파이더'라고도 함)는 한 웹페이지에서 다른 웹페이지로 연결되는 링크를 따라가며 웹사이트를 자동으로 검색하고 스캔하는 데 사용되는 프로그램을 가리키는 일반적인 용어입니다. 가져오기 도구는 일반적으로 사용자를 대신하여 단일 요청을 실행하는 wget과 같은 프로그램 역할을 합니다. Google의 클라이언트는 세 가지 카테고리로 분류됩니다.
일반 크롤러 | Google 제품에 사용되는 일반 크롤러(예: Googlebot)입니다. 자동 크롤링에 대한 robots.txt 규칙을 항상 준수합니다. |
예외 상황 크롤러 |
예외 상황 크롤러는 일반 크롤러와 유사하지만 크롤링되는 사이트와 Google 제품 간에 크롤링 프로세스 관련 합의가 있는 특정 제품에서 사용됩니다. 예를 들어 AdsBot 은 광고 게시자의 권한이 있는 전역 robots.txt 사용자 에이전트(* )를 무시합니다.
|
사용자 트리거 가져오기 | 사용자 트리거 가져오기 도구는 최종 사용자가 가져오기를 트리거하는 도구 및 제품 기능입니다. 예를 들어 Google 사이트 인증 도구는 사용자의 요청에 따라 작동합니다. |
Google 크롤러 및 가져오기 도구의 기술 속성
Google 크롤러와 가져오기 도구는 웹이 확장됨에 따라 성능과 규모를 향상시키기 위해 수천 대의 컴퓨터에서 동시에 실행되도록 설계되었습니다. 대역폭 사용량을 최적화하기 위해 이 클라이언트는 전 세계 여러 데이터 센터에 분산되어 액세스할 수 있는 사이트 근처에 위치합니다. 그러므로 로그에는 여러 IP 주소에서 방문한 내역이 표시될 수 있습니다. Google은 주로 미국 IP 주소에서 이그레스합니다. Google이 미국에서 발생한 요청을 차단하는 사이트를 감지하면 다른 국가에 있는 IP 주소에서 크롤링을 시도할 수 있습니다.
Google 크롤러와 가져오기 도구는 HTTP/1.1 및 사이트에서 지원하는 경우에는 HTTP/2를 사용합니다. HTTP/2를 통한 크롤링은 사이트와 Googlebot의 컴퓨팅 리소스(예: CPU, RAM)를 절약할 수 있지만 사이트에는 제품별 이점이 없습니다(예: Google 검색에서 순위가 상승하지 않음).
HTTP/2를 통한 크롤링을 거부하려면 Google이 HTTP/2를 통해 사이트에 액세스하려고 할 때 421
HTTP 상태 코드로 응답하도록 사이트를 호스팅하는 서버에 지시합니다. 그렇게 할 수 없는 경우 크롤링팀에 메시지를 보내면 됩니다(단, 이 방법은 일시적임).
Google의 크롤러와 가져오기 도구는 다음과 같은 콘텐츠 인코딩(압축)을 지원합니다.
gzip,
deflate,
Brotli(br) 각 Google 사용자 에이전트에서 지원하는 콘텐츠 인코딩은 각 요청의 Accept-Encoding
헤더에 광고됩니다. 예:
Accept-Encoding: gzip, deflate, br
.
Google의 목표는 방문한 사이트에서 서버에 무리를 주지 않으면서 가능한 한 많은 페이지를 크롤링하는 것입니다. 사이트에서 Google의 크롤링 요청 속도를 맞추는 데 문제가 있는 경우 크롤링 속도를 낮출 수 있습니다. Google 크롤러에 부적절한 HTTP 응답 코드를 전송하면 Google 제품에 사이트가 표시되는 방식에 영향을 미칠 수 있습니다.
Google 크롤러 및 가져오기 도구 확인하기
Google 크롤러는 다음 세 가지 방법으로 자신을 식별합니다.
-
HTTP
user-agent
요청 헤더 - 요청의 소스 IP 주소
- 소스 IP의 역방향 DNS 호스트 이름
이 세부정보를 사용하여 Google 크롤러 및 가져오기 도구를 확인하는 방법을 알아보세요.