'크롤러'('로봇' 또는 '스파이더'라고도 함)는 한 웹페이지에서 다른 웹페이지로 연결되는 링크를 따라가며 웹사이트를 자동으로 검색하는 데 사용되는 프로그램을 가리키는 일반적인 용어입니다. Google의 기본 크롤러를 Googlebot이라고 합니다. 다음 표를 참고하여 리퍼러 로그에서 볼 수 있는 일반적인 Google 크롤러와 이러한 크롤러를 robots.txt, robotsmeta 태그X-Robots-Tag HTTP 규칙에서 지정하는 방법을 알아보세요.
다음 표에 다양한 Google 제품 및 서비스에서 사용되는 크롤러가 나와 있습니다.
사용자 에이전트 토큰은 사이트의 크롤링 규칙을 작성할 때 크롤러 유형과 일치시키기 위해 robots.txt의 User-agent: 줄에 사용됩니다. 표에서 볼 수 있는 것처럼 일부 크롤러에는 토큰이 두 개 이상 있습니다. 규칙을 적용하려면 크롤러 토큰 하나만 일치시켜야 합니다. 이 목록은 완전하지는 않지만 웹사이트에서 볼 수 있는 대부분의 크롤러를 다룹니다.
전체 사용자 에이전트 문자열은 크롤러의 전체 설명이며 HTTP 요청과 웹 로그에 표시됩니다.
Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
데스크톱 에이전트: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers)
모바일 에이전트: Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers)
표에 있는 사용자 에이전트 문자열에 Chrome/W.X.Y.Z 문자열이 표시되는 경우 W.X.Y.Z는 사용자 에이전트가 사용하는 Chrome 브라우저의 버전을 나타냅니다(예: 41.0.2272.96). 이 버전 번호는 Googlebot에 사용되는 최신 Chromium 출시 버전에 맞춰 시간이 지남에 따라 증가합니다.
이 패턴이 있는 사용자 에이전트를 대상으로 로그를 검색하거나 서버를 필터링하는 경우 정확한 버전 번호를 지정하기보다는 버전 번호에 와일드 카드를 사용하세요.
robots.txt의 사용자 에이전트
robots.txt 파일에서 여러 개의 사용자 에이전트가 인식되는 경우 Google에서는 가장 구체적인 사용자 에이전트를 추적합니다. Google 전체에서 내 페이지를 크롤링할 수 있게 하려면 robots.txt 파일을 사용할 필요가 없습니다. 모든 Google 크롤러가 내 콘텐츠 일부에 액세스하는 것을 차단 또는 허용하려면 Googlebot을 사용자 에이전트로 지정하면 됩니다. 예를 들어 내 모든 페이지가 Google 검색에 표시되고 애드센스 광고가 내 페이지에 표시되도록 하려면 robots.txt 파일을 사용할 필요가 없습니다. 마찬가지로 내 페이지 일부가 Google에서 아예 표시되지 않도록 하려는 경우 Googlebot 사용자 에이전트를 차단하면 Google의 다른 사용자 에이전트도 모두 차단됩니다.
그러나 좀 더 구체적으로 지정하면 더욱 세밀하게 제어할 수 있습니다. 예를 들어 모든 페이지가 Google 검색에 표시되기를 원하지만 개인 디렉터리에 있는 이미지는 크롤링되지 않기를 원할 수 있습니다. 이 경우 다음과 같이 robots.txt를 사용해 Googlebot-Image 사용자 에이전트가 개인 디렉터리에 있는 파일을 크롤링하는 것을 차단하면 됩니다(Googlebot은 모든 파일을 크롤링할 수 있음).
각 Google 크롤러는 특정 목적에 따라 다양한 속도로 사이트에 액세스합니다. Google에서는 알고리즘을 사용하여 각 사이트에 가장 적합한 크롤링 속도를 결정합니다. Google 크롤러가 사이트를 너무 자주 크롤링한다면 크롤링 속도를 줄일 수 있습니다.
지원 중단된 Google 크롤러
다음 Google 크롤러는 더 이상 사용되지 않으며 여기에 기록 참고용으로만 표시됩니다.
지원 중단된 Google 크롤러
Duplex on the web
Duplex on the web 서비스를 지원합니다.
사용자 에이전트 토큰
DuplexWeb-Google
전체 사용자 에이전트 문자열
Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36
Web Light
사용자가 적절한 조건하에 검색에서 페이지를 클릭할 때마다 no-transform 헤더의 존재 여부를 확인했습니다. Web Light 사용자 에이전트는 실제 방문자의 명시적인 탐색 요청에만 사용었으므로 자동 크롤링 요청을 차단하는 데 사용되는 robots.txt 규칙이 무시되었습니다.
사용자 에이전트 토큰
googleweblight
전체 사용자 에이전트 문자열
Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19