Lista de rastreadores comuns do Google
Os rastreadores comuns do Google são usados para encontrar informações a fim de criar índices da Pesquisa do Google, realizar outros rastreamentos de produtos específicos e análise. Eles sempre obedecem às regras do robots.txt ao rastrear automaticamente. As propriedades técnicas gerais dos rastreadores do Google também se aplicam aos rastreadores comuns.
Os rastreadores comuns geralmente rastreiam pelos intervalos de IP publicados no
objeto googlebot.json e a máscara de DNS reverso
dos nomes do host correspondem a crawl-***-***-***-***.googlebot.com
ou
geo-crawl-***-***-***-***.geo.googlebot.com
.
A lista a seguir mostra os rastreadores comuns, as strings de user agent conforme aparecem nas solicitações HTTP, os tokens do user agent para a linha User-agent:
no robots.txt e os produtos que são afetados pelas preferências de rastreamento. Alguns rastreadores têm mais de um
token do user agent. Para que uma regra seja aplicada, basta que um token corresponda ao rastreador. A lista não é
completa, abrange apenas os solicitantes com maior probabilidade de aparecer nos arquivos de registro e que
sobre quais recebemos perguntas.
-
Googlebot
-
User-Agent
em solicitações HTTPGooglebot para smartphones Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googlebot Desktop Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
Raramente:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googlebot/2.1 (+http://www.google.com/bot.html)
robots.txt Token do user agent no robots.txt Googlebot
Exemplo de grupo do robots.txt user-agent: Googlebot allow: /archive/1Q84 disallow: /archive
Produtos afetados As preferências de rastreamento direcionadas ao user agent Googlebot
afetam a Pesquisa Google (incluindo o Discover e todos os recursos da Pesquisa Google), bem como outros produtos como Imagens do Google, Google Video, Google Notícias e Discover. Googlebot Image
-
User agent em solicitações HTTP Googlebot-Image/1.0
robots.txt Token do user agent no robots.txt Googlebot-Image
Googlebot
Exemplo de grupo do robots.txt user-agent: Googlebot-Image allow: /archive/1Q84 disallow: /archive/moons.jpg
Produtos afetados As preferências de rastreamento direcionadas ao user agent Googlebot-Image
afetaram o Imagens do Google, Discover, Google Video e todos os recursos da Pesquisa Google, em que imagens, logotipos e favicons são apresentados. Googlebot Video
-
User agent em solicitações HTTP Googlebot-Video/1.0
robots.txt Token do user agent no robots.txt Googlebot-Video
Googlebot
Exemplo de grupo do robots.txt user-agent: Googlebot-Video allow: /archive/1Q84 disallow: /archive/
Produtos afetados As preferências de rastreamento direcionadas ao user agent Googlebot-Video
afetaram os recursos da Pesquisa Google relacionados a vídeo e outros produtos que dependem de vídeos. Googlebot News
-
User agent em solicitações HTTP O Googlebot-News não tem uma string de user agent de solicitação HTTP separada. O rastreamento é feito com várias strings de user agent do Googlebot. robots.txt Token do user agent no robots.txt Googlebot-News
Googlebot
Exemplo de grupo do robots.txt user-agent: Googlebot-News allow: /archive/1Q84 disallow: /archive/
Produtos afetados As preferências de rastreamento direcionadas ao user agent Googlebot-News
afetam todas as plataformas do Google Notícias (por exemplo, a guia "Notícias" na Pesquisa Google e o app Google Notícias). Google StoreBot
-
User agent em solicitações HTTP Agente de computador Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Safari/537.36
Agente de dispositivo móvel Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36
robots.txt Token do user agent no robots.txt Storebot-Google
Exemplo de grupo do robots.txt user-agent: Storebot-Google allow: /archive/1Q84 disallow: /archive/konbini
Produtos afetados As preferências de rastreamento direcionadas ao user agent Storebot-Google
afetam todas as plataformas do Google Shopping (por exemplo, a guia "Shopping" na Pesquisa Google e Google Shopping). Google-InspectionTool
-
User agent em solicitações HTTP Agente de computador Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)
Agente de dispositivo móvel Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
robots.txt Token do user agent no robots.txt Google-InspectionTool
Googlebot
Exemplo de grupo do robots.txt user-agent: Google-InspectionTool allow: /archive/1Q84 disallow: /archive/
Produtos afetados As preferências de rastreamento direcionadas ao user agent Google-InspectionTool
afetam as ferramentas de teste da Pesquisa, como o teste de pesquisa aprimorada e a inspeção de URL no Search Console. Elas não afetam a Pesquisa Google nem outros produtos. GoogleOther
-
User agent em solicitações HTTP Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; GoogleOther)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GoogleOther) Chrome/W.X.Y.Z Safari/537.36
robots.txt Token do user agent no robots.txt GoogleOther
Exemplo de grupo do robots.txt user-agent: GoogleOther allow: /archive/1Q84 disallow: /archive/
Produtos afetados As preferências de rastreamento direcionadas ao user agent GoogleOther
não afetam qualquer produto específico. O GoogleOther é o rastreador genérico que pode ser usado por várias equipes de produto para buscar conteúdo acessível publicamente nos sites. Ele pode ser usado em rastreamentos únicos para pesquisa interna e desenvolvimento, por exemplo. Ele não afeta a Pesquisa Google nem outros produtos. GoogleOther-Image
-
User agent em solicitações HTTP GoogleOther-Image/1.0
robots.txt Token do user agent no robots.txt GoogleOther-Image
GoogleOther
Exemplo de grupo do robots.txt user-agent: GoogleOther-Image allow: /archive/1Q84 disallow: /archive/moon.jpg
Produtos afetados As preferências de rastreamento direcionadas ao user agent GoogleOther-Image
não afetam nenhum produto específico, semelhante ao GoogleOther. GoogleOther-Image é a versão do GoogleOther otimizada para buscar URLs de imagens acessíveis publicamente. GoogleOther-Video
-
User agent em solicitações HTTP GoogleOther-Video/1.0
robots.txt Token do user agent no robots.txt GoogleOther-Video
GoogleOther
Exemplo de grupo do robots.txt user-agent: GoogleOther-Video allow: /archive/1Q84 disallow: /archive
Produtos afetados As preferências de rastreamento direcionadas ao user agent GoogleOther-Video
não afetam nenhum produto específico, assim como o GoogleOther. GoogleOther-Video é a versão do GoogleOther otimizada para buscar URLs de vídeos acessíveis publicamente. Google-CloudVertexBot
-
Substring do user agent em solicitações HTTP Google-CloudVertexBot
robots.txt Token do user agent no robots.txt Google-CloudVertexBot
Googlebot
Exemplo de grupo do robots.txt user-agent: Google-CloudVertexBot allow: /archive/1Q84 disallow: /archive/
Produtos afetados Preferências de rastreamento direcionadas ao user agent Google-CloudVertexBot
afetam os rastreamentos solicitados pelos proprietários do site para a criação de agentes da Vertex AI. Elas não afetam a Pesquisa Google nem outros produtos. Google-Extended
-
User agent em solicitações HTTP O Google-Extended não tem uma string do user agent de solicitação HTTP separada. O rastreamento é feito com strings dos user agent atuais do Google. O token do user agent do robots.txt é usado em uma capacidade de controle. robots.txt Token do user agent no robots.txt Google-Extended
Exemplo de grupo do robots.txt user-agent: Google-Extended allow: /archive/1Q84 disallow: /archive/
Produtos afetados O Google-Extended
é um token de produto independente que os publishers da Web podem usar para gerenciar se os sites deles ajudam a melhorar as APIs generativas dos apps do Gemini e da Vertex AI, incluindo as gerações futuras de modelos usados por esses produtos. O embasamento com a Pesquisa Google na Vertex AI não usa páginas da Web para embasamento que tenham desativado o Google-Extended. O Google-Extended não afeta a inclusão nem a classificação de um site na Pesquisa Google.
Uma observação sobre Chrome/W.X.Y.Z nos user agents
A string Chrome/W.X.Y.Z nas strings do user agent na lista é um marcador de posição
que representa a versão do navegador Chrome usada por esse user agent: por exemplo,
41.0.2272.96
. Esse número aumenta com o tempo para
corresponder à versão mais recente do Chromium usada pelo Googlebot.
Se você pesquisar seus registros ou filtrar seu servidor por user agent com esse padrão, use caracteres curingas para o número da versão em vez de especificar um número exato.