Visão geral dos rastreadores e coletores do Google (user agents)

O Google usa rastreadores e coletores para executar ações para os produtos, de forma automática ou mediante solicitação do usuário. "Rastreador" (às vezes também chamado de "robô" ou "indexador") é um termo genérico para qualquer programa usado para descobrir e examinar sites automaticamente seguindo links entre páginas da Web. Os coletores atuam como um programa como o wget, que geralmente faz uma única solicitação em nome de um usuário. Os clientes do Google se enquadram em três categorias:

Rastreadores comuns Os rastreadores comuns usados para os produtos do Google, como o Googlebot. Eles sempre respeitam as regras do robots.txt para rastreamentos automáticos.
Rastreadores de casos especiais Os rastreadores de casos especiais são semelhantes aos rastreadores comuns, mas são usados por produtos específicos quando há um acordo entre o site rastreado e o produto do Google sobre o processo de rastreamento. Por exemplo, AdsBot ignora o user agent global (*) do robots.txt com a permissão do publisher de anúncios.
Coletores acionados pelo usuário Os coletores acionados pelo usuário fazem parte de ferramentas e funções do produto em que o usuário final aciona uma busca. Por exemplo, o Verificador de sites do Google age conforme a solicitação do usuário.

Propriedades técnicas dos rastreadores e coletores do Google

Os rastreadores e coletores do Google foram desenvolvidos para funcionar simultaneamente em milhares de máquinas a fim de melhorar o desempenho e a escala de acordo com o crescimento da Web. Para otimizar o uso da largura de banda, esses clientes são distribuídos em vários data centers em todo o mundo para que fiquem localizados perto dos sites que podem acessar. Por isso, seus registros talvez mostrem visitas de vários endereços IP. As saídas do Google são principalmente de endereços IP nos Estados Unidos. Caso o Googlebot detecte que um site está bloqueando solicitações dos Estados Unidos, ele poderá tentar rastrear endereços IP localizados em outros países.

Os rastreadores e coletores do Google usam HTTP/1.1 e, se compatível com o site, HTTP/2. O rastreamento por HTTP/2 pode economizar recursos de computação (por exemplo, CPU e RAM) do seu site e do Googlebot. No entanto, não há benefícios específicos do produto para o site (por exemplo, não há aumento de classificação na Pesquisa Google). Para desativar o rastreamento por HTTP/2, instrua o servidor que hospeda o site para responder com um código de status HTTP 421 quando o Google tentar fazer o rastreamento dessa maneira. Se isso não for viável, envie uma mensagem para a equipe de rastreamento. No entanto, essa solução é temporária.

Os rastreadores e os coletores do Google oferecem suporte às seguintes codificações de conteúdo (compactações): gzip, deflate e Brotli (br). As codificações de conteúdo aceitas por cada user agent do Google são anunciadas no cabeçalho Accept-Encoding de cada solicitação feita. Por exemplo, Accept-Encoding: gzip, deflate, br.

Nosso objetivo é rastrear o maior número possível de páginas no seu site a cada visita, sem sobrecarregar o servidor. Caso seu site esteja com problemas ao acompanhar as solicitações de rastreamento do Google, reduza a taxa de rastreamento. Enviar o código de resposta HTTP inadequado para os rastreadores do Google pode afetar a aparência do seu site nos produtos do Google.

Verificação dos rastreadores e coletores do Google

Os rastreadores do Google se identificam de três maneiras:

  1. O cabeçalho da solicitação HTTP user-agent.
  2. O endereço IP de origem da solicitação.
  3. O nome do host DNS reverso do IP de origem.

Saiba como usar esses detalhes para verificar os rastreadores e coletores do Google.