Visão geral dos rastreadores e coletores do Google (user agents)

O Google usa rastreadores e coletores para executar ações para os produtos, de forma automática ou mediante solicitação do usuário. "Rastreador" (às vezes também chamado de "robô" ou "indexador") é um termo genérico para qualquer programa usado a fim de descobrir e examinar sites automaticamente. Os coletores atuam como um programa, como o wget, que normalmente faz uma única solicitação em nome de um usuário. Os clientes do Google se enquadram em três categorias:

Rastreadores comuns	Os rastreadores comuns usados para produtos do Google, como o Googlebot. Eles sempre respeitam as regras do robots.txt para rastreamentos automáticos.
Rastreadores de casos especiais	Os rastreadores de casos especiais são semelhantes aos rastreadores comuns, mas são usados por produtos específicos quando há um acordo entre o site rastreado e o produto do Google sobre o processo de rastreamento. Por exemplo, `AdsBot` ignora o user agent global (`*`) do robots.txt com a permissão do publisher de anúncios.
Coletores acionados pelo usuário	Os coletores acionados pelo usuário fazem parte de ferramentas e funções do produto em que o usuário final aciona uma busca. Por exemplo, o Verificador de sites do Google age conforme a solicitação do usuário.

Propriedades técnicas dos rastreadores e coletores do Google

Os rastreadores e coletores do Google foram desenvolvidos para funcionar simultaneamente em milhares de máquinas a fim de melhorar o desempenho e a escala de acordo com o crescimento da Web. Para otimizar o uso da largura de banda, esses clientes são distribuídos em vários data centers no mundo todo, de modo que fiquem localizados perto dos sites que podem acessar. Por isso, seus registros podem mostrar visitas de vários endereços IP. O Google faz a saída principalmente de endereços IP nos Estados Unidos. Caso o Googlebot detecte que um site está bloqueando solicitações dos Estados Unidos, ele poderá tentar rastrear endereços IP localizados em outros países.

Protocolos de transferência com suporte

Os rastreadores e coletores do Google oferecem suporte a HTTP/1.1 e HTTP/2. Os rastreadores vão usar a versão do protocolo que oferece a melhor performance de rastreamento e podem mudar de protocolo entre sessões, dependendo das estatísticas anteriores. A versão padrão do protocolo usada pelos rastreadores do Google é HTTP/1.1. O rastreamento por HTTP/2 pode economizar recursos de computação (por exemplo, CPU e RAM) do seu site e do Googlebot. No entanto, não há benefícios específicos do produto do Google para o site (por exemplo, não há aumento de classificação na Pesquisa Google). Para desativar o rastreamento por HTTP/2, instrua o servidor que hospeda o site para responder com um código de status HTTP 421 quando o Google tentar fazer o rastreamento dessa maneira. Se isso não for viável, envie uma mensagem para a equipe de rastreamento. No entanto, essa solução é temporária.

A infraestrutura do rastreador do Google também oferece suporte ao rastreamento por FTP (conforme definido pela RFC959 e suas atualizações) e FTPS (conforme definido pela RFC4217 e suas atualizações). No entanto, o rastreamento por esses protocolos é raro.

Codificações de conteúdo compatível

Os rastreadores e os coletores do Google oferecem suporte às seguintes codificações de conteúdo (compactações): gzip, deflate e Brotli (br). As codificações de conteúdo aceitas por cada user agent do Google são anunciadas no cabeçalho Accept-Encoding de cada solicitação feita. Por exemplo, Accept-Encoding: gzip, deflate, br.

Taxa de rastreamento e carga do host

Nosso objetivo é rastrear o maior número possível de páginas no seu site a cada visita, sem sobrecarregar o servidor. Caso seu site esteja com problemas ao acompanhar as solicitações de rastreamento do Google, reduza a taxa de rastreamento. Enviar o código de resposta HTTP inadequado para os rastreadores do Google pode afetar a aparência do seu site nos produtos do Google.

Cache HTTP

A infraestrutura de rastreamento do Google oferece suporte ao armazenamento em cache HTTP heurístico conforme definido pelo padrão de armazenamento em cache HTTP, especificamente pelo cabeçalho de solicitação ETag e If-None-Match e pelo cabeçalho de solicitação Last-Modified e If-Modified-Since.

Observação: considere definir os valores Etag e Last-Modified, seja qual for a preferência dos rastreadores do Google. Esses cabeçalhos também são usados por outros aplicativos, como CMSs.

Se os campos de cabeçalho de resposta ETag e Last-Modified estiverem presentes na resposta HTTP, os rastreadores do Google vão usar o valor ETag como solicitado pelo padrão HTTP. Para os rastreadores do Google, recomendamos usar ETag em vez de Last-Modified para indicar a preferência de armazenamento em cache, já que ETag não tem problemas de formatação de data.

Outras diretivas de armazenamento em cache HTTP não são compatíveis.

Os rastreadores e coletores individuais do Google podem ou não usar o armazenamento em cache, dependendo das necessidades do produto a que estão associados. Por exemplo, Googlebot aceita o armazenamento em cache ao rastrear novamente URLs para a Pesquisa Google, e Storebot-Google só aceita esse armazenamento em determinadas condições.

Para implementar o armazenamento em cache HTTP no seu site, entre em contato com o provedor de hospedagem ou do sistema de gerenciamento de conteúdo.

`ETag` e `If-None-Match`

A infraestrutura de rastreamento do Google oferece suporte a ETag e If-None-Match conforme definido pelo padrão de armazenamento em cache HTTP. Saiba mais sobre o cabeçalho de resposta ETag e a contraparte do cabeçalho da solicitação, If-None-Match.

Last-Modified e If-Modified-Since

A infraestrutura de rastreamento do Google oferece suporte a Last-Modified e If-Modified-Since conforme definido pelo padrão de armazenamento em cache HTTP com as seguintes ressalvas:

A data no cabeçalho Last-Modified precisa ser formatada de acordo com o padrão HTTP. Para evitar problemas de análise, recomendamos usar o seguinte formato de data: "Dia da semana, fuso horário DD Mon YYYY HH:MM:SS". Por exemplo, "Fri, 4 Sep 1998 19:15:56 GMT".
Embora não seja obrigatório, considere também definir o campo max-age do cabeçalho de resposta Cache-Control para ajudar os rastreadores a determinar quando rastrear novamente o URL específico. Defina o valor do campo max-age como o número esperado de segundos em que o conteúdo vai permanecer sem mudanças. Por exemplo, Cache-Control: max-age=94043.

Saiba mais sobre o cabeçalho de resposta Last-Modified e a contraparte do cabeçalho da solicitação, If-Modified-Since.

Verificação dos rastreadores e coletores do Google

Os rastreadores do Google se identificam de três maneiras:

O cabeçalho da solicitação HTTP user-agent.
O endereço IP de origem da solicitação.
O nome do host DNS reverso do IP de origem.

Saiba como usar esses detalhes para verificar os rastreadores e coletores do Google.

Visão geral dos rastreadores e coletores do Google (user agents)

Propriedades técnicas dos rastreadores e coletores do Google

Protocolos de transferência com suporte

Codificações de conteúdo compatível

Taxa de rastreamento e carga do host

Cache HTTP

ETag e If-None-Match

Last-Modified e If-Modified-Since

Verificação dos rastreadores e coletores do Google

`ETag` e `If-None-Match`