Visão geral dos rastreadores e coletores do Google (user agents)
O Google usa rastreadores e coletores para executar ações para os produtos, de forma automática ou mediante solicitação do usuário.
"Rastreador" (às vezes também chamado de "robô" ou "indexador") é um termo genérico para qualquer programa usado para descobrir e examinar sites automaticamente seguindo links entre páginas da Web. O principal rastreador do Google usado para a Pesquisa Google se chama Googlebot.
Coletores, como um navegador, são ferramentas que solicitam um único URL quando instruídas por um usuário.
As tabelas a seguir mostram os rastreadores e coletores do Google usados por vários produtos e serviços, como eles podem aparecer nos registros de referenciadores e como os especificar no robots.txt. As listas não são completas e abrangem apenas os solicitantes mais comuns que podem aparecer nos arquivos de registro.
-
O token do user agent é incluído na linha
User-agent:
do robots.txt ao criar regras de rastreamento do site para corresponder a um tipo de rastreador. Alguns rastreadores têm mais de um token, como indicado na tabela. Para que uma regra seja aplicada, basta que um token corresponda ao rastreador. Esta lista não está completa, mas inclui muitos dos rastreadores que podem acessar seu site. - A string completa do user agent é uma descrição completa do rastreador e aparece na solicitação HTTP e nos registros da Web.
Rastreadores comuns
Os rastreadores comuns do Google são usados para encontrar informações a fim de criar índices da Pesquisa do Google, realizar outros rastreamentos de produtos específicos e análise. Eles sempre obedecem às regras do robots.txt e geralmente rastreiam a partir dos intervalos de IP publicados no objeto googlebot.json.
Rastreadores comuns | |||||
---|---|---|---|---|---|
Googlebot para smartphones |
|
||||
Googlebot Desktop |
|
||||
Googlebot Image |
Usado para rastrear URLs de imagens para o Imagens do Google e produtos que dependem de imagens.
|
||||
Googlebot News |
O Googlebot News usa o Googlebot para rastrear notícias, mas respeita o
token histórico do user agent
|
||||
Googlebot Video |
Usado para rastrear URLs de vídeo para o Google e produtos que dependem de vídeos.
|
||||
Google StoreBot |
O Google StoreBot rastreia determinados tipos de página, por exemplo, páginas de detalhes do produto, do carrinho e de finalização da compra.
|
||||
Google-InspectionTool |
O Google-InspectionTool é o rastreador usado pelas ferramentas de teste da Pesquisa, como o teste de pesquisa aprimorada e a inspeção de URL no Search Console. Com exceção do user agent e do token do user agent, ele imita o Googlebot.
|
||||
GoogleOther |
O GoogleOther é o rastreador genérico que pode ser usado por várias equipes de produto para buscar conteúdo acessível publicamente nos sites. Ele pode ser usado em rastreamentos únicos para pesquisa interna e desenvolvimento, por exemplo.
|
||||
GoogleOther-Image |
GoogleOther-Image é a versão do GoogleOther otimizada para buscar URLs de imagens acessíveis publicamente.
|
||||
GoogleOther-Video |
GoogleOther-Video é a versão do GoogleOther otimizada para buscar URLs de vídeos acessíveis publicamente.
|
||||
Google-CloudVertexBot |
O Google-CloudVertexBot rastreia sites por solicitação dos proprietários ao criar agentes da Vertex AI.
|
||||
Google-Extended |
O
|
Rastreadores de casos especiais
Os rastreadores de casos especiais são usados por produtos específicos quando há um acordo entre o site rastreado e o produto sobre o processo de rastreamento. Por exemplo, AdsBot
ignora o user agent global (*
) do robots.txt com a permissão do editor de anúncios. Os rastreadores de casos especiais podem ignorar as regras do robots.txt. Por isso, eles operam em um intervalo de IP diferente dos rastreadores comuns. Os intervalos de IP são publicados no objeto special-crawlers.json.
Rastreadores de casos especiais | |||||
---|---|---|---|---|---|
APIs-Google |
Usado pelas APIs do Google para enviar mensagens de notificações push. Ignora o user agent global (
|
||||
AdsBot Mobile Web |
Verifica a
qualidade dos anúncios nas páginas da Web em dispositivos móveis.
Ignora o user agent global (
|
||||
AdsBot |
Confere a qualidade dos anúncios nas páginas da Web em computadores.
Ignora o user agent global (
|
||||
AdSense |
O rastreador do Google AdSense acessa seu site para identificar seu conteúdo com a finalidade de fornecer anúncios relevantes. Ignora o user agent global (
|
||||
Mobile AdSense |
O rastreador Mobile AdSense visita seu site para determinar seu conteúdo a fim de fornecer anúncios relevantes. Ignora o user agent global (
|
||||
Google-Safety |
O user agent do Google-Safety processa o rastreamento específico de abuso, como a descoberta de malware em links postados publicamente nos Serviços do Google. Esse user agent ignora as regras do robots.txt.
|
Coletores acionados pelo usuário
Esses coletores são iniciados pelos usuários para executar uma função de busca específica do produto. Por exemplo, o Verificador de sites do Google atua de acordo com a solicitação de um usuário, ou um site hospedado no Google Cloud (GCP) tem um recurso que permite que os usuários do site recuperem um feed RSS externo. Como a busca foi solicitada por um usuário, esses coletores geralmente ignoram as regras do robots.txt. Os intervalos de IP que os coletores acionados pelo usuário usam são publicados nos objetos user-triggered-fetchers.json e user-triggered-fetchers-google.json .
Coletores acionados pelo usuário | |||||
---|---|---|---|---|---|
Feedfetcher |
O Feedfetcher é usado para rastrear feeds RSS ou Atom para o Google Podcasts, o Google Notícias e o PubSubHubbub.
|
||||
Central do Editor do Google |
Busca e processa os feeds que os editores forneceram explicitamente pela Central do Editor do Google para serem usados nas páginas de destino do Google Notícias.
|
||||
Google Read Aloud |
Mediante solicitação do usuário, o Google Read Aloud busca e lê páginas da Web usando a conversão de texto em voz (TTS).
|
||||
Verificador de sites do Google |
O Verificador de sites do Google faz buscas quando os usuários solicitam tokens de verificação do Search Console.
|
Uma observação sobre Chrome/W.X.Y.Z nos user agents
Quando a string Chrome/W.X.Y.Z for exibida nas strings do user agent na tabela, W.X.Y.Z serve como um marcador de posição que representa a versão do navegador Chrome usada por ele, como 41.0.2272.96
. O número
da versão aumentará com o tempo para
corresponder à versão mais recente do Chromium usada pelo Googlebot.
Se você pesquisar seus registros ou filtrar seu servidor por user agent com esse padrão, use caracteres curingas para o número da versão em vez de especificar um número exato.
User agents no robots.txt
Nos casos em que diversos user agents são reconhecidos no arquivo robots.txt, o Google seguirá o mais
específico. Se você quer que o Google seja capaz de rastrear suas páginas, não será necessário um
arquivo robots.txt. Se você quer bloquear ou permitir que todos os rastreadores do Google acessem
seu conteúdo, será possível fazer isso especificando o Googlebot como user agent. Por exemplo,
se você quiser que todas as suas páginas apareçam na Pesquisa Google e que os anúncios do Google AdSense apareçam
nelas, um arquivo robots.txt não será necessário. De modo semelhante, se você quiser bloquear algumas páginas
do Google de uma só vez, o bloqueio do user agent Googlebot
também bloqueará todos
os outros user agents do Google.
É possível ter um controle maior com ações mais específicas. Por exemplo, talvez você
queira que todas as suas páginas apareçam na Pesquisa Google, mas que as imagens em seu diretório
pessoal não sejam rastreadas. Nesse caso, use o robots.txt para proibir que o
user agent Googlebot-Image
rastreie os arquivos no seu diretório pessoal
(enquanto permite que o Googlebot rastreie todos os arquivos) desta maneira:
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personal
Para usar outro exemplo, digamos que você queira anúncios em todas as suas páginas, mas que essas
páginas não apareçam na Pesquisa Google. Aqui você bloquearia o Googlebot, mas permitiria o
user agent Mediapartners-Google
, desta maneira:
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
Como controlar a velocidade de rastreamento
Cada rastreador do Google acessa sites para uma finalidade específica e em frequências diferentes. O Google usa algoritmos para determinar a taxa de rastreamento ideal para cada site. Se um rastreador do Google rastrear seu site com muita frequência, você poderá reduzir a taxa de rastreamento.
Rastreadores do Google desativados
Os rastreadores do Google a seguir não estão mais em uso e são mencionados apenas para referência histórica.
Rastreadores do Google desativados | |||||
---|---|---|---|---|---|
Duplex na Web |
Era compatível com o serviço Duplex na Web.
|
||||
Web Light |
Conferia a presença do cabeçalho
|
||||
AdsBot Mobile Web |
Confere a qualidade dos anúncios nas páginas da Web em iPhones.
Ignora o user agent global (
|
||||
Mobile Apps Android |
Confere a qualidade dos anúncios nas páginas dos apps Android.
Obedece às regras de robôs
|
||||
Google Favicon |
|