Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Visão geral dos rastreadores do Google (user agents)
"Rastreador" (às vezes também chamado de "robô" ou "indexador") é um termo genérico para qualquer programa
usado para descobrir e examinar sites automaticamente seguindo links entre páginas da
Web. O principal rastreador do Google se chama
Googlebot. Esta tabela tem informações
sobre os rastreadores mais comuns do Google que podem aparecer nos registros de referenciadores e mostra como eles podem ser especificados no
robots.txt, nas
tags robotsmeta e em
regras HTTP X-Robots-Tag.
A tabela a seguir mostra os rastreadores usados por vários produtos e serviços do Google:
O token do user agent é incluído na linha User-agent: do robots.txt
ao criar regras de rastreamento do site para corresponder a um tipo de rastreador. Alguns rastreadores têm mais de
um token, como indicado na tabela. Para que uma regra seja aplicada, basta que um token corresponda
ao rastreador. Esta lista não está completa, mas inclui muitos dos rastreadores que podem acessar seu
site.
A string completa do user agent é uma descrição completa do rastreador e aparece
na solicitação HTTP e nos registros da Web.
Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
Uma observação sobre Chrome/W.X.Y.Z nos user agents:
Quando a string Chrome/W.X.Y.Z for exibida nas strings do user agent na tabela, W.X.Y.Z serve como um marcador de posição que representa a versão do navegador Chrome usada por ele, como 41.0.2272.96. O número
da versão aumentará com o tempo para
corresponder à versão mais recente do Chromium usada pelo Googlebot.
Se você pesquisar seus registros ou filtrar seu servidor por user agent com esse padrão,
use caracteres curingas para o número da versão em vez de especificar um número
exato.
User agents no robots.txt
Nos casos em que diversos user agents são reconhecidos no arquivo robots.txt, o Google seguirá o mais
específico. Se você quer que o Google seja capaz de rastrear suas páginas, não será necessário um
arquivo robots.txt. Se você quer bloquear ou permitir que todos os rastreadores do Google acessem
seu conteúdo, será possível fazer isso especificando o Googlebot como user agent. Por exemplo,
se você quiser que todas as suas páginas apareçam na Pesquisa Google e que os anúncios do Google AdSense apareçam
nelas, um arquivo robots.txt não será necessário. De modo semelhante, se você quiser bloquear algumas páginas
do Google de uma só vez, o bloqueio do user agent Googlebot também bloqueará todos
os outros user agents do Google.
É possível ter um controle maior com ações mais específicas. Por exemplo, talvez você
queira que todas as suas páginas apareçam na Pesquisa Google, mas que as imagens em seu diretório
pessoal não sejam rastreadas. Nesse caso, use o robots.txt para proibir que o
user agent Googlebot-Image rastreie os arquivos no seu diretório pessoal
(enquanto permite que o Googlebot rastreie todos os arquivos) desta maneira:
Para usar outro exemplo, digamos que você queira anúncios em todas as suas páginas, mas que essas
páginas não apareçam na Pesquisa Google. Aqui você bloquearia o Googlebot, mas permitiria o
user agent Mediapartners-Google, desta maneira:
Cada rastreador do Google acessa sites para uma finalidade específica e em frequências diferentes. O Google usa algoritmos para determinar a taxa de rastreamento ideal para cada site. Se um rastreador do Google rastreia seu site com muita frequência, você pode reduzir a taxa de rastreamento.
Rastreadores do Google desativados
Os rastreadores do Google a seguir não estão mais em uso e são mencionados apenas para referência histórica.
Rastreadores do Google desativados
Duplex na Web
Era compatível com o serviço Duplex na Web.
Token do user agent
DuplexWeb-Google
String completa do user agent
Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36
Web Light
Conferia a presença do cabeçalho no-transform sempre que um usuário clicava
na página na Pesquisa sob as condições apropriadas. O user agent do Web Light era usado somente para solicitações explícitas de navegação de visitantes humanos. Portanto, ele ignorava as regras do robots.txt, que são usadas para bloquear solicitações de rastreamento automatizadas.
Token do user agent
googleweblight
String completa do user agent
Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19