Googlebot
Googlebot é o nome genérico de dois tipos de rastreadores da web usados pela Pesquisa Google:
- Googlebot Smartphone: um rastreador para dispositivos móveis que simula um usuário em um dispositivo móvel.
- Googlebot Desktop: um rastreador para computadores que simula um usuário no computador.
Você pode identificar o subtipo do Googlebot observando o
cabeçalho da solicitação do HTTP user-agent
na solicitação. No entanto, os dois tipos de rastreador obedecem ao mesmo token de produto (token do user agent)
no robots.txt. Por isso, não é possível segmentar seletivamente o Googlebot Smartphone nem o Googlebot
Desktop usando o robots.txt.
Na maioria dos sites, a Pesquisa Google indexa principalmente a versão para dispositivos móveis do conteúdo. Dessa forma, a maioria das solicitações de rastreamento do Googlebot será feita usando o rastreador para esse tipo de dispositivo e uma minoria com o rastreador para computadores.
Como o Googlebot acessa seu site
Para a maioria dos sites, o acesso do Googlebot não deve ocorrer, em média, mais de uma vez no intervalo de poucos segundos. No entanto, devido a atrasos, é possível que a taxa pareça ser um pouco mais elevada em intervalos curtos. Caso seu site esteja com problemas ao acompanhar as solicitações de rastreamento do Google, reduza a taxa de rastreamento.
Ao rastrear para a Pesquisa Google, o Googlebot rastreia os primeiros 2 MB de um
tipo de arquivo compatível e
os primeiros 64 MB de um arquivo PDF. Do ponto de vista da renderização, cada recurso referenciado no HTML
(como CSS e JavaScript) é buscado separadamente, e cada busca de recurso é restrita ao mesmo
limite de tamanho de arquivo que se aplica a outros arquivos (exceto PDFs).
Quando o limite é atingido, o Googlebot interrompe a busca e envia apenas a parte já baixada
do arquivo para fins de indexação. O limite de tamanho do arquivo
é aplicado considerando os dados descompactados.
Outros rastreadores do Google como o Googlebot Video e o Googlebot Image podem ter
limites diferentes.
Ao rastrear endereços IP nos EUA, o fuso horário do Googlebot é o Horário do Pacífico.
Outras propriedades técnicas do Googlebot estão descritas na visão geral dos rastreadores do Google.
Como impedir o acesso do Googlebot ao seu site
O Googlebot descobre novos URLs para rastrear principalmente por links incorporados em páginas rastreadas anteriormente. É quase impossível manter um site em segredo não publicando links para ele. Quando alguém clica em um link do seu site "secreto" para outro site, o URL "secreto" pode aparecer na tag de referência, ser armazenado e publicado pelo outro site no seu registro de referência.
Caso você queira impedir que o Googlebot rastreie conteúdo no seu site, temos várias opções. É importante lembrar que há uma diferença entre rastreamento e indexação. Impedir que o Googlebot faça o rastreamento de uma página não impede que o URL dela apareça nos resultados da pesquisa:
- Quer impedir que o Googlebot rastreie uma página? Use um arquivo robots.txt.
-
Não quer que o Google indexe uma página? Use
noindex. - Quer impedir que uma página seja acessada tanto por rastreadores quanto por usuários? Use outro método, como a proteção por senha.
O bloqueio do Googlebot afeta a Pesquisa Google (incluindo o Discover e todos os recursos da Pesquisa Google), bem como outros produtos, como Imagens do Google, Google Video e Google Notícias.
Verificação do Googlebot
Antes de decidir bloquear o Googlebot, esteja ciente de que o cabeçalho da solicitação HTTP user-agent
usado pelo Googlebot muitas vezes é falsificado por outros rastreadores. É importante confirmar
se uma solicitação com problemas tem origem no Google. A melhor maneira de verificar se a solicitação realmente
vem do Googlebot é
usar uma busca DNS reversa
no IP de origem da solicitação ou comparar o IP de origem com os
intervalos de IP do Googlebot.