Como os códigos de status HTTP afetam os rastreadores do Google

Esta página descreve como diferentes códigos de status HTTP afetam a capacidade do Google de rastrear seu conteúdo da web. Analisamos os 20 principais códigos de status que o Google encontra na web. Outros códigos mais incomuns, como 418 (I'm a teapot), não foram analisados.

Códigos de status HTTP

Os códigos de status HTTP são gerados pelo servidor que hospeda o site quando ele responde a uma solicitação feita por um cliente, como um navegador ou um rastreador. Cada código de status HTTP tem um significado diferente, mas o resultado da solicitação costuma ser o mesmo. Por exemplo, há vários códigos de status que sinalizam redirecionamentos, no entanto, eles têm resultados iguais.

O Search Console gera mensagens de erro para códigos de status no intervalo 4xx—5xx e para redirecionamentos (3xx). Caso o servidor tenha respondido com um código de status 2xx, o conteúdo na resposta pode ser considerado para indexação.

A tabela a seguir mostra os códigos de status HTTP mais encontrados pelo Google e uma explicação sobre como o Google lida com cada código de status.

Códigos de status HTTP

2xx (success)

O Google considera o conteúdo para processamento (por exemplo, no caso da Pesquisa Google, para indexação). Se o conteúdo sugerir algo errado na Pesquisa Google, como uma página vazia ou uma mensagem indicando problemas, o Search Console vai mostrar um erro soft 404.

200 (success)

O Google transmite o que recebeu para a próxima etapa de processamento, que é específica do produto. Para a Pesquisa Google, o próximo sistema é o pipeline de indexação. Os sistemas podem indexar o conteúdo, mas não há garantia disso.

201 (created)
202 (accepted)

O Google aguarda o conteúdo por um tempo limitado e passa o que recebeu para a próxima etapa de processamento, que é específica do produto. O tempo limite depende do user agent. Por exemplo, o Googlebot Smartphone pode ter um tempo limite diferente do Googlebot Image.

204 (no content)

O Google não conseguiu receber nenhum conteúdo e, portanto, não pode processá-lo.

3xx (redirection)

Por padrão, os rastreadores do Google seguem até 10 saltos de redirecionamento. No entanto, os rastreadores de produtos específicos podem ter limites diferentes. Por exemplo, o Googlebot geralmente segue 10 saltos de redirecionamento ao rastrear conteúdo geral da web, mas as ferramentas de inspeção do Google não seguem redirecionamentos.

O que é recebido pelo Google referente ao URL de redirecionamento é ignorado, e o conteúdo do URL de destino final é processado. Para arquivos robots.txt, saiba como o Google processa um robots.txt que retorna um código de status 3xx.

301 (moved permanently)

O Google segue o redirecionamento, e os sistemas do Google o usam como um indicador forte de que o destino precisa ser processado.

302 (found)

Por padrão, os rastreadores do Google seguem o redirecionamento, e os sistemas do Google o usam como um indicador fraco de que o destino deve ser processado. Outros produtos podem processar o redirecionamento de forma diferente.

303 (see other)
304 (not modified)

Os rastreadores do Google sinalizam ao próximo sistema de processamento que o conteúdo é o mesmo da última vez. No caso da Pesquisa Google, o pipeline de indexação pode recalcular os indicadores para o URL, mas o código de status não afetará a indexação.

307 (temporary redirect) É equivalente a 302.
308 (moved permanently) É equivalente a 301.

4xx (client errors)

O Google não usa o conteúdo de URLs que retornam códigos de status 4xx. Se um URL foi usado anteriormente, mas agora está retornando o código de status 4xx, os sistemas do Google vão parar de usá-lo com o tempo. No caso da Pesquisa Google, o Google não indexa URLs que retornam um código de status 4xx, e os URLs que já estão indexados e retornam um código de status 4xx são removidos do índice.

O conteúdo que o Google recebe de URLs que retornam um código de status 4xx é ignorado.

400 (bad request)

Todos os erros 4xx, exceto 429, são tratados da mesma forma: os rastreadores do Google informam ao próximo sistema de processamento que o conteúdo não existe.

No caso da Pesquisa Google, o pipeline de indexação remove o URL do índice se ele tiver sido indexado antes. Páginas 404 recém-encontradas não são processadas. A frequência de rastreamento diminui gradualmente.

401 (unauthorized)
403 (forbidden)
404 (not found)
410 (gone)
411 (length required)
429 (too many requests)

Os rastreadores do Google tratam o código de status 429 como um indicador de sobrecarga, e ele é considerado um erro de servidor.

5xx (server errors)

Os erros de servidor 5xx e 429 solicitam aos rastreadores do Google que desacelerem temporariamente o rastreamento. Para a Pesquisa Google, os URLs já indexados são preservados no índice, mas depois são descartados.

O conteúdo que o Google recebe de URLs que retornam um código de status 5xx é ignorado. Para arquivos robots.txt, saiba como o Google processa um robots.txt que retorna um código de status 5xx.

Quando o servidor começa a responder com um código de status 2xx, o Google aumenta gradualmente a taxa de rastreamento do site.

500 (internal server error)

O Google diminui a taxa de rastreamento do site. Essa redução é proporcional ao número de URLs individuais que estão retornando um erro de servidor. Para a Pesquisa Google, o pipeline de indexação do Google remove do índice os URLs que retornam um erro de servidor de forma consistente.

502 (bad gateway)
503 (service unavailable)