Resolver erros de rastreamento da Pesquisa Google
Estas são as principais etapas para resolver e corrigir problemas de rastreamento da Pesquisa Google no seu site:
- Ver se o Googlebot está encontrando problemas de disponibilidade no site.
- Conferir se você tem páginas que não estão sendo rastreadas, mas deveriam ser.
- Conferir se alguma parte do site precisa ser rastreada mais rapidamente.
- Melhorar a eficiência do rastreamento do site.
- Controlar o rastreamento excessivo do site.
Ver se o Googlebot está encontrando problemas de disponibilidade no site
Melhorar a disponibilidade do site não aumentará a cota de rastreamento necessariamente. O Google determina a melhor taxa de rastreamento com base na demanda, conforme já foi descrito. No entanto, os problemas de disponibilidade impedem que o Google rastreie seu site o quanto quiser.
Diagnóstico:
Use o relatório de estatísticas de rastreamento para acessar o histórico de rastreamento do Googlebot no site. O relatório mostra quando o Google encontrou problemas de disponibilidade nele. Se erros ou avisos de disponibilidade forem relatados para o site, procure instâncias nos gráficos de disponibilidade do host em que as solicitações do Googlebot excedem a linha de limite vermelha, clique no gráfico para saber quais URLs falharam e tente correlacioná-los com os problemas do site.
Além disso, você também pode usar a Ferramenta de inspeção de URL para testar alguns URLs no seu site. Se a ferramenta retornar avisos do tipo A carga do host foi excedida, isso significa que o Googlebot não pode rastrear todos os URLs do seu site que foram descobertos.
Tratamento:
- Leia a documentação do relatório de estatísticas de rastreamento para saber como detectar alguns problemas de disponibilidade e lidar com eles.
- Bloqueie o rastreamento de páginas se não quiser que elas sejam rastreadas. Saiba como gerenciar seu inventário.
- Aumente a velocidade do carregamento e da renderização das páginas. Consulte como melhorar a eficiência de rastreamento do site.
- Aumente a capacidade do servidor. Se o Google parece sempre rastrear o site até o limite de capacidade dos servidores, mas você ainda tem URLs importantes que não estão sendo rastreados ou atualizados como necessário, aumentar os recursos de servidor pode permitir que o Google solicite mais páginas. Confira o histórico de disponibilidade do host no relatório de estatísticas de rastreamento para saber se a taxa de rastreamento do Google costuma ultrapassar o limite. Se for o caso, aumente os recursos de servidor por um mês e confira se o número de solicitações de rastreamento aumenta durante esse período.
Ver se alguma parte do site não está sendo rastreada, mas deveria ser
O Google passa o tempo necessário no site para indexar todo o conteúdo relevante e de alta qualidade que encontrar. Se você acha que o Googlebot está deixando conteúdos importantes de fora, pode ser que esse material não tenha sido detectado ou esteja bloqueado, ou ainda que a disponibilidade do site esteja limitando o acesso do Google ou fazendo com que ele evite sobrecarregar o servidor.
Diagnóstico:
O Search Console não fornece um histórico de rastreamento do site que pode ser filtrado por URL ou caminho, mas é possível inspecionar os registros do site para saber se URLs específicos foram rastreados pelo Googlebot. Se os URLs rastreados foram ou não indexados é outra história.
Lembre-se de que, para a maioria dos sites, leva vários dias até que as páginas novas sejam detectadas. Em geral, não se deve esperar que os URLs sejam rastreados no mesmo dia, exceto em sites com conteúdo temporário, como os de notícias.
Tratamento:
Se você está adicionando páginas ao site, e elas não estão sendo rastreadas em um prazo razoável, há alguns motivos possíveis para isso: o Google não tem conhecimento sobre elas, o conteúdo está bloqueado, o site atingiu a capacidade máxima de exibição ou a cota de rastreamento acabou.
- Informe o Google sobre as novas páginas: atualize os sitemaps para refletir os novos URLs.
- Examine as regras robots.txt para confirmar que você não está bloqueando páginas acidentalmente.
- Revise as prioridades de rastreamento, ou seja, use a cota de rastreamento com sabedoria. Gerencie seu inventário e melhore a eficiência de rastreamento do site.
- Verifique se a capacidade dos servidores está no limite. O Googlebot reduzirá o rastreamento se detectar que seus servidores estão tendo problemas para responder às solicitações.
As páginas podem não ser exibidas nos resultados da pesquisa caso não haja valor suficiente ou demanda do usuário para o conteúdo.
Conferir se as atualizações são rastreadas com rapidez suficiente
Se não estamos rastreando páginas novas ou atualizadas no site, talvez elas não tenham sido detectadas. Saiba como você pode nos ajudar com as atualizações de página.
O Google se esforça para verificar e indexar as páginas em tempo hábil. Na maioria dos sites, são necessários três dias ou mais. Não espere que o Google indexe páginas no mesmo dia em que forem publicadas, a menos que você tenha um site de notícias ou outro conteúdo temporário e de alto valor.
Diagnóstico:
Examine os registros do site para ver quando URLs específicos foram rastreados pelo Googlebot.
Para saber qual é a data de indexação, use a Ferramenta de Inspeção de URL ou faça uma pesquisa para encontrar os URLs que você atualizou.
Tratamento:
O que fazer:
- Use um sitemap do Google Notícias se o site tiver esse tipo de conteúdo.
- Use a tag
<lastmod>nos sitemaps para indicar quando um URL indexado foi atualizado. - Use uma estrutura de URL rastreável para ajudar o Google a encontrar suas páginas.
- Forneça links
<a>padrão rastreáveis para ajudar o Google a encontrar suas páginas. - Se o site usa HTMLs separados em versões para dispositivos móveis e computadores, use o mesmo conjunto de links na versão para dispositivos móveis que você tem na versão para computador. Se não for possível usar o mesmo conjunto de links na versão para dispositivos móveis, inclua em um arquivo de sitemap. O Google só indexa a versão para dispositivos móveis das páginas, e limitar os links mostrados ali pode diminuir a velocidade de descoberta de novas páginas.
O que evitar:
- Enviar o mesmo sitemap inalterado várias vezes por dia.
- Esperar que o Googlebot rastreie tudo que está no sitemap ou que o rastreamento seja imediato: os sitemaps são sugestões úteis, não requisitos absolutos.
- Incluir URLs nos sitemaps que você não quer que apareçam na Pesquisa. Isso pode desperdiçar sua cota de rastreamento em páginas que você não quer que sejam indexadas.
Melhorar a eficiência do rastreamento do site
Aumentar a velocidade de carregamento da página
O rastreamento do Google é limitado pela largura de banda, tempo e disponibilidade das instâncias do Googlebot. Se o servidor responder a solicitações mais rapidamente, poderemos rastrear mais páginas no site. Dito isso, o Google só rastreia conteúdo de alta qualidade. Portanto, deixar páginas de baixa qualidade mais rápidas não incentiva o Googlebot a rastrear mais do site. Por outro lado, se acharmos que estamos perdendo conteúdo de alta qualidade no site, provavelmente aumentaremos sua cota para rastrear esse conteúdo.
Veja como otimizar páginas e recursos para rastreamento:
- Impeça que recursos grandes, mas sem importância, sejam carregados pelo Googlebot usando robots.txt. Bloqueie apenas recursos não críticos, ou seja, recursos que não são importantes para entender o significado da página (como imagens decorativas).
- Verifique se o carregamento das suas páginas é rápido.
- Cuidado com longas cadeias de redirecionamento, que têm um efeito negativo sobre o rastreamento.
- Tanto o tempo para responder às solicitações do servidor quanto o tempo necessário para renderizar páginas são importantes, incluindo o tempo de carregamento e execução de recursos incorporados, como imagens e scripts. Esteja ciente de recursos grandes ou lentos necessários para a indexação.
Especificar mudanças no conteúdo com códigos de status HTTP
Em geral, o Google é compatível com os
cabeçalhos da solicitação HTTP If-Modified-Since e If-None-Match
para rastreamento. Os rastreadores do Google não enviam os cabeçalhos com todas as tentativas de rastreamento. Isso depende do
caso de uso da solicitação. Por exemplo, o
AdsBot tem
mais probabilidade de definir os cabeçalhos de solicitação HTTP If-Modified-Since e If-None-Match. Se nossos rastreadores enviarem o cabeçalho If-Modified-Since, o valor
dele vai ser a data e hora
em que o conteúdo foi rastreado pela última vez. Com base nesse valor, o servidor pode optar por retornar um
código de status HTTP 304 (Not Modified) sem corpo de resposta. Nesse caso, o Google
vai reutilizar a versão de conteúdo que ele rastreou na última vez. Se o conteúdo for mais recente que a data
especificada pelo rastreador no cabeçalho If-Modified-Since, o servidor vai poder retornar um
código de status HTTP 200 (OK) com o corpo da resposta.
Independentemente dos cabeçalhos de solicitação, é possível enviar um código
de status HTTP 304 (Not Modified) e nenhum corpo de resposta para qualquer solicitação do Googlebot se o conteúdo não tiver sido alterado desde
a última visita ao URL. Isso economiza o tempo e recursos de processamento do servidor,
o que pode melhorar indiretamente a eficiência do rastreamento.
Ocultar os URLs que você não quer incluir nos resultados da pesquisa
O desperdício de recursos de servidor em páginas desnecessárias pode reduzir a atividade de rastreamento naquelas que são importantes para você. Isso causa um atraso significativo na descoberta de conteúdos novos ou atualizados em um site.
A exposição de muitos URLs do site que não devem ser rastreados pela Pesquisa pode afetar negativamente o rastreamento e a indexação dele. Normalmente, esses URLs se enquadram nas seguintes categorias:
- Navegação facetada e identificadores de sessão (links em inglês): a navegação facetada normalmente é conteúdo duplicado do site. Identificadores de sessão e outros parâmetros de URL que simplesmente classificam ou filtram a página não fornecem conteúdo novo. Saiba como gerenciar o rastreamento de páginas de navegação facetadas.
- Conteúdo duplicado: ajude o Google a identificar conteúdo duplicado para evitar o rastreamento desnecessário.
- Páginas de
soft 404: retorne um código404quando uma página não existir mais. - Páginas invadidas: consulte o relatório de problemas de segurança e corrija ou remova as páginas invadidas que você encontrar.
- Espaços infinitos (em inglês) e proxies: bloqueie o rastreamento com o robots.txt.
- Conteúdo de baixa qualidade e spam: é bom evitar, obviamente.
- Páginas do carrinho de compras, de rolagem infinita e que realizam uma ação, como página "inscreva-se" ou "compre agora".
O que fazer:
- Use o robots.txt se não quiser que o Google rastreie um recurso ou uma página.
- Se um recurso comum for reutilizado em várias páginas (como uma imagem compartilhada ou um arquivo JavaScript), faça referência a ele no mesmo URL em cada página, para que o Google possa armazenar em cache e reutilizar o mesmo recurso sem precisar solicitá-lo várias vezes.
O que evitar:
- Não adicione nem remova páginas ou diretórios do robots.txt regularmente como uma forma de realocar a cota de rastreamento para o site. Use o robots.txt somente para páginas ou recursos que você não quer que apareçam no Google a longo prazo.
- Não alterne sitemaps nem use outros mecanismos de ocultação temporários para realocar a cota.
soft 404 erros
Um erro soft 404 ocorre quando um URL retorna uma página informando ao usuário que ela não existe e envia um código de status 200 (success). Em alguns casos, isso indica uma página sem conteúdo principal ou vazia.
Essas páginas podem ser geradas pelo servidor da web/sistema de gerenciamento de conteúdo do seu site ou pelo navegador do usuário por diversos motivos. Exemplo:
- Um arquivo Server Side Includes (SSI) ausente
- Uma conexão corrompida com o banco de dados
- Uma página interna de resultados da pesquisa vazia
- Um arquivo JavaScript descarregado ou ausente
Para uma boa experiência do usuário, não é recomendado retornar um código de status 200 (success) e exibir ou sugerir uma mensagem de erro ou algum tipo de erro na página. Os usuários podem pensar que
é uma página ativa, mas recebem algum tipo de erro. Essas páginas são
excluídas da Pesquisa.
Quando os algoritmos do Google detectam que a página é realmente uma página de erro com base no conteúdo,
o Search Console exibe um erro soft 404 no
Relatório de indexação de páginas do site.
Corrigir erros soft 404
Dependendo do estado da página e do resultado desejado, é possível resolver erros soft 404
de várias maneiras:
- A página e o conteúdo não estão mais disponíveis.
- A página ou o conteúdo está em outro lugar.
- A página e o conteúdo ainda existem.
Tente determinar qual a melhor solução para seus usuários.
A página e o conteúdo não estão mais disponíveis
Se você removeu a página e não há uma página de substituição no seu site com conteúdo semelhante,
retorne um código de resposta (status)
404 (not found) ou 410 (gone)
para a página. Esses códigos de status indicam aos mecanismos de pesquisa que a
página não existe e que você não quer que ela seja indexada.
Se você tiver acesso aos arquivos de configuração do servidor, você pode fazer com que essas páginas sejam úteis
aos usuários personalizando-as. Uma boa página 404 personalizada ajuda o usuário a
encontrar as informações que procura, além de mostrar mais conteúdo útil que estimula
o visitante a continuar navegando no site. Veja algumas dicas para criar uma página
404 personalizada útil:
- Informe claramente aos visitantes que a página que eles procuram não foi encontrada. Use linguagem simpática e convidativa.
-
Faça com que a página
404tenha a mesma aparência que o restante do site incluindo a navegação. - Adicione links para os artigos ou postagens mais acessadas, bem como um link para a página inicial do site.
- Pense em uma maneira de o usuário informar um link corrompido.
As páginas 404 personalizadas são criadas exclusivamente para os usuários. Como essas páginas são inúteis do ponto de vista de um mecanismo de pesquisa, confira se o servidor retorna um código de status HTTP 404 para evitar que elas sejam indexadas.
A página ou o conteúdo está em outro lugar
Caso a página tenha sido movida ou exista uma substituição evidente para ela no site, retorne um código
301 (permanent redirect)
para redirecionar o usuário. Isso não interrompe a experiência de navegação, além de ser uma ótima maneira de informar aos mecanismos de pesquisa sobre o novo local da página. Use a Ferramenta de inspeção de URL para verificar se o URL está realmente retornando o código correto.
A página e o conteúdo ainda existem
Se uma página sem problemas foi sinalizada com um erro soft 404, é provável que ela não tenha sido carregada corretamente para o Googlebot, que faltaram recursos críticos ou que foi exibida uma mensagem de erro proeminente durante a renderização. Use a Ferramenta de inspeção de URL para examinar o conteúdo renderizado e o código HTTP retornado. Se a página renderizada estiver em branco, quase em branco ou o conteúdo tiver uma mensagem de erro, talvez ela referencie muitos recursos que não foram carregados (imagens, scripts e outros elementos não textuais), o que pode ser interpretado como um soft 404.
Os motivos para isso incluem o bloqueio de recursos pelo robots.txt, excesso de recursos em uma página, vários erros de servidor ou arquivos de carregamento lento ou muito grandes.
Manipular o rastreamento excessivo do site (emergências)
O Googlebot tem algoritmos para evitar o excesso de solicitações de rastreamento. No entanto, se você acha que o Googlebot está sobrecarregando o site, há algumas coisas a fazer.
Diagnóstico:
Monitore seu servidor em busca de solicitações excessivas do Googlebot para o site.
Tratamento:
Em uma emergência, recomendamos que você siga estas etapas para reduzir a velocidade de rastreamento do Googlebot:
- Retorne códigos de status de resposta HTTP
503ou429temporariamente para solicitações do Googlebot quando o servidor estiver sobrecarregado. O Googlebot tentará rastrear esses URLs novamente por cerca de dois dias. Retornar códigos de "indisponibilidade" por mais de alguns dias fará com que o Google permanentemente desacelere ou pare o rastreamento de URLs no site. Por isso, siga as próximas etapas. -
Quando a taxa de rastreamento diminuir, pare de retornar códigos de status de resposta
HTTP
503ou429para solicitações de rastreamento. O retorno de503ou429por mais de dois dias fará com que o Google elimine esses URLs do índice. - Monitore o rastreamento e a capacidade do host ao longo do tempo.
- Se o problema é com um dos rastreadores do AdsBot, é provável que você tenha criado segmentações de anúncios dinâmicos de pesquisa para o site, e é isso que o Google está tentando rastrear. Esse rastreamento ocorre a cada três semanas. Caso seu servidor não tenha a capacidade necessária para lidar com esses rastreamentos, será preciso limitar as segmentações de anúncios ou aumentar a capacidade de exibição.