O que a cota de rastreamento significa para o Googlebot

Segunda-feira, 16 de janeiro de 2017

Recentemente, vimos várias definições de cota de rastreamento, mas não existe um termo único para descrever tudo o que ela significa para os usuários externos. Nesta postagem, vamos ver alguns fatos e o que isso significa para o Googlebot.

Primeiro é importante dizer que a cota de rastreamento, como veremos mais abaixo, não é algo que deve preocupar a maioria dos editores. Quando as páginas novas são rastreadas no mesmo dia da publicação, os webmasters não precisam pensar na cota de rastreamento. Da mesma forma, se um site não tiver milhares de URLs, o rastreamento será eficiente na maior parte das vezes.

Priorizar o que e quando rastrear, além da quantidade de recursos que o servidor de hospedagem do site pode alocar para o rastreamento, é mais importante no caso dos sites maiores ou daqueles com geração automática de páginas com base em parâmetros de URL, por exemplo.

Limite da taxa de rastreamento

O Googlebot foi criado para se comportar bem na Web. Ele prioriza o rastreamento sem afetar a experiência dos usuários que acessam o site. Chamamos isso de taxa de rastreamento, que limita a busca de dados de um determinado site.

De forma simplificada, isso representa o número de conexões paralelas e simultâneas que o Googlebot pode usar para rastrear o site, além do tempo de espera entre as buscas. A taxa de rastreamento poderá aumentar ou diminuir com base em alguns fatores:

  • Integridade do rastreamento: caso o site tenha um tempo de resposta muito rápido durante um período, o limite aumenta, permitindo que mais conexões sejam usadas para o rastreamento. Se o site ficar lento ou responder com erros no servidor, o limite diminuirá, e o Googlebot fará menos rastreamentos.
  • Limite definido no Search Console: os proprietários de sites podem reduzir o rastreamento pelo Googlebot. No entanto, definir limites mais altos não aumenta o rastreamento automaticamente.

Demanda de rastreamento

Mesmo que o limite da taxa de rastreamento não seja atingido, o Googlebot vai ter pouca atividade se não houver demanda de indexação. Os dois fatores mais importantes para determinar a demanda de rastreamento são os seguintes:

  • Popularidade: os URLs mais acessados na Internet costumam ser rastreados com mais frequência para se manterem atualizados no índice.
  • Inatividade: nossos sistemas buscam impedir que os URLs fiquem desatualizados no índice.

Além disso, os eventos que ocorrem em todo o site, como as mudanças de sites, podem aumentar a demanda de rastreamento para indexar novamente o conteúdo com novos URLs.

Considerando a taxa e a demanda de rastreamento como um todo, definimos a cota de rastreamento como o número de URLs que o Googlebot deve rastrear.

Fatores que afetam a cota de rastreamento

De acordo com nossa análise, a presença de muitos URLs de baixo valor agregado pode ter um impacto negativo no rastreamento e na indexação de um site. Os URLs de baixo valor agregado se encaixam nestas