Segunda-feira, 16 de janeiro de 2017
Recentemente, vimos várias definições de cota de rastreamento, mas não existe um termo único para descrever tudo o que ela significa para os usuários externos. Nesta postagem, vamos ver alguns fatos e o que isso significa para o Googlebot.
Primeiro é importante dizer que a cota de rastreamento, como veremos mais abaixo, não é algo que deve preocupar a maioria dos editores. Quando as páginas novas são rastreadas no mesmo dia da publicação, os webmasters não precisam pensar na cota de rastreamento. Da mesma forma, se um site não tiver milhares de URLs, o rastreamento será eficiente na maior parte das vezes.
Priorizar o que e quando rastrear, além da quantidade de recursos que o servidor de hospedagem do site pode alocar para o rastreamento, é mais importante no caso dos sites maiores ou daqueles com geração automática de páginas com base em parâmetros de URL, por exemplo.
Limite da taxa de rastreamento
O Googlebot foi criado para se comportar bem na Web. Ele prioriza o rastreamento sem afetar a experiência dos usuários que acessam o site. Chamamos isso de taxa de rastreamento, que limita a busca de dados de um determinado site.
De forma simplificada, isso representa o número de conexões paralelas e simultâneas que o Googlebot pode usar para rastrear o site, além do tempo de espera entre as buscas. A taxa de rastreamento poderá aumentar ou diminuir com base em alguns fatores:
- Integridade do rastreamento: caso o site tenha um tempo de resposta muito rápido durante um período, o limite aumenta, permitindo que mais conexões sejam usadas para o rastreamento. Se o site ficar lento ou responder com erros no servidor, o limite diminuirá, e o Googlebot fará menos rastreamentos.
- Limite definido no Search Console: os proprietários de sites podem reduzir o rastreamento pelo Googlebot. No entanto, definir limites mais altos não aumenta o rastreamento automaticamente.
Demanda de rastreamento
Mesmo que o limite da taxa de rastreamento não seja atingido, o Googlebot vai ter pouca atividade se não houver demanda de indexação. Os dois fatores mais importantes para determinar a demanda de rastreamento são os seguintes:
- Popularidade: os URLs mais acessados na Internet costumam ser rastreados com mais frequência para se manterem atualizados no índice.
- Inatividade: nossos sistemas buscam impedir que os URLs fiquem desatualizados no índice.
Além disso, os eventos que ocorrem em todo o site, como as mudanças de sites, podem aumentar a demanda de rastreamento para indexar novamente o conteúdo com novos URLs.
Considerando a taxa e a demanda de rastreamento como um todo, definimos a cota de rastreamento como o número de URLs que o Googlebot deve rastrear.
Fatores que afetam a cota de rastreamento
De acordo com nossa análise, a presença de muitos URLs de baixo valor agregado pode ter um impacto negativo no rastreamento e na indexação de um site. Os URLs de baixo valor agregado se encaixam nestas categorias, em ordem de importância (links para páginas em inglês):
- Navegação facetada e identificadores de sessão
- Conteúdo duplicado no site
- Páginas de erro soft
- Páginas invadidas
- Espaços infinitos e proxies
- Conteúdo de baixa qualidade e com spam
Ao desperdiçar os recursos do servidor em páginas como essas, você desvia a atividade de rastreamento das páginas que são realmente relevantes. Isso causa um atraso significativo na descoberta de conteúdos interessantes do site.
Perguntas frequentes
O rastreamento é o ponto de entrada dos sites nos resultados da Pesquisa Google. Rastrear os sites de maneira eficiente facilita a indexação deles na Pesquisa Google.
A velocidade do site afeta minha cota de rastreamento? E os erros?
Tornar um site mais rápido melhora a experiência dos usuários e aumenta a taxa de rastreamento. Para o Googlebot, um site rápido é sinal de servidores saudáveis. Assim, ele busca mais conteúdo com o mesmo número de conexões. Por outro lado, se houver um número considerável de erros 5xx ou de tempo limite de conexão, isso vai ser um sinal negativo, que diminui o ritmo do rastreamento.
Recomendamos que você preste atenção ao relatório de erros de rastreamento no Search Console e mantenha o número de erros de servidor sob controle.
O rastreamento é um fator de classificação?
Um aumento na taxa de rastreamento não leva necessariamente a uma posição melhor nos resultados da Pesquisa Google. O Google usa centenas de sinais para classificar os resultados. O rastreamento é necessário para o site estar entre os resultados, mas não significa que ele vai ter uma classificação melhor.
URLs alternativos e conteúdo incorporado contam na cota de rastreamento?
Em geral, todos os URLs que o Googlebot rastreia entram na cota de rastreamento de um site. É possível que URLs alternativos, como AMP ou hreflang, e conteúdo incorporado, como CSS e JavaScript, incluindo chamadas AJAX (como XHR), precisem ser rastreados e consumam a cota de rastreamento do site. Da mesma forma, cadeias de redirecionamento longas podem ter um efeito negativo sobre o rastreamento.
Posso controlar o Googlebot com a regra crawl-delay
?
O Googlebot não processa a regra não padrão crawl-delay
do robots.txt.
A regra nofollow
afeta a cota de rastreamento?
Depende. Qualquer URL rastreado afeta a cota de rastreamento. Assim, mesmo que sua página marque um URL como
nofollow
, ele ainda vai poder ser rastreado se outra página do seu site ou qualquer outra página da Web não
marcar o link dessa forma.
Os URLs não permitidos pelo robots.txt afetam minha cota de rastreamento?
Não, os URLs não permitidos não afetam a cota de rastreamento.
Para informações sobre como otimizar o rastreamento do seu site, leia nossa postagem de blog sobre como otimizar o rastreamento. Ela é de 2009, mas ainda é válida. Se você tiver dúvidas, faça sua pergunta nos fóruns.