Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Perguntas frequentes sobre robots

Perguntas gerais sobre robots

Meu site precisa de um arquivo robots.txt?

Não. Quando o Googlebot acessa um site, ele primeiro pede permissão para o rastreamento tentando recuperar o arquivo robots.txt. Um site sem arquivo robots.txt, tag robots meta ou cabeçalhos HTTP X-Robots-Tag geralmente é rastreado e indexado normalmente.

Qual método devo usar para bloquear os rastreadores?

Depende. Basicamente, há boas razões para usar cada um destes métodos:

  • robots.txt: use este arquivo se o rastreamento do seu conteúdo estiver causando problemas no servidor. Por exemplo, é possível impedir o rastreamento de scripts de calendários infinitos. Não use o robots.txt para bloquear conteúdo particular (em vez disso, use a autenticação do lado do servidor) nem para processar a canonização. Para garantir que um URL não seja indexado, use a tag robots meta ou o cabeçalho HTTP X-Robots-Tag.
  • Tag robots meta: use esta metatag se for necessário controlar a forma como uma página HTML individual é exibida nos resultados da pesquisa ou para se certificar de que ela não será exibida.
  • Cabeçalho HTTP X-Robots-Tag: use este cabeçalho se for necessário controlar a forma como o conteúdo é exibido nos resultados da pesquisa ou para se certificar de que ele não seja exibido.

Posso usar o robots.txt, a tag robots meta ou o cabeçalho HTTP X-Robots-Tag para remover o site de outra pessoa dos resultados da pesquisa?

Não. Esses métodos só se aplicam a sites em que você pode modificar o código ou adicionar arquivos. Saiba mais sobre como remover informações do Google.

Como posso desacelerar o rastreamento que o Google faz no meu site?

Geralmente, é possível ajustar a configuração da taxa de rastreamento na sua conta do Google Search Console.

Perguntas sobre robots.txt

Eu uso o mesmo robots.txt para vários sites. Posso usar um URL completo em vez de um caminho relativo?

Não. As regras no arquivo robots.txt (exceto sitemap:) são válidas somente para caminhos relativos.

Posso colocar o arquivo robots.txt em um subdiretório?

Não. O arquivo precisa ser colocado no diretório superior do site.

Quero bloquear uma pasta privada. Posso impedir que outras pessoas leiam meu arquivo robots.txt?

Não. O arquivo robots.txt pode ser lido por vários usuários. Se as pastas ou os nomes de arquivo do conteúdo não forem destinados ao público, não os liste no arquivo robots.txt. Não recomendamos exibir arquivos robots.txt diferentes com base no user agent ou em outros atributos.

Preciso incluir uma regra allow para permitir o rastreamento?

Não, não é necessário incluir uma regra allow. Todos os URLs são permitidos de forma implícita, e a regra allow é usada para substituir regras disallow no mesmo arquivo robots.txt.

O que acontecerá se meu arquivo robots.txt tiver um erro ou for usada uma regra sem suporte?

Os rastreadores da Web em geral são muito flexíveis e, normalmente, não são influenciados por pequenos erros no arquivo robots.txt. Muitas vezes, o pior que pode acontecer é as regras incorretas ou sem suporte serem ignoradas. O Google não faz adivinhações ao interpretar um arquivo robots.txt: ele precisa interpretar o arquivo robots.txt que foi buscado. Dessa forma, se você estiver ciente dos problemas no seu arquivo robots.txt, saiba que eles geralmente são de fácil correção.

Que programa devo usar para criar um arquivo robots.txt?

Use qualquer programa para a criação de arquivos de texto válidos. Programas comuns usados para criar arquivos robots.txt incluem o Bloco de Notas, TextEdit, vi e Emacs. Saiba mais sobre como criar arquivos robots.txt. Depois de criar seu arquivo, valide-o usando a ferramenta Testar robots.txt.

Se eu impedir que o Google rastreie uma página usando uma regra disallow no robots.txt, ela desaparecerá dos resultados da pesquisa?

Impedir que o Google rastreie uma página provavelmente removerá a página do índice do Google.

No entanto, disallow no robots.txt não garante que uma página não será exibida nos resultados. O Google ainda pode decidir que ela é relevante com base em informações externas, como links de entrada, e exibir o URL nos resultados. Se você quiser bloquear explicitamente a indexação de uma página, use a tag noindex robots meta ou o cabeçalho HTTP X-Robots-Tag. Nesse caso, não bloqueie a página no robots.txt, porque ela precisa ser rastreada para que a tag seja vista e obedecida. Saiba como controlar o que você compartilha com o Google.

Quanto tempo leva para que as mudanças no meu arquivo robots.txt afetem os resultados da pesquisa?

Em primeiro lugar, o cache do arquivo robots.txt precisa ser atualizado. Geralmente, os conteúdos são armazenados em cache por até um dia. É possível acelerar esse processo enviando o robots.txt atualizado para o Google. Mesmo depois de encontrar a mudança, o rastreamento e a indexação fazem parte de um processo complicado que pode demorar para URLs individuais, por isso é impossível fornecer um cronograma exato. Além disso, mesmo que seu arquivo robots.txt não permita o acesso a um URL, esse URL pode permanecer visível nos resultados da pesquisa, apesar de não poder ser rastreado. Se você quiser acelerar a remoção das páginas que foram bloqueadas para o Google, envie uma solicitação de remoção.

Como posso suspender temporariamente todo o rastreamento do meu site?

É possível suspender temporariamente todo o rastreamento retornando um Código de status HTTP 503 (service unavailable) para todos os URLs, incluindo o arquivo robots.txt. O rastreamento do arquivo robots.txt será repetido periodicamente até que ele possa ser acessado novamente. Não recomendamos mudar o arquivo robots.txt para impedir o rastreamento.

Meu servidor não diferencia maiúsculas de minúsculas. Como posso impedir completamente o rastreamento de algumas pastas?

As regras no arquivo robots.txt diferenciam maiúsculas de minúsculas. Nesse caso, recomendamos garantir que somente uma versão do URL seja indexada usando métodos de canonização. Isso reduz o número de linhas no arquivo robots.txt, o que facilita o gerenciamento. Caso isso não seja possível, recomendamos que você liste as combinações comuns do nome da pasta ou encurte o arquivo o máximo possível. Para isso, use somente os primeiros caracteres em vez do nome completo. Por exemplo, em vez de listar todas as permutações de maiúsculas e minúsculas de /MyPrivateFolder, liste as permutações de /MyP, se tiver certeza de que nenhum outro URL rastreável existe com esses primeiros caracteres. Como alternativa, use uma tag robots meta ou um cabeçalho HTTP X-Robots-Tag se o rastreamento não for um problema.

O valor de 403 Forbidden é retornado para todos os URLs, incluindo o arquivo robots.txt. Por que o site ainda está sendo rastreado?

O Código de status HTTP 403 Forbidden, assim como os outros 4xx, é interpretado como o arquivo robots.txt não existe. Isso significa que os rastreadores geralmente presumem que eles podem rastrear todos os URLs do site. Para bloquear o rastreamento do site, o robots.txt precisa ser retornado com um Código de status HTTP 200 OK e precisa conter uma regra disallow apropriada.

Perguntas sobre a tag robots meta

A tag robots meta substitui o arquivo robots.txt?

Não. O arquivo robots.txt controla quais páginas são acessadas. A tag robots meta controla se uma página é indexada. No entanto, para ver essa tag, a página precisa ser rastreada. Se o rastreamento de uma página for problemático (por exemplo, se a página gerar uma carga elevada no servidor), use o arquivo robots.txt. Se for só uma questão de exibir ou não uma página nos resultados da pesquisa, vai ser possível usar a tag robots meta.

A tag robots meta pode ser usada para bloquear a indexação de parte de uma página?

Não, a tag robots meta é uma configuração no nível da página.

Posso usar a tag robots meta fora de uma seção <head>?

Não, a tag robots meta precisa estar na seção <head> da página.

A tag robots meta bloqueia o rastreamento?

Não. Mesmo que a tag robots meta seja atualmente noindex, vamos precisar rastrear novamente esse URL ocasionalmente para verificar se a tag meta mudou.

Como a tag nofollow robots meta se compara ao atributo de link rel="nofollow"?

A tag nofollow robots meta se aplica a todos os links em uma página. O atributo de link rel="nofollow" se aplica somente a links específicos em uma página. Para mais informações sobre o atributo de link rel="nofollow", consulte nossa documentação sobre spam gerado pelo usuário e rel="nofollow".

Perguntas sobre o cabeçalho HTTP X-Robots-Tag

Como posso verificar a X-Robots-Tag de um URL?

Uma maneira simples de visualizar os cabeçalhos do servidor é usar a Ferramenta de inspeção de URL no Google Search Console. Para verificar os cabeçalhos de resposta de qualquer URL, tente pesquisar "verificador de cabeçalho do servidor".