Explicação sobre a remoção de URLs, parte I: URLs e diretórios

Terça-feira, 30 de março de 2010

muito conteúdo na Internet hoje em dia. Em algum momento, pode aparecer algo on-line que você não gostaria que fosse publicado, desde informações de uma postagem do blog provocativa de que você se arrependeu até dados confidenciais que foram acidentalmente expostos. Na maioria dos casos, excluir ou restringir o acesso a esse conteúdo faz com que ele saia naturalmente dos resultados da pesquisa após algum tempo. No entanto, se você precisar remover com urgência conteúdo indesejado que foi indexado pelo Google e não puder esperar que ele desapareça naturalmente, use nossa ferramenta de remoção de URL para acelerar o processo, desde que atenda a determinados critérios, que vamos discutir abaixo.

Temos uma série de postagens no blog que explicam como remover vários tipos de conteúdo e erros comuns que devem ser evitados. Nesta primeira postagem, veremos alguns cenários básicos: remoção de um único URL, remoção de um diretório ou site inteiro e reinclusão de conteúdo removido. Também recomendamos nossa postagem anterior sobre como gerenciar quais informações estão disponíveis sobre você on-line.

Como remover um único URL

Em geral, para que suas solicitações de remoção sejam atendidas, o proprietário dos URLs em questão (seja você ou outra pessoa) precisa ter indicado que esse conteúdo pode ser removido. Em um URL individual, isso pode ser indicado de três maneiras:

Antes de enviar uma solicitação de remoção, confira se o URL foi bloqueado corretamente:

  • robots.txt:: é possível verificar se o URL foi bloqueado corretamente usando a ferramenta Buscar como o Googlebot ou Testar robots.txt nas Ferramentas do Google para webmasters.
  • Tag noindex meta: use a ferramenta "Buscar como o Googlebot" para confirmar se a tag meta aparece entre as tags <head> e </head>. Para consultar uma página que não foi verificada nas Ferramentas do Google para webmasters, abra o URL em um navegador e acesse Ver > Origem da página e verifique se a tag meta está entre as tags <head> e </head>.
  • Código de status 404 e 410: use a ferramenta Buscar como o Googlebot ou ferramentas como Cabeçalhos HTTP ativos ou web-sniffer.net para verificar se o URL realmente retorna o código correto. Às vezes, as páginas "excluídas" podem indicar "404" ou "Não encontrado", mas na verdade retornam um código de status 200 no cabeçalho da página. Por isso, é recomendável usar uma ferramenta adequada de verificação de cabeçalho para fazer a confirmação.

Se o conteúdo indesejado foi removido de uma página, mas não foi bloqueado de uma das formas acima, não vai ser possível remover completamente esse URL dos nossos resultados da pesquisa. Isso é mais comum quando o site não hospeda o conteúdo Mostramos o que fazer nessa situação em uma postagem na Parte II da nossa série sobre remoções.

Se um URL atender a um dos critérios acima, você vai poder removê-lo acessando a Ferramenta de remoção, inserindo o URL que quer remover e selecionando "o webmaster já bloqueou a página". Você precisa digitar o URL em que o conteúdo foi hospedado, e não o URL da Pesquisa Google em que ele aparece. Por exemplo, insira https://www.example.com/embarrassing-stuff.html, não https://www.google.com/search?q=embarrassing+stuff.

Nosso artigo da Central de Ajuda mostra mais detalhes para garantir que você insira o URL correto. Se você não informar o URL exato, não vamos poder remover o conteúdo.

Como remover um diretório ou site inteiro

Para que fazer uma remoção em um diretório ou em todo o site, o diretório ou site precisa ser bloqueado no arquivo robots.txt do site. Por exemplo, para remover o diretório https://www.example.com/secret/, seu arquivo robots.txt precisa incluir:

User-agent: *
Disallow: /secret/

Não basta que a raiz do diretório retorne um código de status 404, porque é possível que um diretório retorne um 404, mas ainda disponibilize arquivos abaixo dele. Usar o robots.txt para bloquear um diretório (ou um site inteiro) garante que todos os URLs nesse diretório (ou site) também sejam bloqueados. É possível testar se um diretório foi bloqueado corretamente usando os recursos Buscar como o Googlebot ou Testar robots.txt nas Ferramentas do Google para webmasters.

Somente os proprietários verificados de um site podem solicitar a remoção de todo o site ou diretório nas Ferramentas do Google para webmasters. Para solicitar a remoção de um diretório ou site, clique no site em questão e acesse Configuração do site > Acesso do rastreador > Remover URL. Se você digitar a raiz do site como o URL que quer remover, vai precisar confirmar que quer remover o site inteiro. Se você inserir um subdiretório, selecione a opção "Remover diretório" no menu suspenso.

Nova inclusão de conteúdo

É possível cancelar as solicitações de remoção dos seus sites a qualquer momento, incluindo aquelas enviadas por outras pessoas. Para isso, você precisa ser um proprietário verificado do site nas Ferramentas do Google para webmasters. Depois de verificar a propriedade, você pode acessar Configuração do site > Acesso do rastreador > Remover URL > URLs removidos (ou > Feito por outras pessoas) e clique em "Cancelar" ao lado das solicitações que você quer cancelar.

Ainda tem dúvidas? Acompanhe o restante da nossa série sobre como remover conteúdo dos resultados da pesquisa do Google. Se você não puder esperar, há muito material escrito sobre a remoção de URLs e sobre como resolver problemas individuais no nosso Fórum de Ajuda. Se você ainda tiver dúvidas depois de ler as experiências de outras pessoas, escreva uma pergunta. Na maioria dos casos, é difícil dar orientações relevantes sobre uma remoção específica sem conhecer o site ou URL em questão. Recomendamos compartilhar o URL usando um serviço de encurtamento de URL para que o URL em questão não seja indexado como parte da postagem. Alguns serviços de encurtamento podem até desativar o atalho depois que a pergunta for resolvida.

Por fim, talvez você também queira ler sobre como gerenciar quais informações estão disponíveis sobre você on-line.