Manter informações editadas fora da Pesquisa Google

Ao publicar documentos e imagens na Web, você pode acabar disponibilizando sem querer conteúdo que não está imediatamente visível. Especificamente, informações que não estão evidentes ou que deveriam ter sido editadas podem ser incluídas em alguns formatos de documento e ficarem visíveis para os mecanismos de pesquisa.

Como os mecanismos indexam o material público na Web, incluindo imagens, eles podem encontrar facilmente conteúdo que não foi completamente editado. As tecnologias adaptativas, como leitores de tela, podem facilitar o acesso a esse conteúdo "oculto", e técnicas comuns de compreensão de imagem, como reconhecimento óptico de caracteres (OCR), também permitem pesquisar esse material.

Embora colocar texto em uma fonte minúscula, usar uma cor de fonte que seja igual ao plano de fundo ou cobrir texto com uma imagem possa deixar algo invisível ao olho humano, esses métodos não impedem que os mecanismos de pesquisa indexem o conteúdo e permitam que ele seja encontrado.

Da mesma forma, alguns tipos de documentos incluem informações de várias maneiras que não são imediatamente visíveis. Eles podem incluir o histórico de alterações, permitindo que os usuários vejam o texto que foi editado ou alterado. Além disso, eles podem manter as versões completas das imagens que contêm informações recortadas ou editadas. Também pode haver metadados, que não são exibidos imediatamente, incluídos em um arquivo, listando os nomes das pessoas que acessaram ou editaram o material.

Todas essas informações poderão permanecer mesmo quando um documento for exportado ou convertido em um outro formato. Caso precise tirar informações de um arquivo, é fundamental que elas sejam removidas completamente antes da publicação.

Veja algumas práticas recomendadas para editar corretamente os documentos e impedir que informações indesejadas sejam indexadas e fiquem detectáveis na Pesquisa Google.

Editar e exportar imagens antes da incorporação

A Pesquisa Google lista imagens encontradas na Internet, tanto aquelas que estão em páginas da Web quanto aquelas incorporadas em vários formatos de documentos. Às vezes, as imagens incorporadas são editadas apenas com as ferramentas do próprio documento. Isso pode causar uma falha na edição quando a imagem é indexada separadamente. Por isso, é melhor editar imagens antes da incorporação a um documento, não depois. Especificamente, faça o seguinte:

  • Antes de incorporar as imagens aos documentos, corte as informações indesejadas delas. Algumas ferramentas de edição de documentos (como processadores de texto ou ferramentas de criação de slides) manterão na versão pública todas as imagens não cortadas que você usar. Portanto, revise toda a documentação da ferramenta.
  • Remova ou oculte completamente qualquer texto ou outras partes não públicas da imagem, já que os sistemas de OCR podem fazer com que qualquer texto na imagem seja pesquisável.
  • Remova todos os metadados indesejados.

Depois de seguir as sugestões neste documento, exporte ou salve as imagens atualizadas em formatos planos ou não vetoriais, como PNG ou WEBP. Isso impedirá que essas partes de imagens sejam incluídas acidentalmente em um documento público.

Editar ou remover texto indesejado antes de mudar para um formato de arquivo público

Antes de gerar o documento público, remova qualquer texto que você não queira exibir na versão final do arquivo. Mude para um formato público que não mantenha o histórico de alterações anterior. Veja algumas dicas mais específicas:

  • Use ferramentas de edição de documentos adequadas se precisar editar as informações de um arquivo. Por exemplo, evite colocar retângulos sobre o texto como método de edição, porque isso pode resultar na inclusão do texto escondido no documento publicado.
  • Verifique os metadados do documento no arquivo público.
  • Siga as práticas recomendadas de edição de documentos para o formato que você está usando (PDF, imagem etc.).
  • Considere as informações no próprio URL ou no nome do arquivo. Mesmo que parte de um site seja bloqueada por robots.txt, os URLs poderão ser indexados na pesquisa (sem o conteúdo deles). Use hashes em parâmetros de URL em vez de endereços de e-mail ou nomes.
  • Use a autenticação para limitar o acesso ao conteúdo editado. Exiba a página de login com uma tag noindex robots meta para bloquear a indexação.
  • Ao publicar, confirme se o site está verificado no Google Search Console. Isso permitirá uma remoção rápida, se necessário.
  1. Remova o documento do site ou do local em que você o publicou.
  2. Use a Ferramenta de remoção no site verificado para remover da Pesquisa os documentos em questão. Use um prefixo de URL caso precise remover vários documentos. Para sites verificados, uma remoção de URL geralmente leva menos de um dia. Isso impedirá que o documento apareça em pesquisas relacionadas ao conteúdo editado.
  3. Hospede o documento editado corretamente em outro URL. Isso garante que qualquer versão recém-indexada seja do novo documento, e não de uma versão antiga dele. Fazer isso é importante, porque o rastreamento dos URLs e a atualização deles em um índice de pesquisa pode demorar um pouco. Atualize os links para esses documentos.
  4. Entre em contato com qualquer outro site que também possa estar hospedando os documentos editados incorretamente para que eles sejam removidos. Peça para o outro site utilizar a Ferramenta de remoção na conta do Search Console correspondente, ou use a Ferramenta para remoção de conteúdo desatualizado para solicitar que os sistemas do Google atualizem os resultados da pesquisa.
  5. Espere até que as solicitações de remoção de URL expirem. Isso acontecerá depois que os URLs forem atualizados no índice da Pesquisa Google ou após cerca de seis meses.