Cómo evitar que la información oculta aparezca en la Búsqueda de Google

Cuando publicas imágenes y documentos en la Web, podrías publicar involuntariamente información que no es visible de forma inmediata al ojo humano. En particular, es posible que la información que no ves, o que debía ocultarse, se incluya en algunos formatos de documentos y sea visible para los motores de búsqueda.

Dado que los motores de búsqueda indexan material público en la Web, incluidas las imágenes, podría aparecer en ellos el contenido que no está del todo oculto. Las tecnologías de accesibilidad, como los lectores de pantalla, pueden hacer que este contenido aparentemente "oculto" sea más fácil de encontrar. De forma similar, las técnicas comunes de comprensión de imágenes, como el reconocimiento óptico de caracteres (OCR), posibilitan la búsqueda de este contenido.

Si bien puedes configurar texto en una fuente diminuta, usar un color de fuente idéntico al del fondo del texto o tapar el texto con una imagen para que el contenido no sea visible al ojo humano, estos métodos no ocultan el material de modo que los motores de búsqueda no puedan indexarlo o detectarlo.

Asimismo, algunos tipos de documento incluyen información de varias maneras que no son visibles de forma inmediata. Pueden incluir el historial de cambios del documento, lo que permite que los usuarios vean el texto que se ocultó o alteró. Pueden conservar las versiones completas de las imágenes que contienen información oculta o recortada. También es posible que haya metadatos incluidos en un archivo que no se ven de forma inmediata. Estos pueden enumerar los nombres de las personas que accedieron al archivo o lo editaron.

Toda esta información puede permanecer incluso cuando se exporta un documento o se lo convierte de un formato a otro. Si necesitas quitar información de un archivo, es fundamental que la quites por completo antes de que el archivo se haga público.

A continuación, se incluyen algunas prácticas recomendadas sobre cómo ocultar adecuadamente la información de documentos que no deseas que se indexe ni se detecte mediante la Búsqueda de Google.

Edita y exporta las imágenes antes de incorporarlas

En la Búsqueda de Google, se enumeran las imágenes que se encuentran en la Web, tanto las que pertenecen a páginas web como las que están incorporadas en varios formatos de documento. En ocasiones, las imágenes incorporadas solo se editan mediante las herramientas de edición del documento. Esto puede provocar que no se oculte la información cuando se indexa una imagen fuera del documento. Por lo tanto, es preferible editar las imágenes antes de incorporarlas a un documento, y no después. En particular, ten en cuenta estas sugerencias:

  • Recorta la información no deseada de las imágenes antes de incorporarlas a los documentos. Algunas herramientas de edición de documentos (como los procesadores de texto o las herramientas de creación de diapositivas) conservarán las imágenes sin recortar que uses en la versión pública del documento, por lo que debes asegurarte de revisar en detalle la documentación de la herramienta.
  • Oculta o quita por completo todo el texto o cualquier parte de la imagen que no sea pública, ya que los sistemas de OCR pueden convertir cualquier texto visible de la imagen en texto que se puede buscar.
  • Quita los metadatos no deseados.

Después de seguir las sugerencias de este documento, exporta o guarda las imágenes actualizadas como formatos de archivo de imagen planos o no vectoriales, como PNG o WEBP. Esto evitará que se incluyan inadvertidamente esas partes de las imágenes en un documento público.

Edita o quita el texto no deseado antes de pasar a un formato de archivo público

Antes de generar el documento público, quita todo el texto que no quieras que se muestre en la versión final del archivo. Cambia a un formato público que no conserve el historial de cambios anterior. A continuación, se incluyen sugerencias más específicas:

  • Si necesitas ocultar información de un archivo, usa las herramientas adecuadas para ello. Por ejemplo, evita colocar rectángulos negros sobre texto como método de ocultamiento, ya que esto puede hacer que el texto se incluya de todos modos en el documento público.
  • Vuelve a verificar los metadatos del documento en el archivo público.
  • Sigue las prácticas recomendadas de ocultamiento de documentos correspondientes al formato que estés usando (PDF, imagen, etc.).
  • Ten en cuenta la información de la URL o del nombre del archivo. Incluso si parte de un sitio web está bloqueado por robots.txt para evitar rastreos, las URL se pueden indexar en la búsqueda (sin su contenido). Usa valores hash en los parámetros de URL en lugar de nombres o direcciones de correo electrónico.
  • Considera usar la autenticación para limitar el acceso al contenido oculto. Publica la página de acceso resultante con una etiqueta noindex robots meta para bloquear la indexación.
  • Cuando lo publiques, asegúrate de que el sitio web esté verificado en Google Search Console. Esto permite solicitar una acción de eliminación rápida, en caso de que sea necesario.
  1. Quita el documento publicado del sitio web o de la ubicación donde lo publicaste.
  2. Usa la herramienta Eliminaciones del sitio verificado para quitar los documentos correspondientes de la Búsqueda. Si necesitas quitar muchos documentos, utiliza un prefijo de URL. En el caso de los sitios verificados, la eliminación de URL suele demorar menos de un día. Esto impide que el documento en cuestión aparezca en las búsquedas de contenido oculto.
  3. Aloja el documento con contenido oculto de forma correcta en una URL diferente. Esto garantiza que cualquier versión indexada reciente sea del documento nuevo y no de una versión anterior (ya que volver a rastrear las URL y actualizarlas en un índice de búsqueda puede demorar un poco). Actualiza los vínculos a esos documentos.
  4. Contacta a cualquier otro sitio que también aloje los documentos con contenido que se ocultó de forma incorrecta y solicita que los quiten. Pídeles que usen la herramienta Eliminaciones en su cuenta de Search Console o la herramienta para quitar contenido obsoleto a fin de solicitar a los sistemas de Google que actualicen los resultados de la Búsqueda.
  5. Permite que las solicitudes de eliminación de URL caduquen (esto sucede después de que se actualizaron las URL en el índice de la Búsqueda de Google o tras un período de aproximadamente 6 meses).