Introducción a robots.txt

El archivo robots.txt les indica a los rastreadores de motores de búsqueda a qué URL pueden acceder en tu sitio. Su principal propósito es evitar la sobrecarga de solicitudes para tu sitio; no se trata de un mecanismo para mantener una página web fuera de Google. Si deseas mantener una página web fuera de Google, bloquea la indexación con noindex o protege la página con una contraseña.

¿Para qué se usa un archivo robots.txt?

Un archivo robots.txt se usa principalmente para administrar el tráfico del rastreador a tu sitio y, normalmente, para mantener un archivo fuera de Google, según el tipo de archivo:

Efecto de robots.txt en diferentes tipos de archivo
Página web

En el caso de páginas web (HTML, PDF y otros formatos no multimedia que Google puede leer), puedes usar un archivo robots.txt para administrar el tráfico de rastreo si crees que tu servidor se verá saturado de solicitudes del rastreador de Google, o bien para evitar el rastreo de páginas irrelevantes o similares de tu sitio.

La URL puede aparecer en los resultados de la Búsqueda incluso si tu página web está bloqueada por un archivo robots.txt. Sin embargo, el resultado correspondiente no tendrá una descripción. Se excluirán los archivos de imagen, de video, los PDF y otros que no sean HTML. Si ves este resultado de la Búsqueda para tu página y quieres corregirlo, quita la entrada robots.txt que bloquea la página. A fin de ocultar por completo la página de la búsqueda, usa otro método.

Archivo multimedia

Usa un archivo robots.txt para administrar el tráfico de rastreo e impedir que aparezcan archivos de imagen, video y audio en los resultados de la Búsqueda de Google. Esta acción no impedirá que otras páginas o usuarios creen vínculos a tu archivo de imagen, audio o video.

Archivo de recurso Puedes usar un archivo robots.txt para bloquear archivos de recursos, como los de imágenes, estilo o secuencias de comandos irrelevantes, si crees que no se verán perjudicadas las páginas que se carguen sin esos recursos. Sin embargo, si el rastreador de Google tiene dificultades para comprender la página debido a la ausencia de estos recursos, no los bloquees, ya que Google no analizará correctamente las páginas que dependen de ellos.

Comprende las limitaciones de un archivo robots.txt

Para poder crear o editar un archivo robots.txt, debes conocer los límites de este método de bloqueo de URL. Según los objetivos y la situación, puedes usar otros mecanismos para asegurarte de que no se puedan encontrar tus URL en la Web.

  • Es posible que las directivas de robots.txt no sean compatibles con todos los motores de búsqueda.
    Las instrucciones de los archivos robots.txt no pueden forzar comportamientos del rastreador respecto de tu sitio; le corresponde al rastreador determinar si obedecerlas o no. Si bien Googlebot y otros rastreadores web confiables obedecen las instrucciones de los archivos robots.txt, otros podrían no hacerlo. Por lo tanto, para ocultarles información a los rastreadores web, te recomendamos que uses otros métodos de bloqueo, como proteger archivos privados con una contraseña en tu servidor.
  • Los rastreadores interpretan la sintaxis de maneras diferentes.
    Aunque los rastreadores web confiables siguen las directivas de los archivos robots.txt, cada rastreador podría interpretar las directivas de manera distinta. Debes conocer la sintaxis indicada para comunicarte con los diferentes rastreadores web, ya que algunos podrían no comprender determinadas instrucciones.
  • Una página no permitida en robots.txt can puede indexarse igualmente si hay vínculos a ella desde otros sitios.
    Aunque Google no rastrea ni indexa el contenido bloqueado por robots.txt file, puede encontrar y también indexar una URL inhabilitada si está vinculada desde otros sitios en la Web. Como resultado, la dirección de la URL y, potencialmente, otra información disponible de modo público (como texto de hipervínculo en vínculos a la página) aún podrían aparecer en los resultados de la Búsqueda de Google. Para impedir que tu URL aparezca en los resultados de la Búsqueda de Google, protege los archivos en tu servidor con una contraseña, usa la metaetiqueta noindex o un encabezado de respuesta, o bien quita por completo la página.

Cómo crear un archivo robots.txt

Si decidiste que lo necesitas, obtén información para crear un archivo robots.txt.