Introducción a robots.txt

¿Qué es un archivo robots.txt?

El archivo robots.txt les indica a los rastreadores de motores de búsqueda qué páginas o archivos pueden solicitar de tu sitio y cuáles no. Su principal propósito es evitar la sobrecarga de solicitudes de tu sitio; no se trata de un mecanismo para mantener una página web fuera de Google. Si deseas mantener una página web fuera de Google, debes usar directivas noindex, o bien protegerla con una contraseña.

¿Para qué se usa un archivo robots.txt?

Un archivo robots.txt se usa principalmente para administrar el tráfico del rastreador a tu sitio y, normalmente, para mantener una página fuera de Google, según el tipo de página:

Tipo de página Administración del tráfico Ocultar de Google Descripción
Página web

En el caso de páginas web (HTML, PDF y otros formatos no multimedia que Google puede leer), se puede usar un archivo robots.txt para administrar el tráfico de rastreo si crees que tu servidor se verá saturado de solicitudes del rastreador de Google, o bien para evitar el rastreo de páginas irrelevantes o similares de tu sitio.

No debes usar un archivo robots.txt como forma de ocultar tus páginas web de los resultados de la Búsqueda de Google, ya que si otras páginas apuntan a tu página con texto descriptivo, esta podría indexarse sin que se visite. Para bloquear tu página de los resultados de la búsqueda, usa otro método, como la protección por contraseña o una directiva noindex.

Tu página puede aparecer en los resultados de la búsqueda incluso si está bloqueada por un archivo robots.txt. Sin embargo, no tendrá descripción y se verá de la siguiente manera. Se excluirán los archivos de imagen, video, PDF y otros que no sean HTML. Si ves este resultado de la búsqueda para tu página y quieres corregirlo, quita la entrada robots.txt que bloquea la página. Para ocultar completamente la página de la búsqueda, usa otro método.

Archivo multimedia

Usa un archivo robots.txt para administrar el tráfico de rastreo y para impedir que aparezcan archivos de imagen, video y audio en los resultados de la Búsqueda de Google. (Nota: Esta acción no impedirá que otras páginas o usuarios se vinculen a tu archivo de imagen, audio o video).

Archivo de recurso Puedes usar un archivo robots.txt para bloquear archivos de recursos, como los de imágenes, secuencias de comandos o estilo irrelevantes si crees que las páginas no se verán perjudicadas si no se cargan esos recursos. Sin embargo, si la ausencia de los recursos le dificulta al rastreador de Google la comprensión de la página, no debes bloquearlos, ya que Google no analizará correctamente las páginas que dependen de esos recursos.

Uso un servicio de hosting de sitios

Si usas un servicio de hosting de sitios web, como Wix, Drupal o Blogger, es posible que no tengas que editar directamente tu archivo robots.txt (ni puedas hacerlo). En su lugar, tu proveedor podría exponer una página de configuración de búsqueda o algún otro mecanismo para indicarles a los motores de búsqueda si deben o no rastrear tu página.

Para saber si Google rastreó esta página, busca la URL correspondiente en Google.

Si quieres ocultar (o mostrar) tu página en los motores de búsqueda, agrega (o quita) todos los requisitos de acceso a la página aplicables y busca las instrucciones para modificar su visibilidad en los motores de búsqueda en tu servicio de hosting, por ejemplo: ocultar página de los motores de búsqueda para Wix.

Comprende las limitaciones de un archivo robots.txt

Para poder crear o editar un archivo robots.txt, debes conocer los límites de este método de bloqueo de URL. A veces, puedes usar otros mecanismos para asegurarte de que no se puedan encontrar tus URL en la Web.

  • Es posible que no todos los motores de búsqueda admitan las directivas de robots.txt
    Las instrucciones de los archivos robots.txt no pueden forzar el comportamiento del rastreador en tu sitio; le corresponde al rastreador determinar si obedecerlas o no. Si bien Googlebot y otros rastreadores web confiables obedecen las instrucciones de los archivos robots.txt, otros podrían no hacerlo. Por lo tanto, si quieres ocultarles información a los rastreadores web, te recomendamos que uses otros métodos de bloqueo, como archivos privados protegidos por contraseña en tu servidor.
  • Cada rastreador interpreta la sintaxis de manera diferente
    Aunque los rastreadores web confiables siguen las directivas de un archivo robots.txt, cada rastreador puede interpretarlas de manera diferente. Debes conocer la sintaxis indicada para comunicarte con los diferentes rastreadores web, ya que algunos podrían no comprender determinadas instrucciones.
  • Una página bloqueada mediante robots.txt puede indexarse si se vincula desde otros sitios
    Si bien Google no rastrea ni indexa el contenido bloqueado por un archivo robots.txt, sí puede encontrar y también indexar una URL inhabilitada si está vinculada desde otros sitios en la Web. Como resultado, la dirección de la URL y, potencialmente, otra información disponible de modo público (como texto de hipervínculo en vínculos a la página) aún podrían aparecer en los resultados de la Búsqueda de Google. Para impedir que tu URL aparezca en los resultados de la Búsqueda de Google, debes proteger con contraseña los archivos en tu servidor o usar la metaetiqueta noindex o un encabezado de respuesta (o bien quitar por completo la página).

Cómo probar una página para buscar bloqueos de robots.txt

Puedes probar si una página o recurso está bloqueado por una regla de robots.txt.

Para probar directivas noindex, usa la Herramienta de inspección de URL.