Cómo crear un archivo robots.txt

Con un archivo robots.txt, puedes controlar los archivos a los que tienen acceso los rastreadores en tu sitio. En la raíz de tu sitio, hay un archivo robots.txt. Por ejemplo, para el sitio www.example.com, el archivo robots.txt se encuentra en www.example.com/robots.txt. robots.txt es un archivo de texto sin formato que cumple con el estándar de exclusión de robots e incluye una o más reglas. Cada regla bloquea o permite el acceso a una ruta de archivo específica en ese sitio web para un rastreador determinado. A menos que especifiques lo contrario en el archivo robots.txt, se permite, de manera implícita, que se rastreen todos los archivos.

A continuación, se detalla un ejemplo de un archivo robots.txt simple con dos reglas:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

Significado del archivo robots.txt:

  1. El usuario-agente llamado Googlebot no puede rastrear ninguna URL que comience con http://example.com/nogooglebot/.
  2. Los otros usuarios-agentes pueden rastrear todo el sitio. Esta acción podría omitirse, y el resultado sería el mismo, ya que el comportamiento predeterminado es que los usuarios-agentes puedan rastrear todo el sitio.
  3. El archivo de mapa del sitio se encuentra en http://www.example.com/sitemap.xml.

Consulta la sección de sintaxis para ver más ejemplos.

Lineamientos básicos para crear un archivo robots.txt

Para crear un archivo robots.txt, y lograr que sea útil y de acceso público, debes seguir estos cuatro pasos:

  1. Crea un archivo llamado robots.txt.
  2. Agrega reglas al archivo robots.txt.
  3. Sube el archivo robots.txt a tu sitio.
  4. Prueba el archivo robots.txt.

Cómo crear un archivo robots.txt

Puedes usar prácticamente cualquier editor de texto para crear un archivo robots.txt. Por ejemplo, Notepad, TextEdit, vi y emacs pueden crear archivos robots.txt válidos. No utilices un procesador de texto, ya que estos suelen guardar archivos en un formato propio y pueden agregar caracteres inesperados (como comillas curvas) que generen un problema para los rastreadores. Asegúrate de guardar el archivo con codificación UTF-8 si se solicita en el diálogo correspondiente.

Reglas de formato y ubicación:

  • El archivo debe denominarse robots.txt.
  • Tu sitio solo puede contener un archivo robots.txt.
  • El archivo robots.txt tiene que estar ubicado en la raíz del host del sitio web para el que se creó. Por ejemplo, para controlar el rastreo en todas las URL debajo de https://www.example.com/, el archivo robots.txt debe estar ubicado en https://www.example.com/robots.txt. No se puede ubicar en un subdirectorio (como https://example.com/pages/robots.txt). Si tienes dudas sobre la forma de acceder a la raíz de tu sitio web o necesitas permisos para hacerlo, comunícate con el proveedor de servicios de hosting web. Si no puedes acceder a la raíz de tu sitio web, usa un método alternativo de bloqueo, como el de las metaetiquetas.
  • Se puede aplicar un archivo robots.txt a subdominios (como https://website.example.com/robots.txt) o a puertos no estándares (como http://example.com:8181/robots.txt).
  • El archivo robots.txt debe ser un archivo de texto con codificación UTF-8 (que incluye ASCII). Google puede ignorar los caracteres que no forman parte del rango UTF-8, por lo que es posible que considere las reglas de robots.txt como no válidas.

Cómo agregar reglas al archivo robots.txt

Las reglas son instrucciones que les indican a los rastreadores qué partes de tu sitio pueden rastrear. Sigue estos lineamientos cuando agregues reglas al archivo robots.txt:

  • El archivo robots.txt incluye uno o más grupos.
  • Cada grupo incluye varias reglas o directivas (instrucciones); una directiva por línea. Cada grupo comienza con una línea User-agent que especifica el destino de los grupos.
  • En el grupo, se detalla la siguiente información:
    • A quién se aplica el grupo (el usuario-agente)
    • A qué directorios o archivos puede acceder ese agente
    • A qué directorios o archivos no puede acceder ese agente
  • Los rastreadores procesan los grupos desde arriba hacia abajo, y un usuario-agente puede coincidir únicamente con un conjunto de reglas, que corresponde al primer grupo más específico que coincide con un usuario-agente determinado.
  • La suposición predeterminada es que un usuario-agente puede rastrear cualquier página o directorio que no esté bloqueado por una regla disallow.
  • Las reglas distinguen mayúsculas de minúsculas. Por ejemplo, disallow: /file.asp aplica para https://www.example.com/file.asp, pero no para https://www.example.com/FILE.asp.
  • El carácter # marca el comienzo de un comentario.

Los rastreadores de Google admiten las siguientes directivas en archivos robots.txt:

  • user-agent: (Obligatorio, uno o más por grupo) La directiva especifica el nombre del cliente automático conocido como rastreador del motor de búsqueda al que se aplica la regla. Esta es la primera línea de todos los grupos de reglas. Los nombres de usuarios-agentes de Google se incluyen en la lista de usuarios-agentes de Google. Si se usa un asterisco (*), se establecerán coincidencias con todos los rastreadores, excepto con los diferentes rastreadores AdsBot, que deben indicarse explícitamente. Por ejemplo:
    # Example 1: Block only Googlebot
    User-agent: Googlebot
    Disallow: /
    
    # Example 2: Block Googlebot and Adsbot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
    
    # Example 3: Block all but AdsBot crawlers
    User-agent: *
    Disallow: /
  • disallow: (Al menos una o más entradas disallow o allow por regla) Corresponde a una página o un directorio relacionados con el dominio raíz que no deseas que el usuario-agente rastree. Si la regla hace referencia a una página, debe ser el nombre completo de la página como se muestra en el navegador. Debe comenzar con un carácter / y, si se refiere a un directorio, debe terminar con la marca /.
  • allow: (Al menos una o más entradas disallow o allow por regla) Corresponde a una página o un directorio relacionados con el dominio raíz que el usuario-agente mencionado puede rastrear. Se usa para anular una directiva disallow y permitir el rastreo de un subdirectorio o una página en un directorio no permitido. En el caso de una sola página, especifica el nombre completo de la página como se muestra en el navegador. En el caso de un directorio, termina la regla con una marca /.
  • sitemap: (Opcional; ninguno o varios por archivo) Es la ubicación de un mapa del sitio para este sitio web. La URL del mapa del sitio debe ser una URL completa; Google no presupone ni verifica alternativas http/https/www.distinto-de-www. Los mapas del sitio son una buena forma de indicar el contenido que debe rastrear Google, a diferencia de aquel que puede o no puede rastrear. Obtén más información sobre los mapas del sitio. Ejemplo:
    Sitemap: https://example.com/sitemap.xml
    Sitemap: http://www.example.com/sitemap.xml

Todas las directivas, excepto sitemap, admiten el comodín * para un prefijo de ruta de acceso, un sufijo o una string completa.

Se ignoran las líneas que no coinciden con ninguna de estas directivas.

Consulta nuestra página sobre la interpretación de Google de las especificaciones de robots.txt para obtener la descripción completa de cada directiva.

Cómo subir el archivo robots.txt

Una vez que hayas guardado el archivo robots.txt en tu computadora, podrás ponerlo a disposición de los rastreadores de los motores de búsqueda. No hay una única herramienta que te sirva para este paso, ya que la manera en que subas el archivo robots.txt a tu sitio dependerá de la arquitectura del sitio y del servidor. Comunícate con tu empresa de hosting o busca su documentación al respecto; por ejemplo, "subir archivos en infomaniak".

Después de subir el archivo robots.txt, prueba si es de acceso público y si Google puede analizarlo.

Cómo probar el lenguaje de marcado robots.txt

Para probar si el archivo robots.txt que acabas de subir es de acceso público, abre una ventana de navegación privada (o equivalente) en tu navegador y ve a la ubicación del archivo robots.txt. Por ejemplo, https://example.com/robots.txt. Si ves el contenido de tu archivo robots.txt, podrás probar el lenguaje de marcado.

Para ello, Google ofrece dos opciones:

  1. La herramienta de prueba de robots.txt en Search Console (solo puedes usarla para archivos robots.txt a los que ya se pueda acceder en tu sitio)
  2. Si eres un desarrollador, consulta y compila la biblioteca robots.txt de código abierto de Google, que también se usa en la Búsqueda de Google. Puedes usar esta herramienta para probar archivos robots.txt de forma local en tu computadora.

Cómo enviar el archivo robots.txt a Google

Una vez que hayas subido y probado el archivo robots.txt, los rastreadores de Google lo encontrarán y usarán automáticamente. No tienes que realizar ninguna acción. Si modificaste el archivo robots.txt y necesitas actualizar la copia almacenada en caché de Google lo antes posible, descubre cómo enviar un archivo robots.txt actualizado.

Reglas útiles de robots.txt

A continuación, detallamos algunas reglas comunes de robots.txt que pueden resultarte útiles:

Reglas útiles
Inhabilitar el rastreo de todo el sitio web

Ten en cuenta que, en determinadas situaciones, se pueden indexar las URL del sitio web, incluso si no se las rastreó.


User-agent: *
Disallow: /
Inhabilitar el rastreo de un directorio y su contenido

Agrega una barra inclinada al nombre del directorio para inhabilitar el rastreo de un directorio completo.


User-agent: *
Disallow: /calendar/
Disallow: /junk/
Permitir acceso a un solo rastreador

Solo googlebot-news puede rastrear todo el sitio.


User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Permitir acceso a todos los rastreadores excepto uno

Unnecessarybot no puede rastrear el sitio, pero todos los demás bots sí.


User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Inhabilitar el rastreo de una sola página web

Por ejemplo, inhabilita la página useless_file.html.


User-agent: *
Disallow: /useless_file.html

Bloquear el uso de una imagen específica en Google Imágenes

Por ejemplo, inhabilita la imagen dogs.jpg.


User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Bloquear el uso de todas las imágenes de tu sitio en Google Imágenes

Google no puede indexar imágenes ni videos sin rastrearlos.


User-agent: Googlebot-Image
Disallow: /

Inhabilitar el rastreo de un tipo específico de archivos

Por ejemplo, inhabilita el rastreo de todos los archivos .gif.


User-agent: Googlebot
Disallow: /*.gif$

Inhabilitar el rastreo de todo el sitio, pero permitir Mediapartners-Google

Esta implementación oculta tus páginas de los resultados de la Búsqueda, pero el rastreador web Mediapartners-Google puede analizarlas para decidir qué anuncios mostrarles a los visitantes de tu sitio.


User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Usa $ para segmentar URL que terminan con una string específica

Por ejemplo, inhabilita todos los archivos .xls.


User-agent: Googlebot
Disallow: /*.xls$