Cómo escribir y enviar un archivo robots.txt
Con un archivo robots.txt, puedes controlar los archivos a los que tienen acceso los rastreadores en tu sitio.
En la raíz de tu sitio, hay un archivo robots.txt. Por ejemplo, para el sitio www.example.com
, el archivo robots.txt se encuentra en www.example.com/robots.txt
. El archivo robots.txt es un archivo de texto sin formato que cumple con el estándar de exclusión de robots.
Este incluye una o más reglas. Cada regla bloquea o permite el acceso que todos o un rastreador determinado tenga a una ruta de archivo específica en el dominio o subdominio en el que se aloja el archivo robots.txt. A menos que especifiques lo contrario en el archivo robots.txt, se permite, de manera implícita, que se rastreen todos los archivos.
A continuación, se detalla un ejemplo de archivo robots.txt simple con dos reglas:
User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml
Significado del archivo robots.txt:
-
El usuario-agente llamado Googlebot no tiene permiso para rastrear ninguna URL que comience con
https://example.com/nogooglebot/
. - Los otros usuarios-agentes pueden rastrear todo el sitio. Esta acción podría haberse omitido, y el resultado hubiera sido el mismo, ya que el comportamiento predeterminado es que los usuarios-agentes puedan rastrear todo el sitio.
-
El archivo de mapa del sitio se encuentra en
https://www.example.com/sitemap.xml
.
Consulta la sección Sintaxis para ver más ejemplos.
Lineamientos básicos para crear un archivo robots.txt
Para crear un archivo robots.txt, y lograr que sea útil y de acceso público, debes seguir estos cuatro pasos:
- Crea un archivo llamado robots.txt.
- Agrega reglas al archivo robots.txt.
- Sube el archivo robots.txt a la raíz del sitio.
- Prueba el archivo robots.txt.
Cómo crear un archivo robots.txt
Puedes usar prácticamente cualquier editor de texto para crear un archivo robots.txt. Por ejemplo, Notepad, TextEdit, vi y emacs pueden crear archivos robots.txt válidos. No utilices un procesador de texto, ya que suelen guardar archivos en un formato propio y es posible que agreguen caracteres inesperados, como comillas curvas, lo que puede generar un problema para los rastreadores. Asegúrate de guardar el archivo con codificación UTF-8 si se solicita en el diálogo de cierre del archivo.
Reglas de formato y ubicación:
- El archivo debe denominarse robots.txt.
- Tu sitio solo puede contener un archivo robots.txt.
-
El archivo robots.txt tiene que estar ubicado en la raíz del host del sitio web para el que se creó. Por ejemplo, para controlar el rastreo en todas las URLs debajo de
https://www.example.com/
, el archivo robots.txt debe estar ubicado enhttps://www.example.com/robots.txt
. No se puede ubicar en un subdirectorio (por ejemplo, enhttps://example.com/pages/robots.txt
). Si tienes dudas sobre la forma de acceder a la raíz de tu sitio web o necesitas permisos para hacerlo, comunícate con el proveedor de servicios de hosting web. Si no puedes acceder a la raíz de tu sitio, usa un método alternativo de bloqueo, como las etiquetasmeta
. -
Se puede publicar un archivo robots.txt en un subdominio (por ejemplo,
https://site.example.com/robots.txt
) o en puertos no estándar (por ejemplo,https://example.com:8181/robots.txt
). - El archivo robots.txt se aplica únicamente a las rutas de acceso del protocolo, host y puerto donde esté publicado. Es decir, las reglas de
https://example.com/robots.txt
se aplican solo a los archivoshttps://example.com/
, no a subdominios, comohttps://m.example.com/
, o a protocolos alternativos, comohttp://example.com/
. - El archivo robots.txt debe ser un archivo de texto con codificación UTF-8 (que incluye ASCII). Google puede ignorar los caracteres que no forman parte del rango UTF-8, por lo que es posible que considere las reglas de robots.txt como no válidas.
Cómo escribir reglas de robots.txt
Las reglas son instrucciones que les indican a los rastreadores qué partes de tu sitio pueden rastrear. Sigue estos lineamientos cuando agregues reglas al archivo robots.txt:
- El archivo robots.txt incluye uno o más grupos (conjunto de reglas).
-
Cada grupo incluye varias reglas (también conocidas como directivas), una para cada línea. Cada grupo comienza con una línea
User-agent
que especifica el destino de los grupos. - En el grupo se detalla la siguiente información:
- A quién se aplica el grupo (el usuario-agente)
- A qué directorios o archivos puede acceder ese agente
- A qué directorios o archivos no puede acceder ese agente
- Los rastreadores procesan los grupos desde arriba hacia abajo, y un usuario-agente puede coincidir únicamente con un conjunto de reglas correspondiente al primer grupo más específico que coincide con un usuario-agente determinado. Si hay varios grupos para el mismo usuario-agente, estos se combinarán en uno solo antes del procesamiento.
- La suposición predeterminada es que un usuario-agente puede rastrear cualquier página o directorio que no esté bloqueado por una regla
disallow
. -
Las reglas distinguen mayúsculas de minúsculas. Por ejemplo,
disallow: /file.asp
aplica parahttps://www.example.com/file.asp
, pero no parahttps://www.example.com/FILE.asp
. -
El carácter
#
marca el comienzo de un comentario. Los comentarios se ignoran durante el procesamiento.
Los rastreadores de Google admiten las siguientes reglas en archivos robots.txt:
-
user-agent:
[Obligatorio, uno o más por grupo] La regla especifica el nombre del cliente automático conocido como rastreador del motor de búsqueda al que se aplica la regla. Esta es la primera línea de todos los grupos de reglas. Los nombres de usuarios-agentes de Google se incluyen en la lista de usuarios-agentes de Google. Si se usa un asterisco (*
), se establecerán coincidencias con todos los rastreadores, excepto con los diferentes rastreadores AdsBot, que deben indicarse explícitamente. Por ejemplo:# Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot and Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly) User-agent: * Disallow: /
-
disallow:
[Al menos una o más entradasdisallow
oallow
por regla] Corresponde a un directorio o página, en relación con el dominio raíz, que no deseas que rastree el usuario-agente. Si la regla hace referencia a una página, debe ser el nombre completo de la página como se muestra en el navegador. Debe comenzar con un carácter/
y, si se refiere a un directorio, debe terminar con la marca/
. -
allow:
[Por lo menos, una entradadisallow
oallow
por regla] Corresponde a un directorio o una página que se relaciona con el dominio raíz y que el usuario-agente mencionado puede rastrear. Se usa para anular una regladisallow
y permitir el rastreo de un subdirectorio o de una página en un directorio no permitido. En el caso de una sola página, especifica el nombre completo de la página como se muestra en el navegador. Debe comenzar con un carácter/
y, si se refiere a un directorio, debe terminar con la marca/
. -
sitemap:
[Opcional, ninguno o varios por archivo] Es la ubicación de un mapa del sitio para este sitio. La URL del mapa del sitio debe ser una URL completa; Google no presupone ni verifica alternativas de http/https/www.diferente-de-www. Los mapas del sitio son una buena forma de indicar el contenido que debe rastrear Google en lugar de aquel que puede o no puede rastrear. Obtén más información sobre los mapas del sitio. Ejemplo:Sitemap: https://example.com/sitemap.xml Sitemap: https://www.example.com/sitemap.xml
Todas las reglas, excepto sitemap
, admiten el comodín *
para un prefijo o sufijo de ruta de acceso, o bien una cadena completa.
Se ignoran las líneas que no coinciden con ninguna de estas reglas.
Consulta nuestra página sobre la interpretación de Google de las especificaciones de robots.txt para obtener la descripción completa de cada regla.
Cómo subir el archivo robots.txt
Una vez que hayas guardado el archivo robots.txt en tu computadora, podrás ponerlo a disposición de los rastreadores de los motores de búsqueda. No hay una única herramienta que pueda ayudarte con este paso, ya que la manera en que subas el archivo robots.txt a tu sitio dependerá de la arquitectura del sitio y del servidor. Comunícate con tu empresa de hosting o busca su documentación al respecto; por ejemplo, "subir archivos en infomaniak".
Después de subir el archivo robots.txt, prueba si es de acceso público y si Google puede analizarlo.
Cómo probar el lenguaje de marcado robots.txt
Para probar si el archivo robots.txt que acabas de subir es de acceso público, abre una ventana de navegación privada (o equivalente) en tu navegador y ve a la ubicación del archivo robots.txt. Por
ejemplo, https://example.com/robots.txt
. Si ves el contenido de tu archivo robots.txt, podrás probar el lenguaje de marcado.
Google ofrece dos opciones para solucionar problemas relacionados con el lenguaje de marcado robots.txt:
- El informe de robots.txt en Search Console que solo puedes usar para archivos robots.txt a los que ya se pueda acceder en tu sitio.
- Si eres un desarrollador, consulta y compila la biblioteca robots.txt de código abierto de Google, que también se usa en la Búsqueda de Google. Puedes usar esta herramienta para probar archivos robots.txt de forma local en tu computadora.
Cómo enviar el archivo robots.txt a Google
Una vez que hayas subido y probado el archivo robots.txt, los rastreadores de Google lo encontrarán y usarán automáticamente. No tienes que realizar ninguna acción. Si modificaste el archivo robots.txt y necesitas actualizar la copia almacenada en caché de Google lo antes posible, descubre cómo enviar un archivo robots.txt actualizado.
Reglas útiles de robots.txt
A continuación, detallamos algunas reglas comunes de robots.txt que pueden resultarte útiles:
Reglas útiles | |
---|---|
Inhabilitar el rastreo de todo el sitio |
Ten en cuenta que, en determinadas situaciones, se pueden indexar las URL del sitio, incluso si no se las rastreó. User-agent: * Disallow: / |
Inhabilita el rastreo de un directorio y su contenido. |
Agrega una barra inclinada al nombre del directorio para inhabilitar el rastreo de un directorio completo. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
Permitir acceso a un solo rastreador |
Solo User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
Permitir acceso a todos los rastreadores excepto uno |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
Inhabilitar el rastreo de una sola página web |
Por ejemplo, inhabilita la página User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
Inhabilitar el rastreo de todo el sitio, excepto de un subdirectorio |
Los rastreadores solo pueden acceder al subdirectorio User-agent: * Disallow: / Allow: /public/ |
Bloquear el uso de una imagen específica en Google Imágenes |
Por ejemplo, inhabilita la imagen User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
Bloquear el uso de todas las imágenes de tu sitio en Google Imágenes |
Google no puede indexar imágenes ni videos sin rastrearlos. User-agent: Googlebot-Image Disallow: / |
Inhabilitar el rastreo de un tipo específico de archivos |
Por ejemplo, inhabilita el rastreo de todos los archivos User-agent: Googlebot Disallow: /*.gif$ |
Inhabilitar el rastreo de todo el sitio, pero permitir |
Con esta implementación, se ocultan tus páginas de los resultados de la búsqueda, pero el rastreador web User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
Usa los comodines * y $ para hacer coincidir las URLs que terminan con una cadena específica
|
Por ejemplo, inhabilita todos los archivos User-agent: Googlebot Disallow: /*.xls$ |