Preguntas frecuentes sobre robots

Preguntas generales sobre robots

¿Mi sitio web necesita un archivo robots.txt?

No. Cuando Googlebot visita un sitio web, primero pedimos permiso para rastrearlo intentando recuperar el archivo robots.txt. Por lo general, un sitio web sin un archivo robots.txt, una etiqueta robots meta o los encabezados HTTP X-Robots-Tag se rastrean y se indexan con normalidad.

¿Qué método debo usar para bloquear rastreadores?

Depende. Hay buenas razones para usar cualquiera de estos métodos:

  • robots.txt: Úsalo si rastrear tu contenido genera problemas en tu servidor. Por ejemplo, quizás quieres inhabilitar el rastreo de secuencias de comandos infinitas de calendarios. No uses robots.txt para controlar la canonicalización ni bloquear contenido privado (para esto, usa la autenticación del servidor). Si quieres asegurarte de que no se indexe una URL, utiliza la etiqueta robots meta o el encabezado HTTP X-Robots-Tag.
  • Etiqueta robots meta: Úsala si tienes que controlar cómo se muestra una página HTML individual en los resultados de la búsqueda o para asegurarte de que no aparezca.
  • Encabezado HTTP X-Robots-Tag: Úsalo si necesitas controlar cómo aparece el contenido en los resultados de la Búsqueda o para asegurarte de que no aparezca.

¿Puedo usar robots.txt, la etiqueta robots meta o el encabezado HTTP X-Robots-Tag para quitar el sitio de un tercero de los resultados de la búsqueda?

No. Estos métodos solo se aplican a sitios en los que puedes modificar el código o agregar archivos. Descubre cómo quitar información de Google.

¿Cómo puedo reducir la frecuencia con la que Google rastrea mi sitio?

Por lo general, puedes ajustar la configuración de la frecuencia de rastreo en tu cuenta de Google Search Console.

Preguntas sobre robots.txt

Uso el mismo archivo robots.txt para distintos sitios web. ¿Puedo usar una URL completa en lugar de una ruta de acceso relativa?

No. Las reglas incluidas en el archivo robots.txt (excepto sitemap:) solo son válidas para las rutas relativas.

¿Puedo colocar el archivo robots.txt en un subdirectorio?

No. El archivo tiene que colocarse en el directorio principal del sitio web.

Quiero bloquear una carpeta privada. ¿Puedo impedir que otros usuarios lean mi archivo robots.txt?

No. Los usuarios pueden leer el archivo robots.txt. Si tienes carpetas o nombres de archivos de contenido que no quieres que sean públicos, no los incluyas en el archivo robots.txt. No se recomienda publicar distintos archivos robots.txt en función del usuario-agente ni otros atributos.

¿Tengo que incluir una regla allow para habilitar el rastreo?

No, no es necesario incluir una regla allow. Todas las URLs se permiten de forma implícita, y la regla allow se usa para anular reglas disallow que estén en el mismo archivo robots.txt.

¿Qué sucede si hay un error en mi archivo robots.txt o uso una regla no compatible?

Por lo general, los rastreadores web son muy flexibles y no se verán afectados por errores menores en el archivo robots.txt. Lo peor que puede suceder es que se ignoren regla incorrectas o no compatibles. Sin embargo, ten en cuenta que en Google no podemos adivinar tus intenciones a la hora de interpretar archivos robots.txt, sino que debemos guiarnos por el contenido de los archivos que recuperamos tal como aparece. De todas formas, si eres consciente de que hay problemas en tu archivo robots.txt, recuerda que, en general, es fácil solucionarlos.

¿Qué programa debo usar para crear un archivo robots.txt?

Puedes usar cualquier programa que te permita crear un archivo de texto válido. Los más comunes son Notepad, TextEdit, emacs y vi. Obtén más información para crear archivos robots.txt. Después de crear el archivo, valídalo con la herramienta de prueba de robots.txt.

Si impido que Google rastree una página mediante una regla disallow en el archivo robots.txt, ¿desaparecerá de los resultados de la búsqueda?

Si impides que Google rastree una página, es probable que se quite del índice de Google.

Sin embargo, la directiva disallow de robots.txt no garantiza que una página no aparezca en los resultados: en función de información externa, como vínculos entrantes, Google podría decidir que la página es relevante y mostrar la URL en los resultados. Si quieres impedir explícitamente que se indexe una página, usa la etiqueta noindex robots meta o el encabezado HTTP X-Robots-Tag. En este caso, no inhabilites la página en el archivo robots.txt, ya que esta debe rastrearse para que se vea y respete la etiqueta. Obtén más información para controlar lo que compartes con Google.

¿Cuánto tardan en verse reflejados los cambios de mi archivo robots.txt en los resultados de la Búsqueda?

Primero, debe actualizarse la caché del archivo robots.txt (generalmente, almacenamos los contenidos en caché durante un día como máximo). Puedes acelerar este proceso si envías el archivo robots.txt actualizado a Google. Incluso después de encontrar el cambio, el rastreo y la indexación son procesos complicados que, a veces, lleva tiempo completar en URL individuales, por lo que es imposible calcular un cronograma exacto. Además, ten en cuenta que, aunque tu archivo robots.txt inhabilite el acceso a una URL, es posible que esta permanezca visible en los resultados de la Búsqueda a pesar de que no podamos rastrearla. Si quieres acelerar el proceso de eliminación de las páginas que bloqueaste en Google, envía una solicitud de eliminación.

¿Cómo puedo suspender temporalmente todo el rastreo de mi sitio web?

Puedes suspender de forma temporal todo el rastreo mostrando un código de estado HTTP 503 (service unavailable) para todas las URL, incluido el archivo robots.txt. El archivo robots.txt se volverá a probar periódicamente hasta que se recupere el acceso. No recomendamos cambiar el archivo robots.txt para inhabilitar el rastreo.

Mi servidor no distingue mayúsculas de minúsculas. ¿Cómo puedo inhabilitar completamente el rastreo de algunas carpetas?

Las regla del archivo robots.txt distinguen mayúsculas de minúsculas. En ese caso, asegúrate de que solo una versión de la URL esté indexada mediante métodos de canonicalización. Así podrás tener menos líneas en tu archivo robots.txt y te será más fácil administrarlo. De no ser posible, te recomendamos que hagas una lista de las combinaciones comunes del nombre de la carpeta o que lo acortes tanto como puedas usando solo algunos caracteres en lugar del nombre completo. Por ejemplo, en lugar de enumerar todas las combinaciones de minúsculas y mayúsculas de /MyPrivateFolder, puedes enumerar todas las combinaciones de /MyP (si sabes con certeza que no existen otras URL rastreables con esos mismos caracteres al inicio). De forma alternativa, si el rastreo no es un problema, podría tener sentido usar una etiqueta robots meta o un encabezado HTTP X-Robots-Tag.

Mi código muestra 403 Forbidden para todas las URLs, incluido el archivo robots.txt. ¿Por qué se sigue rastreando el sitio?

El código de estado HTTP 403 Forbidden, como otros códigos de estado HTTP 4xx, se interpretan como si el archivo robots.txt no existiera. Por lo tanto, los rastreadores generalmente suponen que pueden rastrear todas las URL del sitio web. Para impedir el rastreo del sitio web, el archivo robots.txt debe mostrar el código de estado HTTP 200 OK y debe contener una regla disallow apropiada.

Preguntas sobre la etiqueta robots meta

¿La etiqueta robots meta reemplaza el archivo robots.txt?

No. El archivo robots.txt controla a qué páginas es posible acceder. La etiqueta robots meta controla si una página está indexada, pero para ver esta etiqueta, la página debe rastrearse. Si se encuentran problemas a la hora de rastrear una página (por ejemplo, si la página genera una sobrecarga en el servidor), usa el archivo robots.txt. Por otro lado, puedes usar la etiqueta robots meta si solo quieres establecer si una página se mostrará o no en los resultados de la búsqueda.

¿Se puede usar la etiqueta robots meta para bloquear parte de una página a fin de que no se la indexe?

No, la etiqueta robots meta es una configuración de nivel de página.

¿Puedo usar la etiqueta robots meta fuera de una sección <head>?

No, la etiqueta robots meta debe estar en la sección <head> de una página.

¿La etiqueta robots meta no permite el rastreo?

No. Aunque la etiqueta robots meta actualmente diga noindex, tendremos que volver a rastrear esa URL de forma ocasional para verificar si cambió la etiqueta meta.

¿Cómo se compara la etiqueta nofollow robots meta con el atributo rel="nofollow" del vínculo?

La etiqueta nofollow robots meta se aplica a todos los vínculos de una página. El atributo rel="nofollow" del vínculo solo se aplica a vínculos específicos de una página. Para obtener más información sobre el atributo rel="nofollow" del vínculo, consulta nuestra documentación sobre spam generado por usuarios y rel="nofollow".

Preguntas sobre el encabezado HTTP X-Robots-Tag

¿Cómo puedo buscar la X-Robots-Tag para una URL?

Una forma simple de ver los encabezados del servidor es usar la función de la Herramienta de inspección de URL en Google Search Console. Para verificar los encabezados de respuesta de cualquier URL, prueba buscar un "verificador de encabezados del servidor".