Googlebot

Googlebot es el nombre genérico de los dos tipos de rastreadores web de Google:

Puedes identificar el subtipo de Googlebot mediante el encabezado de la solicitud HTTPuser-agent en la solicitud. Sin embargo, ambos tipos de rastreadores obedecen al mismo token de producto (token usuario-agente) en robots.txt. Por ese motivo, no puedes elegir de forma exclusiva a Googlebot para smartphones o Googlebot para computadoras de escritorio a través de robots.txt.

En la mayoría de los sitios, Google indexa principalmente la versión para dispositivos móviles del contenido. Por lo tanto, la mayor parte de las solicitudes de rastreo de Googlebot se harán a través del rastreador para dispositivos móviles, y una parte mucho menor provendrá del rastreador para computadoras de escritorio.

Cómo accede Googlebot a tu sitio

En promedio, no es frecuente que Googlebot acceda a los sitios más de una vez cada pocos segundos. Sin embargo, si se producen retrasos, es posible que la frecuencia parezca ligeramente superior durante períodos breves.

Googlebot está diseñado para ejecutarse de manera simultánea en miles de equipos con el objetivo de mejorar el rendimiento y ajustarse al crecimiento de la Web. Además, para reducir el consumo del ancho de banda, muchos rastreadores se ejecutan en equipos que están cerca de los sitios que tienen posibilidades de rastrear. Por lo tanto, es factible que, en tus registros, se muestren visitas de varias direcciones IP, todas con el usuario-agente de Googlebot. Nuestro objetivo es rastrear la mayor cantidad posible de páginas de tu sitio en cada visita sin sobrecargar el servidor. Si tu sitio tiene problemas para soportar las solicitudes de rastreo de Google, puedes reducir la frecuencia de rastreo.

Googlebot rastrea más que nada desde direcciones IP en Estados Unidos. En caso de que Googlebot detecte que un sitio bloquea las solicitudes de Estados Unidos, puede intentar hacer el rastreo desde direcciones IP ubicadas en otros países. La lista de bloques de direcciones IP que usa Googlebot en la actualidad está disponible en formato JSON.

Googlebot rastrea con HTTP/1.1 y, si el sitio lo admite, con HTTP/2. No hay ningún beneficio de clasificación basado en la versión del protocolo que se usa para rastrear tu sitio. Sin embargo, el rastreo a través de HTTP/2 puede ahorrar recursos informáticos (como la CPU o la RAM) en tu sitio y al Googlebot.
Para inhabilitar el rastreo con HTTP/2, indícale al servidor donde se aloja tu sitio que responda con un código de estado HTTP 421 cuando Googlebot intente rastrearlo con HTTP/2. Si eso no es posible, puedes enviar un mensaje al equipo de Googlebot (aunque esta solución es temporal).

Googlebot puede rastrear los primeros 15 MB de los archivo HTML o de los archivos basados en texto compatibles. Cada recurso al que se hace referencia en el código HTML, como CSS y JavaScript, se recupera por separado, y cada recuperación está vinculada por el mismo límite de tamaño de archivo. Después de los primeros 15 MB del archivo, Googlebot deja de rastrear y solo tiene en cuenta los primeros 15 MB del archivo para indexarlo. El límite de tamaño de archivo se aplica a los datos sin comprimir. Es posible que otros rastreadores de Google, como Googlebot para imágenes y Googlebot para videos, tengan límites diferentes.

Cuando el rastreo proviene de direcciones IP de EE.UU., se toma como referencia la zona horaria de la hora del Pacífico.

Cómo bloquear a Googlebot en tu sitio

Es casi imposible mantener un sitio en secreto, aunque no publiques vínculos que lleven a él. Por ejemplo, una vez que alguien sigue un vínculo de tu sitio "secreto" a otro, puede aparecer la URL de tu sitio "secreto" en la etiqueta de URL de referencia, y el otro sitio puede almacenarla y publicarla en su registro de URL de referencia.

Si no quieres que Googlebot rastree contenido de tu sitio, tienes varias opciones para evitarlo. Ten en cuenta las diferencias entre evitar que Googlebot rastree una página, evitar que la indexe y evitar que ni los rastreadores ni los usuarios puedan acceder a ella.

Cómo verificar Googlebot

Antes de bloquear a Googlebot, ten en cuenta que otros rastreadores suelen falsificar el encabezado de la solicitud HTTP user-agent que usa Googlebot. Por lo tanto, es importante que verifiques si una solicitud problemática realmente proviene de Google. La mejor forma de verificar si una solicitud proviene de Googlebot es usar una búsqueda de DNS inversa de la dirección IP de origen de la solicitud o comparar la dirección IP de origen con los rangos de IP de Googlebot.