Googlebot

El robot de Google es el nombre genérico de los dos tipos de rastreadores web que utiliza la Búsqueda de Google:

Puedes saber cuál te ha rastreado consultando el encabezado de solicitud HTTP user-agent. Como ambos rastreadores siguen las reglas del mismo token de producto (token de user-agent) de robots.txt, no puedes elegir de forma exclusiva a uno u otro en tu archivo robots.txt.

En la mayoría de los sitios, la Búsqueda de Google indexa principalmente la versión para móviles del contenido. Por tanto, la mayor parte de las solicitudes de rastreo del robot de Google se harán a través del rastreador para móviles, y solo una parte muy pequeña provendrá del rastreador para ordenadores.

Cómo accede el robot de Google a los sitios

De media, el robot de Google no suele acceder a la mayoría de los sitios más de una vez cada pocos segundos. Sin embargo, si se producen retrasos, puede que esta frecuencia de rastreo aumente ligeramente durante breves periodos. Si tu sitio tiene problemas para soportar todas las solicitudes de rastreo de Google, puedes reducir la frecuencia de rastreo.

El robot de Google puede rastrear los primeros 15 MB de archivos HTML o de archivos de texto compatibles. Cada recurso al que se hace referencia en el HTML, como CSS y JavaScript, se obtiene por separado, y cada obtención está sujeta al mismo límite de tamaño de archivo. Después de los primeros 15 MB del archivo, el robot de Google deja de rastrear y solo tiene en cuenta los primeros 15 MB del archivo para indexarlo. El límite de tamaño de archivo se aplica a los datos sin comprimir. Es posible que otros rastreadores de Google, como el robot de Google para vídeos y el robot de Google para imágenes, tengan límites diferentes.

Cuando se rastrea desde direcciones IP de EE. UU., la zona horaria del robot de Google es la hora del Pacífico.

Se describen otras propiedades técnicas del robot de Google en la descripción general de los rastreadores de Google.

Impedir que el robot de Google acceda a un sitio

El robot de Google descubre nuevas URLs que rastrear principalmente a partir de enlaces insertados en páginas rastreadas anteriormente. Resulta prácticamente imposible no publicar enlaces a un sitio para mantenerlo en secreto. Por ejemplo, en el momento en que un usuario haga clic en un enlace de tu sitio "secreto" para acceder a otro sitio, tu URL "secreta" podrá aparecer en la etiqueta de referencia, y el otro sitio podrá almacenarla y publicarla en su registro de referencia.

Si no quieres que el robot de Google rastree contenido de tu sitio, tienes varias opciones. Recuerda que hay una diferencia entre el rastreo y la indexación. Si bloqueas el rastreo del robot de Google en una página, no se impide que la URL de la página aparezca en los resultados de búsqueda:

Bloquear al robot de Google afecta a la Búsqueda de Google (incluidas Discover y todas las funciones de la Búsqueda de Google), así como a otros productos como Google Imágenes, Google Vídeo y Google News.

Comprobar que sea el robot de Google

Hay rastreadores que falsifican el encabezado de solicitud HTTP user-agent del robot de Google, por lo que, antes de bloquearlo, comprueba que las solicitudes problemáticas que detectes de verdad procedan de Google. La mejor forma de hacerlo es mediante una petición de DNS invertida de la IP de origen de la solicitud o comparando la IP de origen con los intervalos de IP del robot de Google.