Una amplia guía para que los propietarios de sitios administren su presupuesto de rastreo

En esta guía se describe cómo optimizar el rastreo de Google de sitios muy grandes y que se actualizan con frecuencia.

Si tu sitio no tiene una gran cantidad de páginas que cambian rápidamente, o si estas parecen rastrearse el mismo día que se publican, no es necesario que leas esta guía. Solo mantén actualizado tu mapa del sitio y revisa la cobertura de la indexación de forma periódica.

Si tienes contenido que estuvo disponible durante un tiempo, pero que nunca se indexó, este es un problema diferente. Usa la Herramienta de inspección de URL para averiguar por qué no se está indexando tu página.

¿A quién está dirigida esta guía?

Esta es una guía avanzada que se diseñó para los siguientes sitios:

  • Sitios grandes (más de 1 millón de páginas únicas) con contenido que cambia con cierta frecuencia (una vez a la semana)
  • Sitios medianos o grandes (más de 10,000 páginas únicas) con contenido que cambia muy rápidamente (a diario)
  • Sitios con una gran parte del total de sus URLs clasificadas por Search Console como Descubre (actualmente sin indexar)

Teoría general del rastreo

La Web es un espacio casi infinito que excede la capacidad de Google para explorar e indexar todas las URLs disponibles. Por lo tanto, el tiempo que Googlebot puede destinar a rastrear cada sitio es limitado. La cantidad de tiempo y recursos que destina Google a rastrear un sitio se suele denominar presupuesto de rastreo. Ten en cuenta que no todo el contenido rastreado de tu sitio necesariamente será indexado; cada página debe analizarse, unificarse y evaluarse a fin de definir si se indexará luego de su rastreo.

Hay dos elementos principales que determinan el presupuesto de rastreo: el límite de la capacidad de rastreo y la demanda de rastreo.

Límite de la capacidad de rastreo

Googlebot desea rastrear tu sitio sin sobrecargar tus servidores. Para evitarlo, Googlebot calcula un límite de la capacidad de rastreo, que es la cantidad máxima de conexiones paralelas simultáneas que Googlebot puede usar para rastrear un sitio, así como el retraso entre recuperaciones. Ese cálculo permite la cobertura de todo el contenido importante sin sobrecargar tus servidores.

El límite de la capacidad de rastreo puede aumentar o disminuir según ciertos factores:

  • Estado del rastreo: Si el sitio responde rápidamente durante un tiempo, el límite aumentará, lo que implica que se podrán usar más conexiones para rastrear. Si el sitio se ralentiza o si responde con errores de servidor, el límite disminuirá, y Googlebot rastreará menos.
  • Límites de rastreo de Google: Google tiene una gran cantidad de máquinas, pero no son infinitas. Debemos tomar decisiones en función de los recursos que tenemos.

Demanda de rastreo

Por lo general, Google dedica el tiempo que sea necesario a rastrear un sitio, según su tamaño, la frecuencia de actualización, la calidad de sus páginas y la relevancia, en comparación con otros sitios.

Los factores que desempeñan un papel importante a los efectos de determinar la demanda de rastreo son los siguientes:

  • Inventario percibido: Si no le indicas lo contrario, Googlebot intentará rastrear todas o la mayoría de las URLs que conoce de tu sitio. Si muchas de esas URLs están duplicadas o por algún otro motivo no quieres rastrearlas (porque se quitaron, porque tienen poca importancia, etc.), Google desperdiciará mucho tiempo de rastreo en tu sitio. Este es el factor que más puedes controlar a tu favor.
  • Popularidad: Las URLs más populares de Internet tienden a rastrearse con mayor frecuencia a fin de mantenerlas actualizadas en nuestro índice.
  • Obsolescencia: Nuestros sistemas volverán a rastrear los documentos con la frecuencia suficiente para detectar cualquier cambio.

Además, los eventos que afectan a todo el sitio, como sus traslados, pueden provocar un aumento en la demanda de rastreo a fin de volver a indexar el contenido en las URLs nuevas.

En resumen

En función de la capacidad de rastreo y su demanda, Google define el presupuesto de rastreo de un sitio como el conjunto de URLs que podrá rastrear Googlebot. Aunque no se alcance el límite de la capacidad de rastreo, si la demanda de este es baja, Googlebot rastreará tu sitio con menor frecuencia.

Prácticas recomendadas

Sigue estas prácticas recomendadas a fin de maximizar tu eficiencia de rastreo:

  • Administra tu inventario de URL: Usa las herramientas adecuadas para indicarle a Google qué páginas rastrear y cuáles no. Si Google dedica mucho tiempo a rastrear URLs que no son apropiadas para el índice, Googlebot podría determinar que no vale la pena destinar tiempo a revisar el resto de tu sitio (o podría aumentar el presupuesto para hacerlo).
    • Consolida el contenido duplicado. Elimina el contenido duplicado para centrar el rastreo en contenido único, en lugar de hacerlo en URLs únicas.
    • Bloquea el rastreo de las URLs usando robots.txt. Algunas páginas pueden ser importantes para los usuarios, pero no necesariamente quieres que aparezcan en los resultados de la Búsqueda. Por ejemplo, las páginas de desplazamiento infinito que duplican información en páginas vinculadas o las versiones ordenadas de manera diferente de la misma página. Si no puedes consolidarlas como se describe en la primera viñeta, usa robots.txt para bloquear estas páginas sin importancia (para la búsqueda). Si bloqueas las URLs con robots.txt, disminuirá de forma significativa la probabilidad de que se indexen.
    • Muestra un código de estado 404 o 410 para páginas que se quitaron de forma permanente. Google no olvidará una URL que conozca, pero un código de estado 404 es un indicador claro para no volver a rastrear esa URL. Sin embargo, las URLs bloqueadas permanecerán en la cola de rastreo durante mucho más tiempo y se volverán a rastrear cuando se quite el bloqueo.
    • Elimina los soft 404 errores. Se seguirán rastreando las páginas soft 404, y se desperdiciará tu presupuesto. Consulta el Informe de cobertura de la indexación para comprobar si hay errores soft 404.
    • Mantén actualizados tus mapas del sitio. Google lee tu mapa del sitio con regularidad, así que asegúrate de incluir todo el contenido que deseas que Google rastree. Si tu sitio incluye contenido actualizado, te recomendamos incluir la etiqueta <lastmod>.
    • Evita las cadenas de redireccionamiento largas, que tienen un efecto negativo en el rastreo.
  • Haz que tus páginas se carguen de forma eficiente. Si Google carga y procesa tus páginas más rápido, es probable que podamos leer más contenido del sitio.
  • Supervisa el rastreo de tu sitio. Supervisa si tu sitio tuvo problemas de disponibilidad durante el rastreo y busca maneras de que este sea más eficaz.

Supervisa el rastreo y la indexación de tu sitio

Sigue estos pasos clave para supervisar el perfil de rastreo de tu sitio:

  1. Comprueba si Googlebot actualmente detecta problemas de disponibilidad en tu sitio
  2. Revisa si no se están rastreando algunas páginas que sí deberían rastrearse.
  3. Revisa si alguna parte de tu sitio debería rastrearse más rápido que lo que ya se está haciendo.
  4. Mejora la eficiencia del rastreo de tu sitio.
  5. Controla el rastreo excesivo de tu sitio.

Comprueba si Googlebot actualmente detecta problemas de disponibilidad en tu sitio

Mejorar la disponibilidad de tu sitio no necesariamente aumentará el presupuesto de rastreo; Google determina la mejor frecuencia de rastreo en función de su demanda, como se describió anteriormente. Sin embargo, los problemas de disponibilidad no permiten que Google rastree tu sitio tanto como quisiera.

Diagnóstico:

Usa el informe de estadísticas de rastreo para ver el historial de rastreo de Googlebot correspondiente a tu sitio. En ese informe se muestra cuándo Google detectó problemas de disponibilidad. Si se informan errores o advertencias de disponibilidad en tu sitio, busca instancias en los gráficos de disponibilidad del host en los que las solicitudes de Googlebot superen la línea roja que marca el límite, haz clic en el gráfico para ver qué URL fallaron e intenta correlacionarlas con problemas en el sitio.

Además, puedes usar la Herramienta de inspección de URLs para probar algunas URLs en tu sitio. Si la herramienta muestra advertencias como Se excedió la carga del host, significa que Googlebot no puede rastrear tantas URLs de tu sitio como había descubierto.

Solución:

  • Lee la documentación sobre el informe de estadísticas de rastreo a fin de obtener información para encontrar y resolver algunos problemas de disponibilidad.
  • Bloquea el rastreo de las páginas que no quieres que se rastreen. (Consulta cómo administrar tu inventario).
  • Aumenta la velocidad de carga y procesamiento de la página. (Consulta Cómo mejorar la eficacia de rastreo de tu sitio).
  • Aumenta la capacidad de tu servidor. Si parece que Google siempre rastrea tu sitio al límite de su capacidad de entrega, pero tienes URLs importantes que no se rastrean ni actualizan con la frecuencia necesaria, aumentar los recursos de entrega podría permitir que Google solicite más páginas de tu sitio. Revisa el historial de disponibilidad de tu host en el informe de estadísticas de rastreo para ver si la frecuencia de rastreo de Google parece cruzar el límite con frecuencia. Si es así, aumenta los recursos de entrega durante un mes y verifica si las solicitudes de rastreo aumentaron durante ese mismo período.

Verifica si no se está rastreando alguna parte de tu sitio que sí debería rastrearse

Google dedica el tiempo que sea necesario en tu sitio para indexar todo el contenido que encuentre de alta calidad y valioso para el usuario. Si crees que a Googlebot le falta rastrear contenido importante, es probable que no sepa de su existencia, que el contenido esté bloqueado para Google o que la disponibilidad de tu sitio esté limitando el acceso de Google (o bien Google está intentando no sobrecargar tu sitio).

Diagnóstico:

Search Console no proporciona un historial de rastreo para tu sitio que se pueda filtrar por URL o ruta de acceso, pero puedes inspeccionar los registros de tu sitio a fin de ver si Googlebot rastreó URLs específicas. Si se indexaron esas URL rastreadas o no, es otra historia.

Recuerda que las páginas nuevas suelen tardar varios días en advertirse, como mínimo. En la mayoría de los sitios, no se espera el rastreo de URL el mismo día, a excepción de los sitios con contenido urgente, como los de noticias.

Solución:

Si agregaste páginas a tu sitio y no se las está rastreando en un período razonable, puede que Google no sepa de ellas, que el contenido esté bloqueado, que tu sitio haya alcanzado su capacidad máxima de entrega o que se haya terminado tu presupuesto de rastreo.

  1. Cuéntale a Google sobre las páginas nuevas: actualiza tus mapas del sitio para que reflejen las URLs nuevas.
  2. Revisa tus reglas robots.txt para confirmar que no estés bloqueando las páginas por accidente.
  3. Revisa tus prioridades de rastreo (es decir, usa el presupuesto de rastreo con prudencia). Administra tu inventario y mejora la eficacia de rastreo de tu sitio.
  4. Verifica que no te estés quedando sin capacidad de entrega. Googlebot reducirá el rastreo si detecta que tus servidores tienen problemas para responder a las solicitudes de rastreo.

Ten en cuenta que posiblemente no se muestren las páginas en los resultados de la búsqueda, incluso aunque se rastreen, si no hay suficiente valor o demanda del usuario para el contenido.

Consulta si se rastrean las actualizaciones lo suficientemente rápido

Si nos falta rastrear páginas nuevas o actualizadas de tu sitio, tal vez se deba a que no las vimos o no notamos que se hubieran actualizado. A continuación, te indicamos cómo puedes ayudarnos a estar al tanto de las actualizaciones de páginas.

Ten en cuenta que Google se esfuerza por verificar e indexar las páginas en un plazo razonable. Para la mayoría de los sitios, ese plazo es de tres días o más. No esperes que Google indexe páginas el mismo día que las publiques, a menos que tengas un sitio de noticias o subas contenido valioso y extremadamente urgente.

Diagnóstico:

Analiza los registros de tu sitio para ver cuándo Googlebot rastreó URLs específicas.

Para conocer la fecha de indexación, usa la Herramienta de inspección de URL o realiza una búsqueda de Google de las URLs que actualizaste.

Solución:

Qué debes hacer:

  • Usa un mapa del sitio de Google Noticias si tu sitio tiene contenido de noticias.
  • Usa la etiqueta <lastmod> en los mapas del sitio para indicar cuándo se actualizó una URL indexada.
  • Usa una estructura de URL simple para ayudar a Google a encontrar tus páginas.
  • Proporciona vínculos rastreables <a> estándar para que Google pueda encontrar tus páginas.

Qué debes evitar:

  • Enviar el mismo mapa del sitio varias veces al día.
  • Esperar que Googlebot rastree todo en un mapa del sitio o lo haga de forma inmediata. Los mapas del sitio son sugerencias útiles para Googlebot, pero no son requisitos absolutos.
  • Incluir en tus mapas del sitio URL que no quieres que aparezcan en la Búsqueda. Esto puede desperdiciar tu presupuesto de rastreo en páginas que no quieres que se indexen

Mejora la eficiencia del rastreo de tu sitio

Aumenta la velocidad de carga de tu página

El rastreo de Google está limitado por ancho de banda, tiempo y disponibilidad de las instancias de Googlebot. Si tu servidor responde a las solicitudes más rápidamente, es posible que podamos rastrear más páginas del sitio. De todas formas, Google solo deseará rastrear contenido de alta calidad, por lo que hacer que páginas de baja calidad sean más rápidas no hará que Googlebot aumente el rastreo de tu sitio. Por el contrario, si creemos que falta contenido de alta calidad en tu sitio, es probable que aumentemos tu presupuesto para rastrearlo.

A continuación, te mostramos cómo optimizar tus páginas y recursos para el rastreo:

  • Usa robots.txt para evitar que Googlebot cargue recursos de gran tamaño y sin importancia. Asegúrate de bloquear solo los recursos que no sean críticos; es decir, los que no son importantes para comprender el significado de la página (como las imágenes decorativas).
  • Cerciórate de que las páginas se carguen rápidamente.
  • Presta atención a las cadenas de redireccionamiento largas, que tienen un efecto negativo en el rastreo.
  • Tanto el tiempo destinado a responder las solicitudes del servidor como el necesario para procesar las páginas son importantes, incluido el tiempo de carga y ejecución de los recursos incorporados, como imágenes y secuencias de comandos. Ten en cuenta los recursos lentos o de gran tamaño necesarios para la indexación.

Especifica los cambios de contenido con códigos de estado HTTP

Por lo general, Google admite los encabezados de solicitud HTTP If-Modified-Since y If-None-Match para el rastreo. Los rastreadores de Google no envían los encabezados en todos los intentos de rastreo. Esto depende del caso de uso de la solicitud (por ejemplo, AdsBot tiene más probabilidades de establecer el encabezado de la solicitud HTTP If-Modified-Since y If-None-Match). Si nuestros rastreadores envían el encabezado If-Modified-Since, el valor del encabezado es la fecha y hora en la que se rastreó por última vez el contenido. Según ese valor, el servidor puede optar por mostrar un código de estado HTTP 304 (Not Modified) sin cuerpo de respuesta, en cuyo caso Google reutilizará la versión de contenido que rastreó por última vez. Si el contenido es más reciente que la fecha especificada por el rastreador en el encabezado If-Modified-Since, el servidor puede mostrar un código de estado HTTP 200 (OK) con el cuerpo de la respuesta.

Más allá de los encabezados de la solicitud, puedes enviar un código de estado HTTP 304 (Not Modified) y ningún cuerpo de respuesta para cualquier solicitud de Googlebot si el contenido no cambió desde la última vez que visitó la URL. Esto ahorrará tiempo y recursos de procesamiento del servidor, lo que podría mejorar indirectamente la eficiencia del rastreo.

Oculta las URLs que no quieras que aparezcan en los resultados de la búsqueda

Desperdiciar recursos del servidor en páginas innecesarias puede reducir la actividad de rastreo de páginas que son importantes para ti, lo que podría causar una demora significativa en el descubrimiento de gran contenido nuevo o actualizado en un sitio.

Exponer muchas URLs que no quieres que se rastreen mediante la Búsqueda puede afectar negativamente el rastreo y la indexación de un sitio. Por lo general, esas URLs se clasifican en las siguientes categorías:

Qué debes hacer:

  • Usa robots.txt si no quieres que Google rastree un recurso o página en absoluto.
  • Si se vuelve a usar un recurso común en varias páginas (como una imagen compartida o un archivo JavaScript), haz referencia al recurso desde la misma URL en cada página para que Google pueda almacenar en caché y reutilizar el mismo recurso sin necesidad de solicitarlo varias veces.

Qué debes evitar:

  • No agregues ni quites páginas o directorios de robots.txt periódicamente como una forma de "reasignar" parte del presupuesto de rastreo para tu sitio. Usa robots.txt solo para páginas o recursos que no quieres que aparezcan en Google a largo plazo.
  • No cambies los mapas del sitio ni uses otros mecanismos de ocultamiento temporales para reasignar el presupuesto.

Controla el rastreo excesivo de tu sitio (emergencias)

Googlebot tiene algoritmos destinados a evitar sobrecargar tu sitio con solicitudes de rastreo. Sin embargo, si compruebas que Googlebot está sobrecargándolo, hay algunas medidas que puedes tomar.

Diagnóstico:

Supervisa el servidor para detectar solicitudes excesivas de Googlebot en tu sitio.

Solución:

En una emergencia, te recomendamos que sigas estos pasos para ralentizar un rastreo de Googlebot que esté sobrecargando el servidor:

  1. Muestra los códigos de estado de respuesta HTTP 503 o 429 temporalmente para las solicitudes de Googlebot cuando el servidor esté sobrecargado. Googlebot volverá a intentar procesar esas URLs durante aproximadamente 2 días. Ten en cuenta que mostrar códigos de "no disponibilidad" durante más de algunos días hará que Google ralentice de forma permanente o detenga el rastreo de las URL de tu sitio, por lo que deberías seguir los siguientes pasos adicionales.
  2. Cuando disminuya la frecuencia de rastreo, deja de mostrar los códigos de estado de respuesta HTTP 503 o 429 para las solicitudes de rastreo. Si se muestran 503 o 429 durante más de 2 días, Google quitará esas URL del índice.
  3. Supervisa el rastreo y la capacidad del host a lo largo del tiempo.
  4. Si el rastreador problemático es uno de los rastreadores de AdsBot, es probable que hayas creado orientaciones de anuncios dinámicos de búsqueda para tu sitio que Google está intentando rastrear. Ese rastreo volverá a ocurrir cada 3 semanas. Si no cuentas con la capacidad de servidor necesaria para controlar estos rastreos, limita las orientaciones de tus anuncios o aumenta la capacidad de entrega.

Mitos y verdades sobre el rastreo

Prueba tus conocimientos sobre la forma en la que Google rastrea e indexa sitios web.

Comprimir mis mapas del sitio puede aumentar mi presupuesto de rastreo
Verdadero
Falso
No lo hará. Los mapas del sitio comprimidos aún deben recuperarse del servidor, de modo que su envío no ahorrará demasiado tiempo de rastreo ni esfuerzo por parte de Google.
Google prefiere contenido más reciente, por lo que debería seguir modificando mi página.
Verdadero
Falso
El contenido se clasifica por su calidad, independientemente de qué tan antiguo sea. Crea y actualiza tu contenido según sea necesario, pero dar un aspecto artificialmente nuevo a las páginas mediante cambios triviales y la actualización de la fecha de la página no proporcionará un valor adicional.
Google prefiere el contenido antiguo (tiene más peso) al actualizado.
Verdadero
Falso
Si tu página es útil, lo es independientemente de que sea nueva o antigua.
Google prefiere URL claras y no le gustan los parámetros de búsqueda.
Verdadero
Falso
Podemos rastrear parámetros.
Cuanto más rápido se carguen y procesen las páginas, más podrá rastrear Google.
Verdadero
Verdadero, en el sentido de que una combinación de bots de rastreo de números y horas limita nuestros recursos. Si puedes entregarnos más páginas en un período limitado, podremos rastrear más de ellas. Sin embargo, es posible que dediquemos más tiempo a rastrear un sitio que tenga información más importante, ncluso si es más lento. Probablemente para ti sea más importante hacer tu sitio más rápido para los usuarios que aumentar tu cobertura de rastreo. Es mucho más fácil ayudar a Google a rastrear el contenido correcto que a rastrear todo el contenido cada vez. Ten en cuenta que el rastreo de un sitio implica la recuperación y el procesamiento del contenido. El tiempo dedicado a procesar la página cuenta tanto como el tiempo dedicado a solicitar la página. Por ese motivo, hacer que tus páginas se procesen más rápido también aumentará la velocidad de rastreo.
Falso
Los sitios pequeños no se rastrean con tanta frecuencia como los grandes.
Verdadero
Falso
Si un sitio tiene contenido importante que cambia con frecuencia, lo rastreamos con frecuencia, sin importar el tamaño.
Cuanto más cerca esté tu contenido de la página principal, más importante será para Google.
Verdadero
Parcialmente cierto
La página principal de tu sitio suele ser la más importante. Por lo tanto, es posible que las páginas vinculadas directamente a ella se consideren más importantes y, por lo tanto, se rastreen con mayor frecuencia. Sin embargo, eso no significa que esas páginas tendrán una clasificación más alta que otras de tu sitio.
Falso
El control de versiones de URL es una buena forma de alentar a Google a volver a rastrear mis páginas.
Verdadero
Parcialmente cierto
Es probable que el uso de una URL de versión sirva para incentivar a Google a volver a rastrearla antes de lo planeado, pero a menudo esto no es necesario y desperdiciará recursos de rastreo si la página no se actualiza realmente. Si usas URLs de versión para indicar contenido nuevo, te recomendamos que solo cambies la URL cuando el contenido de la página haya cambiado de manera significativa.
Falso
La velocidad del sitio y sus errores afectan mi presupuesto de rastreo.
Verdadero
Aumentar la velocidad de un sitio mejora la experiencia de los usuarios y, al mismo tiempo, aumenta la frecuencia de rastreo. Para Googlebot, un sitio veloz es una señal de servidores en buen estado, por lo que puede obtener más contenido con la misma cantidad de conexiones. Por otra parte, una cantidad significativa de códigos de estado de respuesta HTTP 5xx (errores de servidor) o tiempos de espera de conexión indican lo opuesto, y se ralentiza el rastreo. Te recomendamos que prestes atención al informe de estadísticas de rastreo en Search Console y que mantengas una baja cantidad de errores de servidor.
Falso
El rastreo es un factor de clasificación.
Verdadero
Falso
Mejorar la frecuencia de rastreo no necesariamente implicará mejores posiciones en los resultados de la búsqueda. Google usa muchos indicadores para clasificar los resultados y, aunque el rastreo es necesario para que una página aparezca en los resultados de la búsqueda, no es un indicador de clasificación.
Las URLs alternativas y el contenido incorporado se considerarán en el presupuesto de rastreo.
Verdadero
Por lo general, cualquier URL que rastree Googlebot se considerará en el presupuesto de rastreo de un sitio. Es posible que se deban rastrear URLs alternativas, como AMP o hreflang, además de contenido incorporado, como CSS y JavaScript, incluidas las recuperaciones de XHR, y estas consumirán el presupuesto de rastreo de un sitio.
Falso
Puedo controlar Googlebot con la regla "crawl-delay".
Verdadero
Falso
Googlebot no procesa la regla no estándar "crawl-delay" de robots.txt.
La regla nofollow afecta el presupuesto de rastreo.
Verdadero
Parcialmente cierto
Cualquier URL que se rastree afecta el presupuesto de rastreo, por lo que incluso si tu página marca una URL como nofollow, se podrá rastrear si otra página de tu sitio o cualquier página de la Web no etiqueta el vínculo como nofollow.
Falso
Puedo usar noindex para controlar el presupuesto de rastreo.
Verdadero
Parcialmente cierto
Cualquier URL que se rastree afecta el presupuesto de rastreo, y Google debe rastrear la página para encontrar la regla noindex.

Sin embargo, noindex te ayudará a mantener el índice. Si quieres asegurarte de que esas páginas no terminen en el índice de Google, continúa usando noindex y no te preocupes por el presupuesto de rastreo. También es importante tener en cuenta que si quitas las URLs del índice de Google con noindex, Googlebot puede enfocarse en otras URLs del sitio, lo que significa que noindex puede liberar indirectamente parte del presupuesto de rastreo para tu sitio a largo plazo.
Falso
Las páginas que publican códigos de estado HTTP 4xx desperdician el presupuesto de rastreo.
Verdadero
Falso
Las páginas que muestran 4xx códigos de estado HTTP (excepto 429) no desperdician el presupuesto de rastreo. Google intentó rastrear la página, pero recibió un código de estado y ningún otro contenido.