Una amplia guía para que los propietarios de sitios administren su presupuesto de rastreo

Descripción general

En esta guía, se describe cómo optimizar el rastreo de Google de sitios muy grandes y que se actualizan con frecuencia.

Si tu sitio no tiene una gran cantidad de páginas que cambian rápidamente, o si estas parecen rastrearse el mismo día que se publican, no es necesario que leas esta guía. Solo mantén actualizado tu mapa del sitio y revisa la cobertura de la indexación de forma periódica.

Si tienes contenido que estuvo disponible durante un tiempo, pero que nunca se indexó, este es un problema diferente. Usa la Herramienta de inspección de URL para averiguar por qué no se está indexando tu página.

¿A quién está dirigida esta guía?

Esta es una guía avanzada que se diseñó para los siguientes sitios:

  • Sitios grandes (más de 1 millón de páginas únicas) con contenido que cambia con cierta frecuencia (una vez a la semana)
  • Sitios medianos o grandes (más de 10,000 páginas únicas) con contenido que cambia muy rápidamente (a diario)

Ten en cuenta que las cifras que se proporcionan aquí son una aproximación para ayudarte a clasificar tu sitio. No son umbrales exactos.

Teoría general del rastreo

La Web es un espacio casi infinito que excede la capacidad de Google para explorar e indexar todas las URL disponibles. Por lo tanto, el tiempo que Googlebot puede destinar a rastrear cada sitio es limitado. La cantidad de tiempo y recursos que destina Google a rastrear un sitio se suele denominar presupuesto de rastreo. Ten en cuenta que no todo el contenido rastreado de tu sitio necesariamente será indexado; cada página debe analizarse, unificarse y evaluarse a fin de definir si se indexará luego de su rastreo.

Hay dos elementos principales que determinan el presupuesto de rastreo: el límite de la capacidad de rastreo y la demanda de rastreo.

Límite de la capacidad de rastreo

Googlebot desea rastrear tu sitio sin sobrecargar tus servidores. A fin de evitarlo, Googlebot calcula un límite de la capacidad de rastreo, que es la cantidad máxima de conexiones paralelas simultáneas que Googlebot puede usar para rastrear un sitio, así como el retraso entre recuperaciones. Ese cálculo permite la cobertura de todo el contenido importante sin sobrecargar tus servidores.

El límite de la capacidad de rastreo puede aumentar o disminuir según ciertos factores:

  • Estado del rastreo: si el sitio responde rápidamente durante un tiempo, el límite aumentará, lo que implica que se podrán usar más conexiones para rastrear. Si el sitio se ralentiza o si responde con errores de servidor, el límite disminuirá, y Googlebot rastreará menos.
  • Límite establecido por el propietario del sitio en Search Console: los propietarios de sitios web podrán reducir la frecuencia con la que Googlebot rastrea su sitio. Ten en cuenta que configurar límites más altos no aumentará automáticamente el rastreo.
  • Límites de rastreo de Google: Google tiene una gran cantidad de máquinas, pero no son infinitas. Debemos tomar decisiones en función de los recursos que tenemos.

Demanda de rastreo

Por lo general, Google dedica el tiempo que sea necesario a rastrear un sitio, según su tamaño, la frecuencia de actualización, la calidad de sus páginas y la relevancia, en comparación con otros sitios.

Los factores que desempeñan un papel importante a los efectos de determinar la demanda de rastreo son los siguientes:

  • Inventario percibido: si no le indicas lo contrario, Googlebot intentará rastrear todas o la mayoría de las URL que conoce de tu sitio. Si muchas de esas URL están duplicadas o por algún otro motivo no deberían rastrearse (porque se quitaron, porque tienen poca importancia, etc.), Google desperdiciará mucho tiempo de rastreo en tu sitio. Este es el factor que más puedes controlar a tu favor.
  • Popularidad: las URL más populares de Internet tienden a rastrearse con mayor frecuencia a fin de mantenerlas actualizadas en nuestro índice.
  • Obsolescencia: nuestros sistemas volverán a rastrear los documentos con la frecuencia suficiente para detectar cualquier cambio.

Además, los eventos que afectan a todo el sitio, como sus traslados, pueden provocar un aumento en la demanda de rastreo a fin de volver a indexar el contenido en las URL nuevas.

En resumen

En función de la capacidad de rastreo y su demanda, Google define el presupuesto de rastreo de un sitio como el conjunto de URL que podrá rastrear Googlebot. Aunque no se alcance el límite de la capacidad de rastreo, si la demanda de este es baja, Googlebot rastreará tu sitio con menor frecuencia.

Hey Google, ¡dame más presupuesto de rastreo!
Google define la cantidad de recursos de rastreo para cada sitio según la popularidad, el valor del usuario, la exclusividad y la capacidad de entrega. Solo puedes incrementar tu presupuesto de rastreo si aumentas la capacidad de entrega de los rastreos y, sobre todo, si aumentas el valor del contenido de tu sitio para los usuarios que realizan búsquedas.

Prácticas recomendadas

Sigue estas prácticas recomendadas a fin de maximizar tu eficiencia de rastreo:

  • Administra tu inventario de URL: utiliza las herramientas adecuadas para indicarle a Google qué páginas rastrear y cuáles no. Si Google dedica mucho tiempo a rastrear URL que no son apropiadas para el índice, Googlebot podría determinar que no vale la pena destinar tiempo a revisar el resto de tu sitio (o podría aumentar el presupuesto para hacerlo).
    • Consolida el contenido duplicado. Elimina el contenido duplicado para centrar el rastreo en contenido único, en lugar de hacerlo en URL únicas.
    • Bloquea el rastreo de las URL que no deberían indexarse. Algunas páginas pueden ser importantes para los usuarios, pero no deberían aparecer en los resultados de la búsqueda. Por ejemplo, las páginas de desplazamiento infinito que duplican información en páginas vinculadas o las versiones ordenadas de manera diferente de la misma página. Si no puedes consolidarlas como se describe en la primera viñeta, usa robots.txt o la herramienta Parámetros de URL (para el contenido duplicado alcanzado por parámetros de URL) a fin de bloquear esas páginas sin importancia (para la búsqueda). No uses noindex, ya que Google aun así realizará la solicitud y, cuando vea esa etiqueta, descartará la página, lo que desperdiciará tiempo de rastreo. No uses robots.txt a fin de liberar temporalmente presupuesto de rastreo para otras páginas; utiliza robots.txt para bloquear páginas o recursos que creas que no deberíamos rastrear en absoluto. Google no reasignará a otras páginas el presupuesto de rastreo liberado, a menos que haya alcanzado el límite de entrega de tu sitio.
    • Muestra errores 404 o 410 para las páginas quitadas de forma permanente. Google no olvidará una URL que conozca, pero un error 404 es un indicador claro para no volver a rastrear esa URL. Sin embargo, las URL bloqueadas permanecerán en la cola de rastreo durante mucho más tiempo y se volverán a rastrear cuando se quite el bloqueo.
    • Elimina los errores leves 404. Los errores leves 404 continuarán rastreándose y desperdiciarán tu presupuesto. Consulta el Informe de cobertura de la indexación para comprobar si hay errores leves 404.
    • Mantén actualizados tus mapas del sitio. Google lee tu mapa del sitio con regularidad, así que asegúrate de incluir todo el contenido que deseas que Google rastree. Si tu sitio incluye contenido actualizado, te recomendamos incluir la etiqueta <lastmod>.
    • Evita las cadenas de redireccionamiento largas, que tienen un efecto negativo en el rastreo.
  • Haz que tus páginas se carguen de forma eficiente. Si Google carga y procesa tus páginas más rápido, es probable que podamos leer más contenido del sitio.
  • Supervisa el rastreo de tu sitio. Supervisa si tu sitio tuvo problemas de disponibilidad durante el rastreo y busca maneras de que el rastreo sea más eficaz.

Supervisa el rastreo y la indexación de tu sitio

Sigue estos pasos clave para supervisar el perfil de rastreo de tu sitio:

  1. Revisa si Googlebot tiene problemas de disponibilidad en tu sitio.
  2. Revisa si el rastreo omite páginas que deberían rastrearse.
  3. Revisa si alguna parte de tu sitio debería rastrearse más rápido que lo que ya se está haciendo.
  4. Mejora la eficiencia del rastreo de tu sitio.
  5. Controla el rastreo excesivo de tu sitio.

1. Comprueba si Googlebot tiene problemas de disponibilidad en tu sitio

Mejorar la disponibilidad de tu sitio no necesariamente aumentará el presupuesto de rastreo; Google determina la mejor frecuencia de rastreo en función de su demanda, como se describió anteriormente. Sin embargo, los problemas de disponibilidad no permiten que Google rastree tu sitio tanto como quisiera.

Diagnóstico:

Usa el informe de estadísticas de rastreo para ver el historial de rastreo de Googlebot correspondiente a tu sitio. En ese informe se muestra cuándo Google detectó problemas de disponibilidad. Si se informan errores o advertencias de disponibilidad en tu sitio, busca instancias en los gráficos de disponibilidad del host en los que las solicitudes de Googlebot superen la línea roja que marca el límite, haz clic en el gráfico para ver qué URL fallaron e intenta correlacionarlas con problemas en el sitio.

Solución:

  • Lee la documentación sobre el informe de estadísticas de rastreo a fin de obtener información para encontrar y resolver algunos problemas de disponibilidad.
  • Bloquea el rastreo de las páginas que no deberían rastrearse. (Consulta Administra tu inventario).
  • Aumenta la velocidad de carga y procesamiento de la página. (Consulta Mejora la eficiencia del rastreo de tu sitio).
  • Aumenta la capacidad de tu servidor. Si parece que Google siempre rastrea tu sitio al límite de su capacidad de entrega, pero tienes URL importantes que no se rastrean ni actualizan con la frecuencia necesaria, aumentar los recursos de entrega podría permitir que Google solicite más páginas de tu sitio. Revisa el historial de disponibilidad de tu host en el informe de estadísticas de rastreo para ver si la frecuencia de rastreo de Google parece cruzar la línea del límite con frecuencia. Si es así, aumenta los recursos de entrega durante un mes y verifica si las solicitudes de rastreo aumentaron durante ese mismo período.

2. Verifica si el rastreo omite alguna parte de tu sitio que debería rastrearse

Google dedica el tiempo que sea necesario en tu sitio a fin de indexar todo el contenido de alta calidad y valioso para el usuario que encuentre. Si crees que a Googlebot le falta rastrear contenido importante, es probable que no sepa de su existencia, que el contenido esté bloqueado para Google o que la disponibilidad de tu sitio esté limitando el acceso de Google (o bien Google está intentando no sobrecargar tu sitio).

Recuerda la diferencia entre el rastreo y la indexación. Esta página brinda soluciones para ayudar a Google a rastrear tu sitio de manera eficiente, no información a fin de determinar si las páginas encontradas están indexadas.

Diagnóstico:

Search Console no proporciona un historial de rastreo para tu sitio que se pueda filtrar por URL o ruta de acceso, pero puedes inspeccionar los registros de tu sitio a fin de ver si Googlebot rastreó URL específicas. Si se indexaron esas URL rastreadas o no, es otra historia.

Recuerda que las páginas nuevas suelen tardar varios días en advertirse, como mínimo. En la mayoría de los sitios, no se espera el rastreo de URL el mismo día, a excepción de los sitios con contenido urgente, como los de noticias.

Solución:

Si agregaste páginas a tu sitio y no se las está rastreando en un período razonable, puede que Google no sepa de ellas, que el contenido esté bloqueado, que tu sitio haya alcanzado su capacidad máxima de entrega o que se haya terminado tu presupuesto de rastreo.

  1. Cuéntale a Google sobre las páginas nuevas: actualiza tus mapas del sitio para que reflejen las URL nuevas.
  2. Revisa tus reglas de robots.txt para confirmar que no estés bloqueando las páginas por accidente.
  3. Si todas tus páginas no indexadas tienen parámetros de URL, es posible que se hayan excluido debido a la configuración de la herramienta Parámetros de URL. Lamentablemente, no existe una manera de verificar esa exclusión, por lo que, en general, recomendamos no usar esa herramienta.
  4. Revisa tus prioridades de rastreo (es decir, usa el presupuesto de rastreo con prudencia). Administra tu inventario y mejora la eficiencia del rastreo de tu sitio.
  5. Verifica que no te estés quedando sin capacidad de entrega. Googlebot reducirá el rastreo si detecta que tus servidores tienen problemas para responder a las solicitudes de rastreo.

Ten en cuenta que es posible que no se muestren las páginas en los resultados de la búsqueda, incluso aunque se rastreen, si no hay suficiente valor o demanda del usuario para el contenido.

3. Consulta si se rastrean las actualizaciones lo suficientemente rápido

Si nos falta rastrear páginas nuevas o actualizadas de tu sitio, tal vez se deba a que no las vimos o no notamos que se hubieran actualizado. A continuación, te indicamos cómo puedes ayudarnos a estar al tanto de las actualizaciones de páginas.

Ten en cuenta que Google se esfuerza por verificar e indexar las páginas en un plazo razonable. Para la mayoría de los sitios, ese plazo es de tres días o más. No esperes que Google indexe páginas el mismo día que las publiques, a menos que tengas un sitio de noticias o subas contenido valioso y extremadamente urgente.

Diagnóstico:

Analiza los registros de tu sitio para ver cuándo Googlebot rastreó URL específicas.

Para conocer la fecha de indexación, usa la Herramienta de inspección de URL o realiza una búsqueda de Google de las URL que actualizaste.

Solución:

Qué debes hacer:

  • Usa un mapa del sitio de Google Noticias si tu sitio tiene contenido de noticias. Haz un ping a Google cuando se publique o modifique tu mapa del sitio.
  • Usa la etiqueta <lastmod> en los mapas del sitio para indicar cuándo se actualizó una URL indexada.
  • Usa una estructura de URL simple para ayudar a Google a encontrar tus páginas.
  • Proporciona vínculos rastreables <a> estándar para que Google pueda encontrar tus páginas.

Qué debes evitar:

  • Enviar el mismo mapa del sitio varias veces al día.
  • Esperar que Googlebot rastree todo en un mapa del sitio o lo haga de forma inmediata. Los mapas del sitio son sugerencias útiles para Googlebot, pero no son requisitos absolutos.
  • Incluir en tus mapas del sitio URL que no deberían aparecer en la búsqueda. Eso puede desperdiciar tu presupuesto de rastreo en páginas que no deberían indexarse.

4. Mejora la eficiencia del rastreo de tu sitio

Aumenta la velocidad de carga de tu página

El rastreo de Google está limitado por ancho de banda, tiempo y disponibilidad de las instancias de Googlebot. Si tu servidor responde a las solicitudes más rápidamente, es posible que podamos rastrear más páginas del sitio. De todas formas, Google solo deseará rastrear contenido de alta calidad, por lo que hacer que páginas de baja calidad sean más rápidas no hará que Googlebot aumente el rastreo de tu sitio. Por el contrario, si creemos que falta contenido de alta calidad en tu sitio, es probable que aumentemos tu presupuesto para rastrearlo.

A continuación, te mostramos cómo optimizar tus páginas y recursos para el rastreo:

  • Usa robots.txt para evitar que Googlebot cargue recursos de gran tamaño y sin importancia. Asegúrate de bloquear solo los recursos que no sean críticos; es decir, los que no son importantes para comprender el significado de la página (como las imágenes decorativas).
  • Cerciórate de que las páginas se carguen rápidamente.
  • Presta atención a las cadenas de redireccionamiento largas, que tienen un efecto negativo en el rastreo.
  • Tanto el tiempo para responder las solicitudes del servidor como el tiempo necesario para procesar las páginas son importantes, incluido el tiempo de carga y ejecución de los recursos incorporados, como imágenes y secuencias de comandos. Ten en cuenta los recursos lentos o de gran tamaño necesarios para la indexación.

Oculta las URL que no deberían aparecer en los resultados de la búsqueda

Desperdiciar recursos del servidor en páginas innecesarias puede reducir la actividad de rastreo de páginas que son importantes para ti, lo que podría causar una demora significativa en el descubrimiento de gran contenido nuevo o actualizado en un sitio.

Bloquear u ocultar páginas ya rastreadas no reasignará tu presupuesto de rastreo a otra parte del sitio, a menos que Google ya alcance los límites de entrega de tu sitio.

Exponer muchas URL que no deberían rastrearse mediante la búsqueda puede afectar negativamente el rastreo y la indexación de un sitio. Por lo general, esas URL se clasifican en las siguientes categorías:

Qué debes hacer:

  • Usa robots.txt si crees que no deberíamos rastrear un recurso o página en absoluto.
  • Si se vuelve a usar un recurso común en varias páginas (como una imagen compartida o un archivo JavaScript), haz referencia al recurso desde la misma URL en cada página para que Google pueda almacenar en caché y reutilizar el mismo recurso sin necesidad de solicitarlo varias veces.

Qué debes evitar:

  • Agregar o quitar páginas o directorios de robots.txt periódicamente como una forma de "liberar" parte del presupuesto de rastreo para tu sitio. Usa robots.txt solo para páginas o recursos que no deberían aparecer en Google a largo plazo
  • Cambiar un mapa del sitio por otro o usar otros mecanismos de ocultamiento temporales para "liberar más presupuesto"

Reducción del rastreo de emergencia

Googlebot tiene algoritmos destinados a evitar sobrecargar tu sitio con solicitudes de rastreo. Sin embargo, si compruebas que Googlebot está sobrecargándolo, hay algunas medidas que puedes tomar.

Diagnóstico:

Supervisa el servidor para detectar solicitudes excesivas de Googlebot en tu sitio.

Solución:

En una emergencia, te recomendamos que sigas estos pasos para ralentizar un rastreo de Googlebot que esté sobrecargando el servidor:

  1. Muestra los códigos de resultado HTTP 503/429 temporalmente para las solicitudes de Googlebot cuando el servidor esté sobrecargado. Googlebot volverá a intentar procesar esas URL durante aproximadamente 2 días. Ten en cuenta que mostrar códigos de "no disponibilidad" durante más de algunos días hará que Google ralentice de forma permanente o detenga el rastreo de las URL de tu sitio, por lo que deberías implementar las siguientes acciones adicionales.
  2. Reduce la frecuencia de rastreo de Googlebot para tu sitio. Esto puede tardar hasta 2 días en aplicarse y requiere permisos de propietario de Search Console. Haz esto solo si notas que Google está rastreando en exceso y de forma repetida según el informe de estadísticas de rastreo, en el gráfico Host availability > Host utilization.
  3. Cuando baje la frecuencia de rastreo, deja de mostrar los códigos 503/429 para las solicitudes correspondientes. Mostrar el código 503 durante más de 2 días hará que Google descarte del índice las URL de 503.
  4. Supervisa el rastreo y la capacidad del host con el paso del tiempo y, si corresponde, aumenta la frecuencia de rastreo o permite la predeterminada.
  5. Si el rastreador problemático es uno de los rastreadores de AdsBot, es probable que hayas creado orientaciones de anuncios dinámicos de búsqueda para tu sitio que Google está intentando rastrear. Ese rastreo volverá a ocurrir cada 2 semanas. Si no cuentas con la capacidad de servidor necesaria para controlar estos rastreos, deberías limitar las orientaciones de tus anuncios o aumentar la capacidad de entrega.

Mitos y verdades sobre el rastreo

Comprimir mis mapas del sitio puede aumentar mi presupuesto de rastreo

  • No lo hará. Los mapas del sitio comprimidos aún deben recuperarse del servidor, de modo que su envío no ahorrará demasiado tiempo de rastreo ni esfuerzo por parte de Google.

Google prefiere contenido más reciente, por lo que debería seguir modificando mi página

  • El contenido se clasifica por su calidad, independientemente de qué tan antiguo sea. Crea y actualiza tu contenido según sea necesario, pero dar un aspecto artificialmente nuevo a las páginas mediante cambios triviales y la actualización de la fecha de la página no proporcionará un valor adicional.

Google prefiere el contenido antiguo (tiene más peso) al actualizado

  • Falso: si tu página es útil, es útil, ya sea nueva o antigua.

Google prefiere URL claras y no le gustan los parámetros de búsqueda

Los sitios pequeños no se rastrean con tanta frecuencia como los grandes

  • Falso: si un sitio tiene contenido importante que cambia con frecuencia, lo rastreamos con frecuencia, sin importar el tamaño.

Cuanto más cerca esté tu contenido de la página principal, más importante será para Google

  • Parcialmente cierto: la página principal de tu sitio suele ser la más importante, debido a lo cual es posible que las páginas vinculadas directamente a ella se consideren más importantes y, por lo tanto, se rastreen con mayor frecuencia. Sin embargo, eso no significa que esas páginas tendrán una clasificación más alta que otras de tu sitio.

Cuanto más rápido se carguen y procesen las páginas, más podrá rastrear Google

  • Verdadero… en el sentido de que una combinación de bots de rastreo de números y horas limita nuestros recursos. Si puedes entregarnos más páginas en un período limitado, podremos rastrear más de ellas. Sin embargo, es posible que dediquemos más tiempo a rastrear un sitio que tenga información más importante, incluso si es más lento. Probablemente para ti sea más importante hacer tu sitio más rápido para los usuarios que aumentar tu cobertura de rastreo. Es mucho más fácil ayudar a Google a rastrear el contenido correcto que a rastrear todo el contenido cada vez.
  • Ten en cuenta que el rastreo de un sitio implica la recuperación y el procesamiento del contenido. El tiempo dedicado a procesar la página cuenta tanto como el tiempo dedicado a solicitar la página. Por ese motivo, hacer que tus páginas se procesen más rápido también aumentará la velocidad de rastreo.

El control de versiones de URL es una buena forma de alentar a Google a volver a rastrear mis páginas

  • Parcialmente verdadero: es probable que el uso de una URL de versión sirva para incentivar a Google a volver a rastrearla antes de lo planeado, pero a menudo esto no es necesario y desperdiciará recursos de rastreo si la página no se actualiza realmente. En general, un mapa del sitio con un valor <lastmod> es la mejor forma de señalar el contenido actualizado a Google. Si usas URL de versión para indicar contenido nuevo, solo debes cambiar la URL cuando el contenido de la página haya cambiado de manera significativa.

La velocidad del sitio y sus errores afectan mi presupuesto de rastreo

  • Verdadero: hacer que un sitio sea más rápido mejora la experiencia de los usuarios y, al mismo tiempo, aumenta la frecuencia de rastreo. Para Googlebot, un sitio veloz es una señal de servidores en buen estado, por lo que puede obtener más contenido con la misma cantidad de conexiones. Por otra parte, una cantidad significativa de códigos de resultado HTTP 5xx (errores de servidor) o tiempos de espera de conexión indican lo opuesto, y se ralentiza el rastreo.
  • Te recomendamos que prestes atención al informe de estadísticas de rastreo en Search Console y que mantengas una baja cantidad de errores de servidor.

El rastreo es un factor de clasificación

  • Falso: mejorar la frecuencia de rastreo no necesariamente implicará mejores posiciones en los resultados de la búsqueda. Google usa muchos indicadores para clasificar los resultados y, aunque el rastreo es necesario para que una página aparezca en los resultados de la búsqueda, no es un indicador de clasificación.

Las URL alternativas y el contenido incorporado se considerarán en el presupuesto de rastreo

  • Verdadero: por lo general, cualquier URL que rastree Googlebot se considerará en el presupuesto de rastreo de un sitio. Es posible que se deban rastrear URL alternativas, como AMP o hreflang, además de contenido incorporado, como CSS y JavaScript, incluidas las recuperaciones de XHR, y estas consumirán el presupuesto de rastreo de un sitio.

Puedo controlar Googlebot con la directiva "crawl-delay"

  • Falso: Googlebot no procesa la directiva no estándar "crawl-delay" de robots.txt.

La directiva nofollow afecta el presupuesto de rastreo

  • Parcialmente verdadero: cualquier URL que se rastree afecta el presupuesto de rastreo, por lo que incluso si tu página marca una URL como nofollow, se podrá rastrear si otra página de tu sitio o cualquier página de la Web no etiqueta el vínculo como nofollow.