Descripción general de los rastreadores y recuperadores de Google (usuarios-agentes)
Google usa rastreadores y recuperadores con el objetivo de realizar acciones para sus productos, ya sean automáticas o activadas por la solicitud de un usuario. El término “rastreador” (también llamado “robot” o “araña”) es un término genérico que se usa para cualquier programa que descubre y analiza automáticamente sitios web siguiendo vínculos de una página web a otra. Los recuperadores actúan a modo de programas como wget que, por lo general, realiza una sola solicitud en nombre de un usuario. Los clientes de Google se dividen en tres categorías:
Rastreadores comunes | Los rastreadores comunes que se usan para los productos de Google (como Googlebot) Siempre respetan las reglas de robots.txt para los rastreos automáticos. |
Rastreadores de casos especiales |
Los rastreadores para casos específicos son similares a los rastreadores comunes, pero los usan productos específicos
cuando existe un acuerdo entre el sitio rastreado y el producto de Google sobre el proceso
de rastreo. Por ejemplo, AdsBot ignora el usuario-agente global de robots.txt
(* ) con el permiso del publicador del anuncio.
|
Recuperadores generados por el usuario | Los recuperadores activados por el usuario forman parte de las herramientas y funciones del producto en las que el usuario final activa una recuperación. Por ejemplo, Google Site Verifier actúa sobre la solicitud de un usuario. |
Propiedades técnicas de los rastreadores y recuperadores de Google
Los rastreadores y recuperadores de Google están diseñados para que miles de máquinas los ejecuten de manera simultánea con el objetivo de mejorar el rendimiento y ajustarse al crecimiento de la Web. Para optimizar el uso del ancho de banda, estos clientes se distribuyen en muchos centros de datos de todo el mundo, de modo que se encuentren cerca de los sitios a los que podrían acceder. Por lo tanto, es posible que en tus registros se muestren visitas de varias direcciones IP. Google realiza la salida principalmente desde direcciones IP en Estados Unidos. En caso de que Google detecte que un sitio bloquea las solicitudes de Estados Unidos, puede intentar hacer el rastreo desde direcciones IP ubicadas en otros países.
Los rastreadores y recuperadores de Google usan HTTP/1.1 y, si el sitio lo admite,
HTTP/2. El rastreo a través de
HTTP/2 puede ahorrar recursos de procesamiento (por ejemplo, CPU o RAM) en tu sitio y Googlebot. Sin embargo,
no hay ningún beneficio específico del producto para el sitio (por ejemplo, no hay un aumento de clasificación en la Búsqueda de Google).
Para inhabilitar el rastreo con HTTP/2, indícale al servidor donde se aloja tu sitio que responda
con un código de estado HTTP 421
cuando Googlebot intente acceder con
HTTP/2. Si eso no es posible, puedes
enviar un mensaje al equipo de Rastreo
(aunque esta solución es temporal).
Los rastreadores y los recuperadores de Google admiten las siguientes codificaciones de contenido (compresiones):
gzip,
deflate y
Brotli (br). Las
codificaciones de contenido que admite cada usuario-agente de Google se anuncian en el
encabezado Accept-Encoding
de cada solicitud que realizan. Por ejemplo:
Accept-Encoding: gzip, deflate, br
.
Nuestro objetivo es rastrear la mayor cantidad posible de páginas de tu sitio en cada visita sin sobrecargar el servidor. Si tu sitio tiene problemas para soportar las solicitudes de rastreo de Google, puedes reducir la frecuencia de rastreo. Ten en cuenta que enviar el código de respuesta HTTP incorrecto a los rastreadores de Google puede afectar la forma en que tu sitio aparece en los productos de Google.
Cómo verificar rastreadores y recuperadores de Google
Los rastreadores de Google se identifican de tres maneras:
-
El encabezado de la solicitud
user-agent
HTTP. - La dirección IP de origen de la solicitud.
- El nombre de host de DNS inverso de la IP de origen.
Obtén información para usar estos detalles para verificar los rastreadores y buscadores de Google.