Descripción general de los rastreadores y recuperadores de Google (usuarios-agentes)
Google usa rastreadores y recolectores para realizar acciones sobre sus productos, ya sea de forma automática o activada por solicitud del usuario.
El término “rastreador” (también llamado “robot” o “araña”) es un término genérico que se usa para cualquier programa que descubre y analiza automáticamente sitios web siguiendo vínculos de una página a otra. El rastreador principal de Google que se usa para la Búsqueda de Google se llama Googlebot.
Los recuperadores, como el navegador, son herramientas de que solicitan una sola URL cuando un usuario las solicita.
En las siguientes tablas, se muestran los rastreadores y recuperadores de Google que usan varios productos y servicios, cómo aparecen en los registros del referente y cómo especificarlos en robots.txt. Las listas no son exhaustivas, solo abarcan los solicitantes más comunes que pueden aparecer en los archivos de registro.
-
El token de usuario-agente se usa en la línea
User-agent:
de robots.txt para establecer coincidencias con un tipo de rastreador cuando escribes las reglas de rastreo correspondientes a tu sitio. Algunos rastreadores tienen más de un token, como se puede ver en la tabla. En esos casos, basta con establecer la coincidencia con un solo token de rastreo para que se aplique una regla. La lista no es exhaustiva, pero abarca la mayoría de los rastreadores que podrías ver en tu sitio web. - La cadena de usuario-agente completa es la descripción entera del rastreador y aparece en la solicitud HTTP y en tus registros web.
Rastreadores comunes
Los rastreadores comunes de Google se usan para crear los índices de la búsqueda de Google, realizar otros rastreos específicos de productos y realizar análisis. Siempre obedecen las reglas de robots.txt y, por lo general, rastrean desde los rangos de IP publicados en el objeto googlebot.json.
Rastreadores comunes | |||||
---|---|---|---|---|---|
Googlebot para smartphones |
|
||||
Googlebot para computadoras de escritorio |
|
||||
Googlebot-Image |
Se usa para rastrear bytes de imagen en Google Imágenes y productos que dependen de imágenes.
|
||||
Googlebot-News |
Googlebot News usa Googlebot para rastrear artículos de noticias, pero respeta su token histórico de usuario-agente
|
||||
Googlebot-Video |
Se usa para rastrear bytes de video de Google Video y productos que dependen de videos.
|
||||
Google StoreBot |
Google StoreBot rastrea a través de ciertos tipos de páginas, incluidas, sin limitaciones, las páginas de detalles del producto, las páginas del carrito y las páginas de confirmación de compras.
|
||||
Google-InspectionTool |
Google-InspectionTool es el rastreador que usan las herramientas de prueba de la Búsqueda, como la prueba de resultados enriquecidos y la inspección de URL en Search Console. Además del usuario-agente y del token de usuario-agente, imita a Googlebot.
|
||||
GoogleOther |
GoogleOther es el rastreador genérico que pueden usar varios equipos de productos para recuperar contenido de acceso público de los sitios. Por ejemplo, se puede usar para rastreos únicos en investigaciones y desarrollos internos.
|
||||
Google-Extended |
|
Rastreadores de casos especiales
Algunos productos específicos usan los rastreadores de casos especiales cuando existe un acuerdo entre el sitio rastreado y el producto acerca del proceso de rastreo. Por ejemplo, AdsBot
ignora el usuario-agente global de robots.txt (*
) con el permiso del publicador del anuncio. Los rastreadores de casos especiales pueden ignorar las reglas de robots.txt, por lo que operan desde un rango de IP diferente del de los rastreadores comunes. Los rangos de IP se publican en el objeto special-Crawlers.json.
Rastreadores de casos especiales | |||||
---|---|---|---|---|---|
APIs-Google |
Las APIs de Google las usan para entregar mensajes de notificación push. Ignora el usuario-agente global (
|
||||
AdsBot para Web móvil en Android |
Comprueba la calidad de los anuncios de las páginas web en dispositivos Android.
Ignora el usuario-agente global (
|
||||
AdsBot para Web móvil |
Comprueba la calidad de los anuncios de las páginas web en dispositivos iPhone.
Ignora el usuario-agente global (
|
||||
AdsBot |
Comprueba la calidad de los anuncios de las páginas web en computadoras de escritorio.
Ignora el usuario-agente global (
|
||||
AdSense |
El rastreador de AdSense visita tu sitio para determinar su contenido con el fin de proporcionar anuncios relevantes. Ignora el usuario-agente global (
|
||||
AdSense para dispositivos móviles |
El rastreador de AdSense para dispositivos móviles visita tu sitio a fin de determinar su contenido y brindar anuncios relevantes. Ignora el usuario-agente global (
|
||||
Google-Safety |
El usuario-agente de Google-Safety controla el rastreo específico de abusos, como el descubrimiento de software malicioso para los vínculos publicados de forma pública en las Propiedades de Google. Este usuario-agente ignora las reglas de robots.txt.
|
Recuperadores generados por el usuario
Los recuperadores activados por el usuario los activan para realizar una función específica del producto. Por ejemplo, Google Site Verifier actúa sobre la solicitud de un usuario. Debido a que un usuario solicitó la recuperación, estos recursos, por lo general, ignoran las reglas de robots.txt. Los rangos de IP que usan los recuperadores activados por el usuario se publican en el objeto user-triggered-fetchers.json.
Recuperadores generados por el usuario | |||||
---|---|---|---|---|---|
Feedfetcher |
Feedfetcher se usa para rastrear feeds RSS o Atom en Google Podcasts, Google Noticias y PubSubHubbub.
|
||||
Centro para editores de Google |
Recupera y procesa feeds que los editores proporcionaron de forma explícita a través del Centro para editores de Google que se usarán en las páginas de destino de Google Noticias.
|
||||
Google Read Aloud |
Cuando el usuario lo solicita, Google Read Aloud recupera y lee páginas web mediante la función de texto a voz (TTS).
|
||||
Google Site Verifier |
Google Site Verifier recupera los tokens de verificación de Search Console que solicita el usuario.
|
Nota sobre Chrome/W.X.Y.Z en usuarios-agentes
Siempre que veas la cadena Chrome/W.X.Y.Z en las cadenas de usuario-agente de la tabla, W.X.Y.Z es un marcador de posición que representa la versión del navegador Chrome que usa ese usuario-agente (por ejemplo, 41.0.2272.96
). Con el paso del tiempo, el número de versión aumentará para coincidir con la versión de actualización más reciente de Chromium que use Googlebot.
Si recorres tus registros o filtras un servidor en busca de un usuario-agente con este patrón, usa comodines para el número de versión en lugar de especificar un número exacto.
Usuarios-agentes en robots.txt
Si en un archivo robots.txt se reconocen varios usuarios-agentes, Google seguirá los más específicos. Si deseas que Google rastree tus páginas, no necesitas un archivo robots.txt. Si deseas bloquear o permitir el acceso de todos los rastreadores de Google a parte de tu contenido, especifica que Googlebot sea el usuario-agente. Por ejemplo, si quieres que todas tus páginas aparezcan en la Búsqueda de Google y que se muestren anuncios de AdSense en ellas, no necesitas un archivo robots.txt. Del mismo modo, si quieres evitar que los rastreadores de Google accedan a algunas páginas, puedes bloquear el usuario-agente Googlebot
para que también se bloquee el resto de los usuarios-agentes de Google.
Si prefieres llevar un control más preciso, puedes aplicar una restricción más específica. Quizás te gustaría que todas tus páginas aparezcan en la Búsqueda de Google, pero que no se rastreen las imágenes de tu directorio personal. En ese caso, puedes usar robots.txt para inhabilitar el usuario-agente Googlebot-Image
a fin de que deje de rastrear los archivos de tu directorio personal (pero permitir que Googlebot rastree todos los archivos) de la siguiente manera:
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personal
Veamos otro ejemplo. Si quieres que todas tus páginas tengan anuncios, pero prefieres que ninguna aparezca en la Búsqueda de Google, bloquea Googlebot y permite que funcione el usuario-agente Mediapartners-Google
, de la siguiente manera:
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
Controla la velocidad de rastreo
Cada rastreador de Google accede a sitios para un propósito específico y a velocidades diferentes. Google usa algoritmos para determinar la frecuencia de rastreo óptima de cada sitio. Si un rastreador de Google rastrea tu sitio con demasiada frecuencia, puedes reducir la frecuencia de rastreo.
Rastreadores de Google que se dieron de baja
Los siguientes rastreadores de Google ya no están en uso y solo se indican aquí como referencia histórica.
Rastreadores de Google que se dieron de baja | |||||
---|---|---|---|---|---|
Duplex en la Web |
Se admite el servicio web de Duplex en la Web.
|
||||
Web Light |
Se verificó la presencia del encabezado
|
||||
Apps móviles para Android |
Comprueba la calidad de los anuncios de las páginas de apps para Android.
Sigue las reglas de robots de
|
||||
Google Favicon |
|