Общие сведения о наших поисковых роботах и инструментах для сбора данных (агентах пользователя)
Google использует поисковые роботы и инструменты для сбора данных, чтобы выполнять действия со своими продуктами автоматически или по запросу пользователя.
Поисковый робот (или "паук") – это программа, которая автоматически обнаруживает и сканирует сайты, переходя по ссылкам от страницы к странице. Основной поисковый робот, который используется в Google Поиске, называется Googlebot.
Инструменты для сбора данных, как и браузер, загружают один URL по запросу пользователя.
В приведенных ниже таблицах вы найдете информацию о том, как поисковые роботы и инструменты для сбора данных Google, используемые разными продуктами и сервисами, упоминаются в журналах переходов и как их указывать в файле robots.txt. Учтите, что в списках указаны лишь основные отправители запросов, которые представлены в файлах журналов.
-
Токен агента пользователя указывается в строке
User-agent:
файла robots.txt и позволяет выбирать, на каких поисковых роботов будет распространяться то или иное правило сканирования. Как видно из таблицы, некоторым роботам соответствует несколько токенов, но для того, чтобы правило действовало, достаточно одного. Приведенный ниже перечень не является исчерпывающим, но содержит информацию о роботах, которые с наибольшей вероятностью будут посещать ваш сайт. - Полная строка агента пользователя – это подробное описание поискового робота. Оно указывается в HTTP-запросах и журналах.
Основные поисковые роботы
Основные поисковые роботы Google используются, чтобы искать информацию в целях создания индексов Google Поиска, анализа и выполнения других операций сканирования в зависимости от конкретного продукта. Они всегда следуют правилам из файла robots.txt и, как правило, выполняют сканирование из диапазонов IP-адресов, опубликованных в объекте googlebot.json.
Основные поисковые роботы | |||||
---|---|---|---|---|---|
Googlebot Smartphone |
|
||||
Googlebot Desktop |
|
||||
Googlebot Image |
Этот робот позволяет сканировать URL изображений для Google Картинок и продуктов, в которых они используются.
|
||||
Googlebot-News |
Googlebot News использует робот Googlebot для сканирования новостных статей, учитывая при этом и свой первоначальный токен агента пользователя
|
||||
Googlebot Video |
Этот робот позволяет сканировать URL видео для Google Видео и продуктов, в которых они используются.
|
||||
Google StoreBot |
Google StoreBot сканирует страницы с информацией о товаре, страницы корзины и оплаты и некоторые другие страницы аналогичных типов.
|
||||
Google-InspectionTool |
Поисковый робот Google-InspectionTool используется инструментами тестирования Search Console, в том числе предназначенными для проверки расширенных результатов и проверки URL. Помимо агента пользователя и его токена, он имитирует работу робота Googlebot.
|
||||
GoogleOther |
GoogleOther – поисковый робот общего назначения, который может использоваться командами по работе над разными продуктами для получения общедоступного контента с сайтов. Например, с его помощью можно выполнять однократные операции сканирования для внутренних исследований и разработки.
|
||||
GoogleOther-Image |
GoogleOther-Image – это версия робота GoogleOther, оптимизированная для получения общедоступных URL изображений.
|
||||
GoogleOther-Video |
GoogleOther-Video – это версия робота GoogleOther, оптимизированная для получения общедоступных URL видео.
|
||||
Google-CloudVertexBot |
Google-CloudVertexBot сканирует сайты по запросам их владельцев при создании агентов пользователя на основе Vertex AI.
|
||||
Google-Extended |
|
Специальные поисковые роботы
Специальные поисковые роботы используются определенными продуктами при наличии договоренности между ними и сайтами, которые сканируются такими роботами. Например, AdsBot
игнорирует глобальный агент пользователя из файла robots.txt (*
), если это разрешено издателем объявления. Такие роботы могут не учитывать правила robots.txt, поэтому работают из диапазона IP-адресов, не используемого основными поисковыми роботами. Диапазоны IP-адресов опубликованы в объекте special-crawlers.json.
Специальные поисковые роботы | |||||
---|---|---|---|---|---|
APIs-Google |
Используется в API Google для отправки push-уведомлений. Игнорирует глобальный агент пользователя (
|
||||
AdsBot Mobile Web |
Проверяет качество рекламы на веб-страницах, предназначенных для мобильных устройств.
Игнорирует глобальный агент пользователя (
|
||||
AdsBot |
Проверяет качество рекламы на веб-страницах, предназначенных для компьютеров.
Игнорирует глобальный агент пользователя (
|
||||
AdSense |
Робот AdSense заходит на ваш сайт и определяет его содержание с целью размещения релевантных объявлений. Игнорирует глобальный агент пользователя (
|
||||
Mobile AdSense |
Робот Mobile AdSense заходит на ваш сайт и определяет его содержание с целью размещения релевантных объявлений. Игнорирует глобальный агент пользователя (
|
||||
Google-Safety |
Агент пользователя Google-Safety выполняет сканирование, связанное со злоупотреблениями. Например, он ищет вредоносное ПО по общедоступным ссылкам, размещенным в сервисах Google. Этот агент игнорирует правила в файле robots.txt.
|
Загрузчики, запускаемые пользователями
Такие загрузчики активируются пользователями и обеспечивают работу функций загрузки в определенном продукте. Например, Google Site Verifier выполняет действия по запросу пользователя, а сайт, размещенный в Google Cloud (GCP), позволяет посетителям получать внешний RSS-фид. Так как сбор данных инициирует пользователь, такие инструменты, как правило, игнорируют правила из файла robots.txt. Диапазоны IP-адресов, которые они используют, опубликованы в объектах user-triggered-fetchers.json и user-triggered-fetchers-google.json.
Загрузчики, запускаемые пользователями | |||||
---|---|---|---|---|---|
Feedfetcher |
Feedfetcher используется, чтобы сканировать фиды RSS или Atom для Google Подкастов, Google Новостей и PubSubHubbub.
|
||||
Google Центр издателей |
Извлекает и обрабатывает фиды, которые были явным образом предоставлены издателями с помощью Google Центра издателей и предназначены для использования на целевых страницах в Google Новостях.
|
||||
Google Read Aloud |
По запросу пользователя Google Read Aloud получает и зачитывает веб-страницы, преобразуя текст в речь.
|
||||
Google Site Verifier |
Google Site Verifier по запросу пользователя получает токены подтверждения Search Console.
|
Примечание о компоненте Chrome/W.X.Y.Z в строках агентов пользователей
В строках, которые содержат элемент Chrome/W.X.Y.Z, сочетание символов W.X.Y.Z – это плейсхолдер для версии браузера Chrome, используемой агентом пользователя. Пример: 41.0.2272.96
. Это значение соответствует последней версии Chromium, которую использует робот Googlebot, и поэтому со временем оно будет возрастать.
При поиске агента пользователя в журнале или на сервере не указывайте точное значение версии, а используйте подстановочные знаки.
Агенты пользователей в файлах robots.txt
Если в файле robots.txt обнаружится несколько токенов агентов пользователей, робот Google последует правилу с наиболее точно соответствующим ему токеном. Если вы хотите оставить сайт доступным для всех наших роботов, такой файл вообще не нужен. Чтобы запретить или разрешить всем поисковым роботам Google доступ к определенному контенту, укажите в правиле агент пользователя Googlebot. К примеру, чтобы все страницы сайта появлялись в Google Поиске, а на самих страницах показывались объявления AdSense, не используйте файл robots.txt. Если же вы решите полностью запретить Google сканировать некоторые страницы, то правило для агента пользователя Googlebot
заблокирует доступ к контенту и всем остальным нашим роботам.
Можно указать агент пользователя более точно. Предположим, вы хотите, чтобы все страницы сайта показывались в Google Поиске, но чтобы при этом не сканировались изображения из вашего личного каталога. В таком случае в файле robots.txt запретите агенту пользователя Googlebot-Image
сканировать файлы в каталоге /personal. При этом робот Googlebot сохранит доступ к файлам во всех каталогах. Запись должна выглядеть следующим образом:
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personal
Рассмотрим другой пример. Вы хотите разместить на всех страницах рекламу, но сами страницы не должны появляться в Google Поиске. В таком случае следует полностью заблокировать доступ агенту пользователя Googlebot, но разрешить сканирование агенту пользователя Mediapartners-Google
. Нужное правило должно выглядеть так:
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
Управление скоростью сканирования
Поисковые роботы Google посещают сайты с разными целями. Периодичность их появлений тоже отличается. Чтобы определить оптимальную частоту сканирования каждого сайта, Google использует ряд алгоритмов. Если наш поисковый робот посещает ваш ресурс слишком часто, вы можете уменьшить частоту сканирования.
Устаревшие поисковые роботы Google
Указанные поисковые роботы Google больше не используются и перечислены здесь лишь для справки.
Устаревшие поисковые роботы Google | |||||
---|---|---|---|---|---|
Duplex в интернете |
Обеспечивал работу сервиса "Duplex в интернете".
|
||||
Web Light |
Проверял наличие заголовка
|
||||
AdsBot Mobile Web |
Проверяет качество рекламы на веб-страницах, предназначенных для устройств iOS.
Игнорирует глобальный агент пользователя (
|
||||
Mobile Apps Android |
Проверяет качество рекламы в приложениях для устройств Android.
Следует правилам
|
||||
Google Favicon |
|