Робот Googlebot
Googlebot – общее название двух следующих типов поисковых роботов Google:
- Googlebot Desktop – поисковый робот, имитирующий пользователя компьютера.
- Googlebot Smartphone – поисковый робот, имитирующий пользователя мобильного устройства.
Определить, какой именно робот посещал страницу, можно по строке агента пользователя в запросе. Обратите внимание, что оба робота соответствуют одному и тому же токену агента пользователя (токену робота Google), поэтому в файле robots.txt для них невозможно задать разные правила.
При обработке большинства сайтов Google в первую очередь индексирует мобильную версию контента. Поэтому большинство запросов на сканирование будет поступать от робота Googlebot, имитирующего пользователя мобильного устройства, и лишь небольшая их часть – от робота Googlebot Desktop.
Как Googlebot работает с вашим сайтом
Робот Googlebot не может обращаться к сайту чаще, чем раз в несколько секунд (в среднем). Это относится к большинству страниц. В случае задержек частота посещения сайта нашим роботом может немного увеличиться.
Робот Googlebot предназначен для распределенной работы на тысячах компьютеров, чтобы обеспечить эффективное функционирование и масштабирование системы. Это необходимо, поскольку количество сайтов в интернете неуклонно растет. Кроме того, мы стараемся использовать компьютеры, которые находятся недалеко от серверов хостинга сайтов, чтобы поисковые роботы меньше влияли на пропускную способность сети. Поэтому может оказаться, что в ваших журналах зарегистрированы обращения с нескольких IP-адресов, а в качестве агента пользователя неизменно указан Googlebot. Мы стараемся обработать как можно больше страниц на вашем сайте за один сеанс, не оказывая излишней нагрузки на сервер. Если запросы от Google все-таки замедляют работу сервера, попробуйте снизить частоту сканирования.
При сканировании робот Googlebot обращается к вашему сайту преимущественно с IP-адресов, относящихся к США. Если на том или ином сайте установлена блокировка запросов из Соединенных Штанов, он может попробовать просканировать этот ресурс с IP-адресов, которые относятся к другим странам. Список IP-адресов, которые робот Googlebot может использовать при обнаружении подобных блокировок в настоящее время, доступен в формате JSON.
Googlebot проводит сканирование по протоколу HTTP/1.1, а также HTTP/2, если он поддерживается на сайте. Протокол сканирования сайта не влияет на его рейтинг, однако HTTP/2 позволяет сэкономить вычислительные ресурсы (например, использование процессора и ОЗУ) для сайта и робота Googlebot.
Чтобы отказаться от сканирования по протоколу HTTP/2, настройте сервер своего сайта так, чтобы при попытке выполнения такой операции сервер возвращал код статуса HTTP 421
. Если это невозможно, попробуйте обратиться к нашей команде Googlebot (это временная мера).
Googlebot сканирует только первые 15 МБ содержимого HTML-файла или текстового файла поддерживаемого формата. Извлечение кода CSS и JavaScript и иных ресурсов из HTML-файла выполняется по отдельности и в соответствии с действующим ограничением на размер файла. Получив 15 МБ, Googlebot прекращает сканирование файла и при индексировании учитывает только первые 15 МБ его содержимого. Ограничение на размер файла применяется к несжатым данным. Для других поисковых роботов Google, таких как Googlebot Video и Googlebot Image, могут действовать другие ограничения.
Когда робот Googlebot выполняет сканирование с IP-адресов из США, он работает в тихоокеанском часовом поясе.
Как закрыть роботу Googlebot доступ к вашему сайту
Даже если вы сами не размещаете ссылки на свой веб-сервер, сохранить его в секрете не удастся. Как только кто-нибудь перейдет по ссылке с вашего секретного сервера на другой, URL, переданный в теге источника ссылки, может быть сохранен и опубликован на целевом сервере в журнале источников ссылок. Кроме того, в интернете есть множество устаревших и неработающих ссылок. Если на чужой странице размещена некорректная или устаревшая ссылка на ваш сайт, робот Googlebot попытается перейти по ней.
Если вы хотите предотвратить сканирование своего сайта роботом Googlebot, ознакомьтесь с нашими инструкциями. Обратите внимание, что запрет на сканирование, запрет на индексирование и блокировку доступа к странице одновременно для поисковых роботов и пользователей следует выполнять разными методами.
Как убедиться, что ваш сайт сканирует именно робот Googlebot
Помните, что строку агента пользователя Googlebot часто имитируют другие поисковые роботы. Прежде чем блокировать доступ нашему роботу, убедитесь в том, что нежелательный запрос поступил именно от Google. Самый надежный способ – выполнить обратный DNS-запрос по IP-адресу источника или сравнить IP-адрес источника с диапазоном IP-адресов робота Googlebot.