Googlebot

Googlebot – общее название двух поисковых роботов, используемых в Google Поиске.

Googlebot Smartphone – поисковый робот, имитирующий пользователя мобильного устройства.
Googlebot Desktop – поисковый робот, имитирующий пользователя компьютера.

Определить, какой робот обрабатывает вашу страницу, можно по заголовку user-agent в HTTP-запросе. Но учтите, что давать разным роботам разные команды в файле robots.txt невозможно, так как работы обоих типов соответствуют одному и тому же токену агента пользователя.

При обработке большинства сайтов Google в первую очередь индексирует мобильную версию контента. Поэтому большинство запросов на сканирование будет поступать от робота Googlebot, имитирующего пользователя мобильного устройства, и лишь небольшая их часть – от робота Googlebot Desktop.

Как Googlebot работает с вашим сайтом

Робот Googlebot не может обращаться к сайту чаще, чем раз в несколько секунд (в среднем). Это относится к большинству страниц. В случае задержек частота посещения сайта нашим роботом может немного увеличиться. Если запросы от Google все-таки замедляют работу сервера, попробуйте снизить частоту сканирования.

При сканировании для Google Поиска Googlebot сканирует первые 2 МБ файла поддерживаемого типа и первые 64 МБ PDF-файла. С точки зрения отрисовки каждый ресурс, на который есть ссылка в HTML-коде (например, в CSS и JavaScript), извлекается отдельно, и для каждого ресурса действует то же ограничение на размер файла, что и для других файлов (кроме PDF).
Когда достигается лимит, Googlebot прекращает скачивание и отправляет на индексирование только уже полученную часть файла. Ограничение на размер файла применяется к несжатым данным. Для других поисковых роботов Google, таких как Googlebot Video и Googlebot Image, могут действовать другие ограничения.

Когда робот Googlebot выполняет сканирование с IP-адресов из США, он работает в тихоокеанском часовом поясе.

Прочие технические свойства робота Googlebot описаны в обзоре поисковых роботов Google.

Как закрыть роботу Googlebot доступ к вашему сайту

Робот Googlebot обнаруживает новые URL по ссылкам на ранее отсканированных страницах. Даже если вы сами не размещаете ссылки на свой сайт, сохранить его в секрете не удастся. Как только кто-нибудь нажмет на ссылку на вашем "секретном" сайте и перейдет на другой, URL, переданный в теге источника ссылки, может быть сохранен и опубликован на целевом сайте в журнале источников ссылок.

Если вы хотите предотвратить сканирование своего сайта роботом Googlebot, ознакомьтесь с нашими инструкциями. Не забывайте, что сканирование и индексирование – разные процессы. Если запретить роботу Googlebot сканировать ту или иную страницу, ее URL все равно может появляться в результатах поиска.

Чтобы запретить роботу Googlebot сканировать определенную страницу, воспользуйтесь файлом robots.txt.
Чтобы запретить роботам Google индексировать определенную страницу, используйте директиву noindex.
Если вам нужно, чтобы определенная страница стала недоступна как для поисковых роботов, так и для пользователей, выберите другой метод, например заблокируйте доступ к ней с помощью пароля.

Блокирование робота Googlebot влияет на Google Поиск (включая рекомендации и остальные функции Google Поиска), а также другие продукты (например, Google Картинки, Google Видео и Google Новости).

Как убедиться, что ваш сайт сканирует именно робот Googlebot

Помните, что заголовок user-agent в HTTP-запросе, используемый роботом Googlebot, часто имитируют другие поисковые роботы. Прежде чем блокировать доступ нашему роботу, убедитесь в том, что нежелательный запрос поступил именно от Google. Самый надежный способ – выполнить обратный DNS-запрос по IP-адресу источника или сравнить IP-адрес источника с диапазоном IP-адресов робота Googlebot.