Как убедиться, что ваш сайт сканируют именно Googlebot или другие поисковые роботы

Вы можете проверить, сканирует ли ваш сайт именно робот Googlebot (или иной поисковый робот Google). Это поможет вам, если у вас есть подозрения, что под видом робота Googlebot к вашему сайту обращаются спамеры или другие злоумышленники.

Поисковые роботы Google бывают трех категорий, которые перечислены в таблице ниже.

Тип Описание Обратная маска DNS Диапазоны IP-адресов
Основные поисковые роботы Основные поисковые роботы, предназначенные для продуктов Google (например, Googlebot). При автоматическом сканировании такие роботы всегда соблюдают правила из файлов robots.txt. crawl-***-***-***-***.googlebot.com или geo-crawl-***-***-***-***.geo.googlebot.com googlebot.json
Специальные поисковые роботы Поисковые роботы, выполняющие специальные функции для продуктов Google (такие как AdsBot), при наличии договоренности между ними и сайтами, которые сканируются такими роботами. Они могут как соблюдать, так и не соблюдать правила из файла robots.txt. rate-limited-proxy-***-***-***-***.google.com special-crawlers.json
Инструменты для сбора данных о сайте, управляемые пользователем Инструменты или функции в наших продуктах, позволяющие конечному пользователю запускать сбор данных о сайте. Например, Google Site Verifier действует по запросу человека. Так как сбор данных инициирует пользователь, такие инструменты игнорируют правила из файла robots.txt.
Загрузчики под управлением Google относятся к IP-адресам из объекта user-triggered-fetchers-google.json и распознаются как имя хоста google.com. IP-адреса из объекта user-triggered-fetchers.json распознаются как имена хостов gae.googleusercontent.com. Такие IP-адреса используются, к примеру, если на сайте из Google Cloud (GCP) есть функция, которая предполагает извлечение внешних RSS-фидов по запросу посетителя сайта.
***-***-***-***.gae.googleusercontent.com или google-proxy-***-***-***-***.google.com user-triggered-fetchers.json и user-triggered-fetchers-google.json

Убедиться в том, что ваш сайт посещают именно роботы Google, можно двумя способами:

  • Вручную. Если нужно выполнить единичную проверку, используйте инструменты командной строки. В большинстве случаев этого достаточно для решения задачи.
  • Автоматически. Если нужно выполнить масштабную проверку, используйте автоматическую систему и сопоставьте IP-адрес определенного поискового робота со списком опубликованных IP-адресов робота Googlebot.

Как использовать инструменты командной строки

  1. С помощью команды host выполните обратный DNS-запрос по IP-адресу, который найдете в журнале.
  2. Убедитесь, что в результате получено доменное имя googlebot.com, google.com или googleusercontent.com.
  3. С помощью команды host выполните прямой DNS-запрос на преобразование доменного имени, которое вы узнали на шаге 1.
  4. Полученный IP-адрес должен совпадать с исходным.

Пример 1:

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Пример 2:

host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.

host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240

Пример 3:

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

Как использовать автоматические системы

Вы можете также сопоставить IP-адрес обратившегося к сайту поискового робота со списком диапазонов IP-адресов, которые используются нашими поисковыми роботами и инструментами для сбора данных:

Для проверки других IP-адресов Google, с которых наши инструменты (например, Apps Script) могут обращаться к вашему сайту, сопоставьте IP-адрес, с которого выполняется доступ, со списком IP-адресов Google. Учтите, что IP-адреса из файлов JSON представлены в формате CIDR.