Руководство по управлению лимитом на сканирование для владельцев крупных сайтов
В этом руководстве описывается, как оптимизировать сканирование роботами Google очень больших сайтов, контент на которых часто меняется.
Если на вашем сайте мало страниц, обновляемых часто, или они обычно сканируются в течение суток после публикации, вам необязательно читать это руководство. Достаточно вовремя обновлять файлы Sitemap и проверять отчет об индексировании.
Если у вас есть контент, который давно размещен на сайте и при этом ни разу не был проиндексирован, воспользуйтесь инструментом проверки URL, чтобы выяснить причины проблемы.
Для кого это руководство
Руководство предназначено для владельцев веб-ресурсов следующих типов:
- очень большие сайты (от 1 млн уникальных страниц) с достаточно часто (раз в неделю) меняющимся контентом;
- средние и большие сайты (от 10 тыс. уникальных страниц) с очень часто (ежедневно) меняющимся контентом;
- сайты, большинство URL которых в Search Console имеет статус Обнаружена, не проиндексирована.
Общая информация о сканировании
Интернет практически бесконечен, и Google не успевает находить и индексировать все существующие URL. По этой причине время, которое отводится на обработку каждого отдельного сайта, ограничено. Существует лимит на сканирование, который определяет, сколько времени и ресурсов робот Googlebot может затратить на один сайт. Учитывайте, что не все просканированные страницы сайта индексируются. Google их анализирует, объединяет и определяет, нужно ли их добавлять в индекс.
Лимит на сканирование зависит от двух основных факторов: скорости сканирования и потребности в сканировании.
Скорость сканирования
Робот Googlebot сканирует сайты так, чтобы не перегружать серверы, на которых они размещены. Для этого рассчитывается скорость сканирования, которая определяется максимальным количеством параллельных подключений робота к сайту и интервалом между подключениями. Такой подход позволяет обрабатывать весь важный контент сайта, не перегружая его серверы.
На скорость сканирования влияют следующие факторы:
- Время ответа сайта. Если в течение определенного времени сайт отправляет ответы без задержек, скорость сканирования увеличивается, то есть робот Googlebot может использовать при обработке контента больше подключений. Если ответы от сайта поступают медленно или содержат ошибки, Googlebot сканирует меньше контента.
- Возможности Google. У Google очень много компьютеров, однако наши возможности не безграничны. Поэтому мы вынуждены оптимально распределять свои ресурсы.
Потребность в сканировании
Обычно Google отводит на сканирование столько времени, сколько необходимо с учетом размера сайта, периодичности его обновления, востребованности контента и качества страниц.
На потребность в сканировании влияют следующие факторы:
- Количество страниц на сайте по оценке Google. Если вы не указали иное, робот Googlebot будет пытаться просканировать все обнаруженные на вашем сайте URL. Но если многие из этих URL дублируются или не должны сканироваться по другим причинам (страница удалена, не содержит важных сведений и т. д.), то Google зря потратит время на сбор информации о них. Вы можете помочь нам в оптимизации, указав страницы, которые можно пропустить.
- Популярность. Страницы, которые просматривает больше посетителей, сканируются и индексируются чаще.
- Давность сканирования. Google старается сканировать URL с периодичностью, которая обеспечивает актуальность контента в результатах поиска.
Потребность в сканировании обычно возрастает после существенных изменений на сайте, например при переносе контента на новые URL.
Резюме
Google определяет лимит на сканирование сайта с учетом скорости сканирования и потребности в сканировании, составляя список URL, которые можно и нужно обработать. Если потребность в сканировании невелика, то робот Googlebot будет сканировать ваш сайт менее интенсивно даже при возможности увеличить скорость.
Рекомендации
Чтобы повысить эффективность сканирования, следуйте приведенным ниже рекомендациям.
- Управляйте количеством страниц, подлежащих сканированию. Используйте специальные инструменты, чтобы сообщать Google, какие страницы сканировать, а какие пропустить. Если слишком много времени уйдет на сканирование маловажных URL, робот Googlebot может посчитать нецелесообразным обрабатывать остальные разделы сайта или увеличивать для этого лимит на сканирование.
- Объедините страницы с идентичным контентом. Пусть поисковые роботы сканируют уникальные материалы, а не уникальные URL.
- Заблокируйте сканирование URL при помощи файла robots.txt. Некоторые страницы важны для пользователей, но при этом не должны появляться в результатах поиска. Это могут быть страницы с бесконечной прокруткой, которые дублируют информацию, размещенную на других страницах, или версии одной и той же страницы с разной сортировкой. Если вы не можете объединить такие неважные для поиска страницы в соответствии с первым пунктом, заблокируйте их при помощи файла robots.txt. Это значительно снизит вероятность того, что роботы Google их проиндексируют.
-
Возвращайте код ошибки
404
или410
для окончательно удаленных страниц. Даже если такая страница уже есть в базе данных Google, код404
будет служить четким сигналом для поискового робота не сканировать страницу снова. В то же время заблокированные URL долго не удаляются из очереди сканирования и будут сканироваться снова, если вы их разблокируете. - Устраняйте ошибки
soft 404
. Поисковый робот сканирует страницы, возвращающие ошибкуsoft 404
, а значит, ваш лимит на сканирование будет расходоваться нерационально. Найти страницы с ошибкойsoft 404
вам поможет отчет об индексировании. - Вовремя обновляйте файлы Sitemap. Google регулярно проверяет эти файлы, так что добавьте в них весь контент, который нужно сканировать. Если на вашем сайте есть обновленный контент, рекомендуем использовать тег
<lastmod>
. - Избегайте длинных цепочек переадресации. Они вызывают проблемы при сканировании.
- Оптимизируйте страницы для ускорения их загрузки. Если ваши страницы будут загружаться и отрисовываться быстрее, Google сможет просканировать больше контента на вашем сайте.
- Проверяйте, как сканируется ваш сайт. Следите за тем, доступен ли ваш сайт во время сканирования, и старайтесь оптимизировать процесс.
Как контролировать сканирование и индексирование сайта
Ниже перечислены основные шаги, которые позволяют отслеживать параметры сканирования сайта.
- Выясните, есть ли у робота Googlebot проблемы с доступом к вашему сайту.
- Узнайте, есть ли у вас страницы, которые не сканируются, хотя должны.
- Проверьте, нужно ли ускорить сканирование определенных разделов сайта.
- Повысьте эффективность сканирования сайта.
- Сведите к минимуму избыточное сканирование сайта.
Выясните, есть ли у робота Googlebot проблемы с доступом к вашему сайту
Если вы улучшите доступ к страницам сайта, это необязательно приведет к повышению лимита на его сканирование. Google определяет оптимальную частоту сканирования с учетом потребности в нем, как описано выше. Тем не менее при наличии проблем с доступом робот Googlebot не сможет сканировать сайт так интенсивно, как позволяет лимит.
Диагностика
Откройте отчет "Статистика сканирования", чтобы посмотреть историю сканирования вашего сайта роботом Googlebot. Так вы узнаете, когда возникали проблемы. Если в отчете есть ошибки или предупреждения, связанные с доступностью вашего сайта, найдите, где на графиках Доступность хоста запросы робота Googlebot выходят за красную линию. Нажмите на график, чтобы узнать, какие URL были недоступны, и постарайтесь выяснить, в чем причина.
Чтобы проверить небольшое количество URL, вы можете воспользоваться инструментом проверки URL. Если инструмент возвращает предупреждение Превышена нагрузка на хост, значит, робот Googlebot не может просканировать все обнаруженные URL на вашем сайте.
Устранение неполадок
- Вы можете узнать о том, как выявлять и устранять некоторые проблемы с доступностью сайта, из статьи об отчете "Статистика сканирования".
- Заблокируйте сканирование страниц, которые вы не хотите показывать в результатах поиска. Подробнее…
- Сократите время загрузки и отрисовки страниц. Подробнее…
- Увеличьте серверные мощности. Если Google регулярно сканирует ваш сайт с максимально возможной нагрузкой, но некоторые важные URL остаются неохваченными или обновляются реже, чем нужно, увеличьте серверные мощности, чтобы поисковый робот мог параллельно запрашивать больше страниц сайта. Посмотрите историю доступности хоста в отчете "Статистика сканирования" и выясните, часто ли робот Googlebot превышает максимальную частоту сканирования. При необходимости увеличьте серверные мощности на месяц и проверьте, вырастет ли за это время количество запросов на сканирование.
Проверьте, просканирован ли ваш сайт полностью
Google отводит на сканирование вашего сайта столько времени, сколько необходимо для индексирования всего полезного и доступного пользователям контента. Если робот Googlebot пропускает важные страницы, значит, их сканирование запрещено или Google не может их обнаружить, или есть проблемы с доступностью вашего сайта, или Google старается не перегружать ваши серверы.
Диагностика
В Search Console нет данных о сканировании сайта, которые можно отфильтровать по URL или пути, но вы можете узнать, какие URL сканировал робот Googlebot, из журналов сайта. Напоминаем, что добавление просканированных URL в индекс здесь не рассматривается.
В большинстве случаев Google обнаруживает новые страницы на сайте не в день их добавления, а как минимум несколько дней спустя. Исключение составляют некоторые категории ресурсов, контент которых обновляется очень часто, например новостные сайты.
Устранение неполадок
Если добавленные на сайт страницы достаточно долго не сканируются, значит: Google не может их обнаружить; вы запретили их сканировать; достигнут предел нагрузки на ваши серверы; или исчерпан лимит на сканирование.
- Сообщите Google о своих новых страницах: добавьте их URL в файлы Sitemap.
- Проверьте, не заблокировано ли случайно сканирование этих страниц в правилах файла robots.txt.
- Определитесь со своими приоритетами сканирования (то есть рационально расходуйте лимит на сканирование). Оптимизируйте количество страниц, подлежащих сканированию, и повысьте эффективность сканирования сайта.
- Убедитесь, что у вас достаточно серверных мощностей. Робот Googlebot уменьшит нагрузку на ваши серверы, если им не будет хватать ресурсов при сканировании.
Обратите внимание, что даже просканированные страницы могут не показываться в результатах поиска, если они не представляют ценности для пользователей или их контент никому не интересен.
Проверяйте, своевременно ли сканируются обновленные страницы
Если робот Googlebot пропустил новые или обновленные страницы на вашем сайте, вероятно, он их не нашел или не обнаружил изменений в них. Ниже описывается, как вы можете сообщить нам о новом контенте.
Мы стремимся выявлять изменения на страницах и индексировать их настолько быстро, насколько это возможно. Новый контент большинства сайтов сканируется и индексируется спустя трое суток или позже. Не рассчитывайте на то, что ваши страницы будут добавляться в индекс Google уже в день публикации, если, конечно, вы не размещаете быстро меняющуюся информацию, которая представляет значительную ценность для пользователей (например, новости).
Диагностика
Узнать, когда робот Googlebot сканировал тот или иной URL, можно из журналов сайта.
Чтобы узнать дату индексирования, используйте инструмент проверки URL или выполните поиск обновленных URL в Google.
Устранение неполадок
Что рекомендуется делать
- Если на вашем сайте публикуется новостной контент, используйте файл Sitemap для Google Новостей.
- Чтобы сообщить нам о том, что контент по индексированному URL был изменен, используйте тег
<lastmod>
. - Не усложняйте структуру URL без необходимости. Так роботу Googlebot будет проще находить ваши страницы.
- Чтобы упростить обнаружение своих страниц, указывайте стандартные, поддающиеся сканированию ссылки в тегах
<a>
.
Что не рекомендуется делать
- Не отправляйте один и тот же файл Sitemap несколько раз в день.
- Не рассчитывайте, что робот Googlebot просканирует все указанные в файле Sitemap страницы или начнет сканирование сразу же. Файлы Sitemap – это полезные подсказки для Google, а не обязательные для выполнения требования.
- Не добавляйте в файлы Sitemap URL, которые не нужно показывать в результатах поиска. В противном случае ваш лимит на сканирование будет впустую расходоваться на их обработку.
Сделайте сайт более удобным для сканирования
Ускорьте загрузку сайта
Способность Google сканировать ресурсы зависит от пропускной способности, времени, а также доступности роботов Googlebot. Если сервер сайта будет отвечать на запросы быстрее, мы сможем просканировать больше страниц на нем. При этом следует учитывать, что Google стремится сканировать только полезный контент. Если ваши страницы быстро загружаются, но при этом обладают низким качеством, Googlebot не станет обрабатывать ваш сайт чаще. И наоборот, если мы выясним, что роботы Google пропускают качественный контент с вашего сайта, то можем увеличить ваш лимит на сканирование, чтобы охватить этот контент.
Вот как можно оптимизировать страницы и ресурсы с точки зрения сканирования:
- Внесите объемные и при этом не представляющие ценности для пользователей ресурсы в файл robots.txt, чтобы робот Googlebot не загружал их. Это могут быть, например, элементы графического оформления страницы, которые не важны для понимания ее содержания.
- Обеспечьте быструю загрузку страниц.
- Не используйте длинные цепочки переадресации, так как они вызывают проблемы при сканировании.
- Значение имеет не только время ответа серверов на запросы, но и время, необходимое на отрисовку страниц, в том числе на загрузку изображений и выполнение скриптов. Учитывайте это, если у вас большие или медленно загружаемые ресурсы, которые необходимо проиндексировать.
Указывайте на изменения контента с помощью кодов статуса HTTP
В поисковой системе Google заголовки HTTP-запроса If-Modified-Since
и If-None-Match
используются не во всех сценариях сканирования. При отправке заголовков поисковые роботы Google учитывают контекст запроса: так, заголовки HTTP-запроса If-Modified-Since
и If-None-Match
с большей вероятностью будет отправлять робот AdsBot. В значении заголовка If-Modified-Since
, отправленного нашими поисковыми роботами, указываются дата и время последнего сканирования. На основании этого значения сервер может вернуть код статуса HTTP 304 (Not Modified)
без тела ответа. В этом случае Google будет повторно использовать версию контента, полученную при последнем сканировании. Если контент был обновлен после даты предыдущего сканирования, указанной поисковым роботом в заголовке If-Modified-Since
, сервер может вернуть код статуса HTTP 200 (OK)
с телом ответа.
Если в контент не вносились изменения с момента последнего сканирования этого URL роботом Googlebot, то в ответ на любой запрос от этого робота вы можете отправлять код статуса HTTP 304 (Not Modified)
без тела ответа независимо от заголовков запроса. Так вы сэкономите время обработки и ресурсы сервера, что может косвенно повысить эффективность сканирования.
Скройте URL, которые не должны попадать в результаты поиска
Выделение серверных мощностей на сканирование ненужных страниц может замедлить анализ важных для вас страниц, и новый или обновленный контент, интересный для пользователей, может быть обнаружен со значительной задержкой.
Если на вашем сайте много открытых URL, обработка которых поисковым роботом нежелательна, это может плохо повлиять на сканирование и индексирование сайта. Обычно эти URL делятся на несколько категорий:
- Фасетная навигация и идентификаторы сеансов. Фасетная навигация (иначе называемая многоаспектной) обычно предполагает показ страниц с идентичным контентом. Идентификаторы сеансов и другие аналогичные параметры URL используются для сортировки или фильтрации, а не для ссылок на уникальный контент. Заблокируйте страницы с фасетной навигацией при помощи файла robots.txt.
- Страницы с идентичным контентом. Помогите Google распознать повторяющийся контент, сканировать который было бы излишним.
- Ошибки
soft 404
. Если страницы больше не существует, возвращайте код ошибки404
. - Взломанные страницы. Изучите отчет о проблемах безопасности и восстановите или удалите взломанные страницы, указанные в нем.
- Бесконечные пространства и прокси. Запретите их сканирование в файле robots.txt.
- Некачественный контент и спам. Очевидно, этого следует избегать.
- Страницы с корзиной, страницы с бесконечной прокруткой и страницы, на которых выполняется определенное действие (например, вход в аккаунт или покупка).
Что рекомендуется делать
- Используйте файл robots.txt, чтобы полностью запретить сканирование страницы или ресурса.
- Если на нескольких страницах используется общий ресурс (например, изображение или файл JavaScript), указывайте его везде с одним и тем же URL. Тогда Google сможет кешировать ресурс для многократного использования и не запрашивать его по нескольку раз.
Что не рекомендуется делать
- Не нужно постоянно добавлять в файл robots.txt и удалять из него страницы или каталоги, чтобы перераспределить лимит на сканирование вашего сайта. Используйте файл robots.txt только для страниц и ресурсов, которые вы хотите исключить из результатов поиска Google на продолжительное время.
- Не нужно часто менять файлы Sitemap или пытаться перераспределить лимит на сканирование сайта с помощью других приемов, которые позволяют временно скрыть контент.
Ограничивайте интенсивность сканирования в экстренных случаях
Google использует алгоритмы, которые ограничивают количество запросов на сканирование, чтобы не допустить перегрузки сайта. Если перегрузка все-таки случится, вы можете принять меры, описанные ниже.
Диагностика
Проверяйте, не отправляет ли робот Googlebot слишком много запросов серверу вашего сайта.
Устранение неполадок
Вот что рекомендуется делать в экстренных случаях:
- Если ваш сервер перегружен, временно отправляйте в ответ на запросы робота Googlebot код статуса HTTP-ответа
503
или429
. Робот будет пытаться просканировать те же страницы ещё примерно два дня. Обратите внимание, что если отправлять коды, указывающие на недоступность сайта, дольше нескольких дней, то Google полностью прекратит сканирование ваших страниц или надолго замедлит его. Поэтому выполните также указанные ниже действия. -
Когда частота сканирования снизится, перестаньте отправлять код статуса HTTP
503
или429
в ответ на запросы поискового робота. Если отправлять код503
или429
больше двух суток, Google удалит недоступные URL из индекса. - Отслеживайте, как меняются статистика сканирования и загруженность сервера.
- Если проблемы со сканированием возникают из-за поискового робота AdsBot, то причина, вероятно, в созданных вами на сайте целях динамических поисковых объявлений. Google сканирует такие страницы раз в три недели. Если ресурсы вашего сервера не позволяют поддерживать эту функцию, вам следует либо ограничить количество целевых страниц для таргетинга объявлений, либо увеличить пропускную способность сервера.
Сканирование: мифы и факты
Проверьте, насколько хорошо вы осведомлены о том, как Google сканирует и индексирует сайты.
5xx
(ошибка сервера) или уведомления о превышении времени ожидания, частота сканирования будет снижена. Мы рекомендуем пользоваться отчетом "Статистика сканирования" в Search Console и стараться свести количество ошибок к минимуму.
nofollow
влияет на лимит на сканирование.nofollow
URL на вашей странице все равно может быть просканирован, если он указан без директивы nofollow
на другой странице вашего или чужого сайта.noindex
.noindex
Google необходимо просканировать страницу.
Однако с помощью
noindex
можно избежать попадания в индекс. Если вы хотите, чтобы такие страницы не попали в индекс Google, продолжайте использовать noindex
и не переживайте за лимит на сканирование. Помните: если вы уберете URL из индекса Google с помощью noindex
или другим способом, робот Googlebot сможет сфокусироваться на других URL на вашем сайте, то есть в долгосрочной перспективе noindex
может несколько высвободить ваш лимит на сканирование.
4xx
, зря расходуют лимит на сканирование.4xx
(кроме 429
), не расходуют зря лимит на сканирование. Робот Google попытался просканировать страницу, но получил только код статуса при отсутствующем контенте.