Как устранять ошибки сканирования

Ниже перечислены основные шаги по устранению неполадок со сканированием вашего сайта.

  1. Выясните, есть ли у робота Googlebot проблемы с доступом к вашему сайту.
  2. Узнайте, есть ли у вас страницы, которые не сканируются, хотя должны.
  3. Проверьте, нужно ли ускорить сканирование определенных разделов сайта.
  4. Повысьте эффективность сканирования сайта.
  5. Сведите к минимуму избыточное сканирование сайта.

Выясните, есть ли у робота Googlebot проблемы с доступом к вашему сайту

Если вы улучшите доступ к страницам сайта, это необязательно приведет к повышению лимита на его сканирование. Google определяет оптимальную частоту сканирования с учетом потребности в нем, как описано выше. Тем не менее при наличии проблем с доступом робот Googlebot не сможет сканировать сайт так интенсивно, как позволяет лимит.

Диагностика

Откройте отчет "Статистика сканирования", чтобы посмотреть историю сканирования вашего сайта роботом Googlebot. Так вы узнаете, когда возникали проблемы. Если в отчете есть ошибки или предупреждения, связанные с доступностью вашего сайта, найдите, где на графиках Доступность хоста запросы робота Googlebot выходят за красную линию. Нажмите на график, чтобы узнать, какие URL были недоступны, и постарайтесь выяснить, в чем причина.

Чтобы проверить небольшое количество URL, вы можете воспользоваться инструментом проверки URL. Если инструмент возвращает предупреждение Превышена нагрузка на хост, значит, робот Googlebot не может просканировать все обнаруженные URL на вашем сайте.

Устранение неполадок

  • Вы можете узнать о том, как выявлять и устранять некоторые проблемы с доступностью сайта, из статьи об отчете "Статистика сканирования".
  • Заблокируйте сканирование страниц, которые вы не хотите показывать в результатах поиска. Подробнее…
  • Сократите время загрузки и отрисовки страниц. Подробнее…
  • Увеличьте серверные мощности. Если Google регулярно сканирует ваш сайт с максимально возможной нагрузкой, но некоторые важные URL остаются неохваченными или обновляются реже, чем нужно, увеличьте серверные мощности, чтобы поисковый робот мог параллельно запрашивать больше страниц сайта. Посмотрите историю доступности хоста в отчете "Статистика сканирования" и выясните, часто ли робот Googlebot превышает максимальную частоту сканирования. При необходимости увеличьте серверные мощности на месяц и проверьте, вырастет ли за это время количество запросов на сканирование.

Проверьте, просканирован ли ваш сайт полностью

Google отводит на сканирование вашего сайта столько времени, сколько необходимо для индексирования всего полезного и доступного пользователям контента. Если робот Googlebot пропускает важные страницы, значит, их сканирование запрещено или Google не может их обнаружить, или есть проблемы с доступностью вашего сайта, или Google старается не перегружать ваши серверы.

Диагностика

В Search Console нет данных о сканировании сайта, которые можно отфильтровать по URL или пути, но вы можете узнать, какие URL сканировал Googlebot, из журналов сайта. Напоминаем, что добавление просканированных URL в индекс здесь не рассматривается.

В большинстве случаев Google обнаруживает новые страницы на сайте не в день их добавления, а как минимум несколько дней спустя. Исключение составляют некоторые категории ресурсов, контент которых обновляется очень часто, например новостные сайты.

Устранение неполадок

Если добавленные на сайт страницы достаточно долго не сканируются, значит: Google не может их обнаружить; вы запретили их сканировать; достигнут предел нагрузки на ваши серверы; или исчерпан лимит на сканирование.

  1. Сообщите Google о своих новых страницах: добавьте их URL в файлы Sitemap.
  2. Проверьте, не заблокировано ли случайно сканирование этих страниц в правилах файла robots.txt.
  3. Определитесь со своими приоритетами сканирования (то есть рационально расходуйте лимит на сканирование). Оптимизируйте количество страниц, подлежащих сканированию, и повысьте эффективность сканирования сайта.
  4. Убедитесь, что у вас достаточно серверных мощностей. Робот Googlebot уменьшит нагрузку на ваши серверы, если им не будет хватать ресурсов при сканировании.

Обратите внимание, что даже просканированные страницы могут не показываться в результатах поиска, если они не представляют ценности для пользователей или их контент никому не интересен.

Проверяйте, своевременно ли сканируются обновленные страницы

Если робот Googlebot пропустил новые или обновленные страницы на вашем сайте, вероятно, он их не нашел или не обнаружил изменений в них. Ниже описывается, как вы можете сообщить нам о новом контенте.

Мы стремимся выявлять изменения на страницах и индексировать их настолько быстро, насколько это возможно. Новый контент большинства сайтов сканируется и индексируется спустя трое суток или позже. Не рассчитывайте на то, что ваши страницы будут добавляться в индекс Google уже в день публикации, если, конечно, вы не размещаете быстро меняющуюся информацию, которая представляет значительную ценность для пользователей (например, новости).

Диагностика

Узнать, когда Googlebot сканировал тот или иной URL, можно из журналов сайта.

Чтобы узнать дату индексирования, используйте инструмент проверки URL или выполните поиск обновленных URL.

Устранение неполадок

Что рекомендуется делать

  • Если на вашем сайте публикуется новостной контент, используйте файл Sitemap для Google Новостей.
  • Чтобы сообщить нам об изменении контента, размещенного под уже добавленным в индекс URL, используйте тег <lastmod>.
  • Чтобы роботы Google могли сканировать ваш сайт, он должен иметь удобную для просмотра структуру URL.
  • Чтобы упростить обнаружение своих страниц, указывайте стандартные, поддающиеся сканированию ссылки в тегах <a>.
  • Если на сайте разные версии страниц для мобильных устройств и для ПК, то список ссылок в разных версиях сайта должен быть одинаковым. Если список ссылок в мобильной версии отличается, включите их в файл Sitemap. Google индексирует только мобильную версию сайта, и ограничение ссылок в этой версии может привести к задержке обнаружения новых страниц.

Что не рекомендуется делать

  • Не отправляйте один и тот же файл Sitemap несколько раз в день.
  • Не рассчитывайте, что робот Googlebot просканирует все указанные в файле Sitemap страницы или начнет сканирование сразу же. Файлы Sitemap – это полезные подсказки для Google, а не обязательные для выполнения требования.
  • Не добавляйте в файлы Sitemap URL, которые не нужно показывать в результатах поиска. В противном случае ваш лимит на сканирование будет впустую расходоваться на их обработку.

Сделайте сайт более удобным для сканирования

Ускорьте загрузку сайта

Способность Google сканировать ресурсы зависит от пропускной способности, времени, а также доступности роботов Googlebot. Если сервер сайта будет отвечать на запросы быстрее, мы сможем просканировать больше страниц на нем. При этом следует учитывать, что Google стремится сканировать только полезный контент. Если ваши страницы быстро загружаются, но при этом обладают низким качеством, Googlebot не станет обрабатывать ваш сайт чаще. И наоборот, если мы выясним, что роботы Google пропускают качественный контент с вашего сайта, то можем увеличить ваш лимит на сканирование, чтобы охватить этот контент.

Вот как можно оптимизировать страницы и ресурсы с точки зрения сканирования:

  • Внесите объемные и при этом не представляющие ценности для пользователей ресурсы в файл robots.txt, чтобы робот Googlebot не загружал их. Это могут быть, например, элементы графического оформления страницы, которые не важны для понимания ее содержания.
  • Обеспечьте быструю загрузку страниц.
  • Не используйте длинные цепочки переадресации, так как они вызывают проблемы при сканировании.
  • Значение имеет не только время ответа серверов на запросы, но и время, необходимое на отрисовку страниц, в том числе на загрузку изображений и выполнение скриптов. Учитывайте это, если у вас большие или медленно загружаемые ресурсы, которые необходимо проиндексировать.

Указывайте на изменения контента с помощью кодов статуса HTTP

В поисковой системе Google заголовки HTTP-запроса If-Modified-Since и If-None-Match используются не во всех сценариях сканирования. При отправке заголовков поисковые роботы Google учитывают контекст запроса: так, заголовки HTTP-запроса If-Modified-Since и If-None-Match с большей вероятностью будет отправлять робот AdsBot. В значении заголовка If-Modified-Since, отправленного нашими поисковыми роботами, указываются дата и время последнего сканирования. На основании этого значения сервер может вернуть код статуса HTTP 304 (Not Modified) без тела ответа. В этом случае Google будет повторно использовать версию контента, полученную при последнем сканировании. Если контент был обновлен после даты предыдущего сканирования, указанной поисковым роботом в заголовке If-Modified-Since, сервер может вернуть код статуса HTTP 200 (OK) с телом ответа.

Если в контент не вносились изменения с момента последнего сканирования этого URL роботом Googlebot, то в ответ на любой запрос от этого робота вы можете отправлять код статуса HTTP 304 (Not Modified) без тела ответа независимо от заголовков запроса. Так вы сэкономите время обработки и ресурсы сервера, что может косвенно повысить эффективность сканирования.

Скройте URL, которые не должны попадать в результаты поиска

Выделение серверных мощностей на сканирование ненужных страниц может замедлить анализ важных для вас страниц, и новый или обновленный контент, интересный для пользователей, может быть обнаружен со значительной задержкой.

Если на вашем сайте много открытых URL, обработка которых поисковым роботом нежелательна, это может плохо повлиять на сканирование и индексирование сайта. Обычно эти URL делятся на несколько категорий:

Что рекомендуется делать

  • Используйте файл robots.txt, чтобы полностью запретить сканирование страницы или ресурса.
  • Если на нескольких страницах используется общий ресурс (например, изображение или файл JavaScript), указывайте его везде с одним и тем же URL. Тогда Google сможет кешировать ресурс для многократного использования и не запрашивать его по нескольку раз.

Что не рекомендуется делать

  • Не нужно постоянно добавлять в файл robots.txt и удалять из него страницы или каталоги, чтобы перераспределить лимит на сканирование вашего сайта. Используйте файл robots.txt только для страниц и ресурсов, которые вы хотите исключить из результатов поиска Google на продолжительное время.
  • Не нужно часто менять файлы Sitemap или пытаться перераспределить лимит на сканирование сайта с помощью других приемов, которые позволяют временно скрыть контент.

soft 404 ошибки

Ошибкой soft 404 называется ситуация, когда посетитель веб-страницы видит сообщение о том, что ее не существует, при этом браузер получает ответ с кодом статуса 200 (success). Этот код означает "Успешно". В некоторых случаях открывается страница, на которой нет основного или вообще никакого контента.

Такие страницы создаются веб-сервером, где размещен сайт, системой управления контентом или браузером пользователя. Причины могут быть разными, например:

  • Отсутствие файла SSI
  • Ошибка при обращении к базе данных
  • Пустая внутренняя страница результатов поиска
  • Незагруженный или отсутствующий по другой причине файл JavaScript

Мы не рекомендуем возвращать код статуса 200 (success), а затем выводить сообщение об ошибке или указывать на наличие ошибки на странице. Пользователи могут подумать, что попали на действующую страницу, но после этого увидят сообщение об ошибке. Подобные страницы исключаются из Google Поиска.

Если алгоритмы Google по контенту страницы определяют, что она содержит сообщение об ошибке, то в отчете об индексировании страниц этого сайта в Search Console будет указана ошибка soft 404.

Порядок исправления ошибок soft 404

Есть разные способы устранения ошибок soft 404 в зависимости от состояния сайта и от желаемого результата:

Подумайте, какое решение будет оптимальным для ваших пользователей.

Страница и ее контент больше не доступны

Если страница удалена и для нее нет замены на вашем сайте с аналогичным контентом, нужно отправлять ответ с кодом статуса 404 (not found) или 410 (gone). Эти коды статуса сообщают поисковым системам, что страницы не существует и вы не хотите, чтобы поисковые системы индексировали ее.

Если у вас есть доступ к файлам конфигурации вашего сервера, страницы с сообщениями об ошибках можно сделать полезными для пользователей. Например, на такой странице 404 вы можете разместить функции, призванные помогать посетителям в поиске нужной информации, или полезный контент, который удержит их на вашем ресурсе. Вот несколько советов по созданию полезной страницы 404:

  • Пользователям должно быть понятно, что запрашиваемая страница недоступна. Сообщите им об этом в вежливой форме.
  • Страница 404 должна быть выполнена в том же стиле (включая элементы навигации), что и основной сайт.
  • Разместите на странице ссылки на самые популярные статьи или записи блога, а также на главную страницу.
  • Дайте пользователям возможность сообщать о неработающих ссылках.

Полезные страницы 404 создаются исключительно для удобства пользователей. Поисковые системы игнорируют такие страницы, поэтому рекомендуем возвращать для этих страниц код статуса HTTP 404, чтобы они не индексировались.

Страница или ее контент перемещены

Если страница перенесена или у нее есть замена, отправляйте ответ с кодом 301 (permanent redirect), чтобы перенаправлять пользователей. Посетителям сайта это не помешает, а поисковые системы узнают новое расположение страницы. Чтобы узнать, правильный ли код ответа отправляется при открытии страницы, используйте инструмент проверки URL.

Страница и ее контент по-прежнему существуют

Если нормально работающая страница вызвала ошибку soft 404, вероятно, она не была корректно загружена роботом Googlebot, во время отрисовки не были доступны важные ресурсы или показывалось заметное сообщение об ошибке. Проанализируйте отрисованный контент и код ответа HTTP с помощью инструмента проверки URL. Если на отрисованной странице нет или очень мало контента или он вызывает ошибку, ошибка soft 404 может быть обусловлена тем, что страница содержит ресурсы (например, изображения, скрипты и прочие нетекстовые элементы), которые не удается загрузить. Возможные причины проблем с загрузкой – блокировка доступа в файле robots.txt, слишком большое количество ресурсов или слишком большой их размер, а также любые ошибки сервера.

Ограничивайте интенсивность сканирования в экстренных случаях

Google использует алгоритмы, которые ограничивают количество запросов на сканирование, чтобы не допустить перегрузки сайта. Если перегрузка все-таки случится, вы можете принять меры, описанные ниже.

Диагностика

Проверяйте, не отправляет ли робот Googlebot слишком много запросов серверу вашего сайта.

Устранение неполадок

Вот что рекомендуется делать в экстренных случаях:

  1. Если ваш сервер перегружен, временно отправляйте в ответ на запросы робота Googlebot код статуса HTTP-ответа 503 или 429. Робот будет пытаться просканировать те же страницы ещё примерно два дня. Обратите внимание, что если отправлять коды, указывающие на недоступность сайта, дольше нескольких дней, то Google полностью прекратит сканирование ваших страниц или надолго замедлит его. Поэтому выполните также указанные ниже действия.
  2. Когда частота сканирования снизится, перестаньте отправлять код статуса HTTP 503 или 429 в ответ на запросы поискового робота. Если отправлять код 503 или 429 больше двух суток, Google удалит недоступные URL из индекса.
  3. Отслеживайте, как меняются статистика сканирования и загруженность сервера.
  4. Если проблемы со сканированием возникают из-за поискового робота AdsBot, то причина, вероятно, в выбранных вами на сайте страницах для таргетинга динамических поисковых объявлений. Google сканирует такие страницы раз в три недели. Если ресурсы вашего сервера не позволяют поддерживать эту функцию, вам следует либо ограничить количество целевых страниц для таргетинга объявлений, либо увеличить пропускную способность сервера.