Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

Как помочь роботам Google выбирать канонический URL для повторяющихся страниц

Если у вас есть одна страница, доступная по нескольким URL, или разные страницы с практически одинаковым контентом (например, версии для мобильных устройств и компьютеров), Google будет считать один URL каноническим, а остальные – его копиями. Сканирование канонического URL будет выполняться чаще, чем сканирование копий.

Вы можете сообщить нам, какой URL является каноническим. В противном случае мы выберем его самостоятельно или будем считать оба адреса равноценными, а это может привести к нежелательным последствиям. Дополнительные сведения приведены в разделе Для чего вам нужно выбирать канонический URL.

Что такое канонический URL

Каноническим называется URL страницы, которую роботы Google считают главной среди нескольких ее вариантов на вашем сайте. К примеру, если одна и та же страница размещена по двум URL, таким как example.com?dress=1234 и example.com/dresses/1234, один из них будет выбран Google в качестве канонического.

При этом небольшие различия в контенте, например обусловленные настройками фильтрации или сортировки, не имеют значения (сортировка по цене или фильтрация товаров по цвету не делает страницу уникальной). Каноническая страница и ее копии могут находиться в разных доменах.

Как Google выбирает канонический URL при индексировании

Когда робот Google индексирует сайты, он старается определить основной контент на каждой странице. Если на одном сайте есть несколько похожих страниц, робот выбирает в качестве канонической ту из них, контент которой он интерпретирует как наиболее полный и полезный. Она будет сканироваться наиболее часто, а ее копии и варианты – реже. Это позволяет снизить нагрузку на ваш сайт, связанную с индексированием.

Канонические страницы выбираются по ряду критериев, также называемых сигналами. Примеры сигналов: протокол (HTTP или HTTPS), качество страницы, упоминание URL в файле Sitemap, а также наличие атрибута rel=canonical. Даже если вы укажете каноническую страницу самостоятельно, используя описанные в этой статье способы, мы по той или иной причине можем выбрать другую.

Версии одной страницы на разных языках считаются копиями, только если основной контент написан на одном и том же языке. Иными словами, если переведены лишь колонтитулы и прочие незначительные текстовые элементы, такие страницы будут считаться копиями.

Мы оцениваем контент по каноническим страницам и показываем в результатах поиска именно их (за исключением случаев, когда другой вариант страницы в большей степени подходит для пользователя). Например, при поиске на мобильном устройстве пользователь, скорее всего, увидит в результатах мобильную страницу, даже если канонической является ее версия для компьютеров.

Для чего можно иметь похожие или идентичные страницы

В некоторых случаях имеет смысл сохранять разные URL, которые ведут на одну и ту же страницу (или на очень похожие ее варианты). Вот примеры таких ситуаций:

  • Таким способом реализована поддержка нескольких типов устройств:
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
  • Требуется создавать динамические URL, включающие, например, параметры поиска или идентификаторы сеансов:
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • В выбранном сервисе для работы с блогами автоматически создаются разные URL при публикации одной записи в нескольких разделах:
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • Ваш сервер отправляет один и тот же контент, когда URL различаются только префиксами www, http и https, а также вариантами портов протоколов:
    https://example.com/green-dresses
    https://example.com/green-dresses
    https://www.example.com/green-dresses
    https://example.com:80/green-dresses
    https://example.com:443/green-dresses
  • Контент блога, предназначенный для распространения на других сайтах, полностью или частично публикуется заново в доменах этих сайтов:
    https://news.example.com/green-dresses-for-every-day-155672.html (скопированная запись) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (исходная запись)

Для чего вам нужно выбирать канонический URL

Выбрать каноническую страницу из числа одинаковых или похожих стоит по нескольким причинам:

  • Чтобы указать, какой URL следует показывать в результатах поиска. Предположим, вы хотите, чтобы посетители переходили на страницу с описанием платьев зеленого цвета по адресу https://www.example.com/dresses/green/greendress.html, а не https://example.com/dresses/cocktail?gclid=ABCD.
  • Для консолидации переходов на одинаковые или повторяющиеся страницы. Это позволит поисковым системам объединить всю информацию, которая у них есть о разных страницах (например, ссылки на них), и связать ее с одним URL. Так, ссылки с других сайтов на страницу https://example.com/dresses/cocktail?gclid=ABCD будут объединены со ссылками на страницу https://www.example.com/dresses/green/greendress.html.
  • Чтобы упростить получение статистики по отдельным товарам или темам. Если контент размещен на нескольких страницах с разными URL, это затрудняет получение обобщенной статистики по нему.
  • Для управления скопированным контентом. Если вы размещаете контент в других доменах, нужно, чтобы в результатах поиска появлялся основной URL.
  • Чтобы оптимизировать сканирование сайта. У робота Googlebot должна быть возможность обрабатывать новый и обновленный контент, не тратя время на множество вариантов страниц, например предназначенных для разных типов устройств. В противном случае ваш сайт не будет сканироваться эффективно.

Как узнать, какую страницу Google считает канонической

Чтобы узнать, какую страницу алгоритмы Google считают канонической, воспользуйтесь инструментом проверки URL. Даже если вы явно укажете канонический URL, Google может выбрать другую страницу. Это зависит от многих факторов, например от контента страницы и ее эффективности в Google Поиске.

Как указать каноническую страницу

Это можно сделать одним из описанных ниже способов. Указывать канонический URL любым из перечисленных здесь способов желательно, но не обязательно. Если вы не выделите в качестве канонического ни один URL, мы выберем наиболее подходящую версию сами. Не забывайте следовать общим рекомендациям.

Способ и описание
Тег rel=canonical <link>

Добавьте в код всех повторяющихся страниц тег <link>, указывающий на каноническую страницу.

Плюсы
  • Так можно пометить любое количество страниц.

Минусы

  • Увеличивается размер страницы.
  • Разметка крупных сайтов или ресурсов, на которых URL часто меняются, отнимает много усилий.
  • Способ работает только с HTML-страницами, но не с файлами, например в формате PDF. Для такого контента можно использовать атрибут rel=canonical в HTTP-заголовке.
HTTP-заголовок rel=canonical

Включите в HTTP-заголовок страницы поле rel=canonical.

Плюсы

  • Не увеличивает размер страницы.
  • Так можно пометить любое количество страниц.

Минусы

  • Разметка крупных сайтов или ресурсов, на которых URL часто меняются, отнимает много усилий.
Файл Sitemap

Укажите канонические страницы в файле Sitemap.

Плюсы

  • Легко настроить и обновлять, особенно на крупных сайтах.

Минусы

  • Роботам Googlebot все равно нужно определить повторяющуюся страницу для каждой канонической, которую вы укажете в файле Sitemap.
  • Для роботов Google этот сигнал является менее значимым, чем атрибут rel=canonical.
Переадресация с кодом статуса 301 С помощью переадресации с кодом статуса 301 можно сообщить роботу Googlebot, что URL переадресации более актуален. К этому способу следует прибегать только в том случае, если решено прекратить показ копии страницы.
Вариант страницы в формате AMP Если один из вариантов страницы опубликован в таком формате, укажите каноническую страницу и ее AMP-версию согласно инструкциям для AMP.

Общие рекомендации

Ниже приведены общие правила нормализации URL.

  • Не используйте для нормализации файл robots.txt.
  • Не используйте для нормализации инструмент удаления URL. Он удаляет из результатов поиска все варианты адреса.
  • Не указывайте разные URL в качестве канонических для одной страницы, какой бы способ вы ни выбрали (например, не надо выделять в файле Sitemap один URL, а с помощью атрибута rel="canonical" – другой).
  • Не используйте директиву noindex, чтобы запретить выбирать ту или иную страницу в качестве канонической. Она предназначена для исключения страницы из индекса.
  • Указывайте каноническую страницу при использовании тегов с атрибутом hreflang. Каноническая страница должна быть на том же языке, что и альтернативная, а если это невозможно, то на самом близком к нему языке.

  • При создании ссылок в пределах своего сайта используйте канонический URL, а не URL копий. Это поможет нам понять, какую страницу вы считаете приоритетной.

Почему следует отдавать предпочтение протоколу HTTPS при выборе канонических URL

Определяя канонические URL, Google отдает предпочтение страницам HTTPS, если не обнаруживаются проблемы, например такие:

  • Страница HTTPS использует недействительный сертификат SSL.
  • Страница HTTPS содержит небезопасные зависимости (кроме изображений).
  • Страница HTTPS выполняет переадресацию на страницу HTTP.
  • Страница HTTPS указывает на страницу HTTP при помощи тега link с атрибутом rel="canonical".

Хотя Google по умолчанию предпочитает страницы HTTPS, вы можете обеспечить их выбор, выполнив любое из следующих действий:

  • Добавьте переадресацию с HTTP-страницы на HTTPS.
  • Добавьте на страницу HTTP тег link с атрибутом rel="canonical", указывающий на страницу HTTPS.
  • Используйте технологию HSTS.

Что делать, чтобы страница HTTP не была ошибочно назначена канонической:

  • Избегайте использования недействительных сертификатов TLS или SSL, а также переадресаций со страниц HTTPS на HTTP, поскольку эти факторы в высокой степени способствуют выбору страниц HTTP даже в случае применения технологии HSTS.
  • В файлах Sitemap и атрибутах hreflang указывайте страницу HTTPS, а не HTTP.
  • Не используйте сертификат SSL или TLS для некорректного хоста (например, когда example.com передает сертификат для www.example.com). Сертификат должен соответствовать полному URL сайта или являться групповым, то есть охватывающим несколько субдоменов определенного домена.

Чтобы указать, является ли страница канонической, можно использовать тег <link> в разделе head HTML-документа.

Предположим, вы хотите назначить канонической страницу https://example.com/dresses/green-dresses, в то время как ее контент доступен и по другим URL. Выполните следующие действия:

  1. Пометьте все копии страницы при помощи тега link с атрибутом rel="canonical".

    Добавьте в раздел <head> всех копий страницы элемент <link>, содержащий атрибут rel="canonical" и ссылку на каноническую версию. Пример:

    <link rel="canonical" href="https://example.com/dresses/green-dresses" />
  2. Если у канонической страницы есть вариант для мобильных устройств, добавьте на нее тег link с атрибутом rel="alternate" и ссылкой на мобильную версию:
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="https://m.example.com/dresses/green-dresses">
  3. В случае необходимости добавьте атрибуты hreflang или настройте переадресацию другими способами.

Теги link с атрибутом rel="canonical" должны содержать абсолютные пути, а не относительные.

Рекомендуется: https://www.example.com/dresses/green/greendress.html

Не рекомендуется: /dresses/green/greendress.html

Если при добавлении тегов link с атрибутом rel="canonical" вы используете JavaScript, соблюдайте инструкции.

HTTP-заголовок с атрибутом rel="canonical"

Если у вас есть доступ к настройкам сервера, то для HTML-страниц, PDF-файлов и других поддерживаемых Google Поиском документов канонические URL можно указывать с помощью атрибута rel="canonical" в HTTP-заголовке, а не HTML-теге.

В настоящее время этот способ поддерживается только для веб-поиска.

Например, если на вашем сайте один и тот же PDF-файл доступен по нескольким URL, вы можете использовать HTTP-заголовок с атрибутом rel="canonical", чтобы сообщить роботу Googlebot, какой из этих URL является каноническим:

Link: <https://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Для HTTP-заголовка с атрибутом rel="canonical" действуют те же рекомендации, что и для тега link с атрибутом rel="canonical". Согласно протоколу RFC2616 в HTTP-заголовке rel="canonical" следует использовать только двойные кавычки.

Файл Sitemap

Укажите канонический URL для каждой страницы в файле Sitemap. Все страницы в нем предлагаются в качестве канонических. Роботы Google будут определять, какие из них являются повторяющимися (при наличии), по их контенту.

Мы не гарантируем, что URL в файле Sitemap будут рассматриваться как канонические во всех случаях. Но в целом это удобный способ для указания приоритетных URL на крупном сайте.

Не включайте в файл Sitemap неканонические страницы, если вы его используете.

Код статуса 301 для URL удаленных страниц

Этот способ подойдет вам, если вы решили избавиться от повторяющихся страниц и хотите настроить переадресацию с устаревших URL на канонический.

Предположим, на вашу страницу можно перейти по следующим URL:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Укажите один из этих адресов в качестве канонического и используйте переадресацию 301 на стороне сервера, чтобы перенаправлять на выбранный адрес трафик с других URL. Переадресация 301 на стороне сервера – это лучший способ обеспечить переход пользователей и поисковых систем на нужную страницу. Код статуса 301 означает, что запрашиваемая страница находится по другому адресу.

Если у вас есть доступ к сервису веб-хостинга, узнайте из его документации, как настроить переадресацию 301.

Устранение неполадок

Если канонический URL относится к ресурсу, который вам не принадлежит, вы не сможете отслеживать трафик на копии страницы. Ниже перечислены основные причины, по которым канонический URL может относиться к отдельному ресурсу.

  • Неправильно отмеченные языковые варианты. Если на нескольких ваших сайтах размещен практически одинаковый контент на разных языках, следуйте нашим рекомендациям в отношении локализованных версий страниц.
  • Ошибки в тегах с атрибутом rel="canonical". Некоторые системы управления контентом (CMS) или их плагины могут неправильно выполнять нормализацию, указывая на внешние URL. Проверьте, не в этом ли заключается проблема. Если ваш сайт указывает на неверный канонический URL, это может происходить из-за некорректного использования атрибута rel="canonical" или переадресации 301. Вы можете сами исправить эту ошибку.
  • Неправильно настроенные серверы. Выбор основного URL вне вашего домена может быть связан с ошибками в настройках серверов, на которых размещен контент. Примеры:
    • Сервер может быть настроен так, чтобы передавать контент с сайта a.com в ответ на обращение к URL сайта b.com.
    • Два не связанных между собой сервера могут выдавать одинаковые страницы ложных ошибок soft 404, которые не распознаются Google как сообщения об ошибках.
  • Атаки злоумышленников. Некоторые виды хакерских атак заключаются в добавлении на сайт кода, который выполняет переадресацию 301 HTTP или вставляет междоменный тег link с атрибутом rel="canonical" в раздел <head> HTML или HTTP-заголовок. В результате пользователь попадает на сайт, который содержит вредоносное ПО или спам. В таких случаях вместо настоящего URL взломанного сайта алгоритмы Google могут выбрать URL, указанный злоумышленником.
  • Кража контента. В редких случаях алгоритмы Google выбирают URL внешней страницы, на которой без разрешения размещен ваш контент. Если ваши материалы были опубликованы на другом сайте в нарушение авторских прав, вы можете обратиться к владельцу сервера этого сайта с просьбой их убрать. Вы также можете запросить в Google удаление страницы с украденными материалами из результатов поиска в соответствии с законом США "Об авторском праве в цифровую эпоху" (DMCA).