Разделение крупных файлов Sitemap

Любой файл Sitemap размером больше 50 МБ необходимо разделить. Несколько файлов Sitemap можно отправить одновременно, объединив их с помощью файла индекса Sitemap. Это файл в формате XML, который по структуре очень похож на обычный файл Sitemap. В файлах индекса используются следующие теги XML:

  • sitemapindex – родительский тег в начале и конце файла;
  • sitemap – родительский тег для каждого файла Sitemap, указанного в индексе (дочерний по отношению к тегу sitemapindex);
  • loc – тег с адресом файла Sitemap (дочерний по отношению к тегу sitemap).

Более подробная информация о синтаксисе файлов доступна на странице с описанием протокола Sitemap.

В примере ниже показан файл индекса Sitemap в формате XML, объединяющий два файла Sitemap.

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>http://www.example.com/sitemap1.xml.gz</loc>
  </sitemap>
  <sitemap>
    <loc>http://www.example.com/sitemap2.xml.gz</loc>
  </sitemap>
</sitemapindex>

Как и файлы Sitemap, файлы индекса Sitemap должны быть не больше 50 МБ (в несжатом виде) и могут содержать до 50 000 URL. Кроме того, файлы Sitemap должны создаваться в кодировке UTF-8, а в URL необходимо применять экранирование.

Создав и сохранив файл индекса Sitemap, вы можете отправить его в Google. Все файлы Sitemap должны быть загружены на тот же сайт, что и файл индекса Sitemap. Если файлы Sitemap указаны в файле индекса Sitemap, они должны находиться на том же или более низком уровне в структуре сайта, что и этот файл. Например, файл индекса Sitemap, размещенный по адресу https://example.com/public/sitemap_index.xml, может содержать только файлы Sitemap, которые находятся в том же или более отдаленном каталоге, таком как https://example.com/public/shared/.... Для каждого сайта в аккаунте Search Console можно отправить не более 500 файлов индекса Sitemap.

Файлы Sitemap для нескольких сайтов

Если у вас несколько сайтов, вы можете упростить процедуру создания и отправки файлов Sitemap. Для этого создайте один или несколько файлов со всеми URL и сохраните их в одной папке. Все сайты должны быть подтверждены в Search Console. Можно выбрать один из перечисленных ниже вариантов:

  • Один файл Sitemap, содержащий URL нескольких сайтов (даже из разных доменов). Например, файл Sitemap, размещенный по адресу http://host1.example.com/sitemap.xml, может содержать следующие URL:
    • http://host1.example.com
    • http://host2.example.com
    • http://host3.example.com
    • http://host1.example1.com
    • http://host1.example.ch
  • Отдельные файлы Sitemap (по одному для каждого сайта) в одном каталоге:
    • http://host1.example.com/host1-example-sitemap.xml
    • http://host1.example.com/host2-example-sitemap.xml
    • http://host1.example.com/host3-example-sitemap.xml
    • http://host1.example.com/host1-example1-sitemap.xml
    • http://host1.example.com/host1-example-ch-sitemap.xml

Чтобы разместить файлы Sitemap для нескольких сайтов в одном месте, подтвердите право собственности на каждый сайт, указанный в этих файлах, в Search Console или перечислите файлы Sitemap по отдельности в файле robots.txt на каждом сайте.

Чтобы отправить файлы Sitemap через Search Console, выполните следующие действия:

  1. Убедитесь в том, что вы подтвердили права собственности на все выбранные сайты.
  2. Создайте файл Sitemap, содержащий URL всех нужных сайтов. Можно создать один такой файл со всеми адресами или несколько файлов Sitemap для каждого сайта в отдельности.
  3. Отправьте файлы Sitemap с помощью Search Console.

Чтобы указать файлы Sitemap в файле robots.txt каждого сайта, выполните следующие действия:

  1. Создайте файлы Sitemap, в каждом из которых содержатся URL страниц лишь с одного сайта.
  2. Загрузите все файлы Sitemap на один сайт, который вам принадлежит, например https://sitemaps.example.com.
  3. Установите ссылку на файл Sitemap каждого сайта в файлах robots.txt, которые относятся к этому сайту. Предположим, вы разместили файл Sitemap, созданный для сайта https://example.com/, по адресу https://sitemaps.example.com/sitemap-example-com.xml. Тогда вы должны указать ссылку на этот файл в файле robots.txt, размещенном на странице https://example.com/robots.txt, по адресу sitemap: https://sitemaps.example.com/sitemap-example-com.xml.