Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

Углубленное руководство по принципам работы Google Поиска

Наша поисковая система полностью автоматизирована и использует так называемых поисковых роботов, которые постоянно сканируют интернет и добавляют в индекс новые страницы. Именно так найдены почти все сайты, доступные в Google Поиске. В этом документе рассказывается о том, как Google Поиск работает с контентом на вашем сайте. Изучив приведенную ниже информацию, вы сможете устранить проблемы со сканированием и индексированием страниц, а также узнаете, как оптимизировать показ своего сайта в Google Поиске.

Примечания

Мы не берем плату за то, чтобы чаще сканировать сайты или повышать их позиции в результатах поиска. Те, кто утверждает обратное, вводят вас в заблуждение.

Мы не гарантируем, что ваш сайт будет просканирован, проиндексирован и показан в результатах поиска, даже если он соответствует нашим рекомендациям из общих сведений о Google Поиске.

Алгоритм работы Google Поиска состоит из трех этапов, однако их проходят не все страницы.

  1. Сканирование. Google скачивает текст, изображения и видеофайлы с сайтов в интернете с помощью автоматизированных программ, называемых роботами.
  2. Индексирование. Google анализирует текст, изображения и видеофайлы на странице и сохраняет информацию о них в индексе Google, который представляет собой большую базу данных.
  3. Показ результатов поиска. Когда пользователь вводит в Google поисковый запрос, наша система показывает наиболее подходящие результаты.

Сканирование

Первый этап заключается в поиске страниц, опубликованных в интернете. Поскольку их официального реестра не существует, роботу Google приходится постоянно искать новые страницы и добавлять их к списку уже известных. Этот процесс называется "обнаружение URL". О некоторых страницах известно, потому что робот Google посещал их раньше. Другие обнаруживаются при переходе по ссылкам с уже известных страниц (например, на странице категории указана ссылка на новую запись в блоге). Иногда владельцы сайтов сами присылают нам списки URL, которые нужно просканировать, – так называемые файлы Sitemap.

Обнаружив URL страницы, робот Google посещает ее (сканирует), чтобы узнать, что на ней опубликовано. Для его работы используется огромное количество компьютеров, ведь он обрабатывает миллиарды страниц. Программа, выполняющая сканирование, называется робот Googlebot (или "паук"). Она автоматически определяет, какие сайты сканировать, как часто это нужно делать и какое количество страниц следует выбрать на каждом из них. Поисковые роботы Google стараются сканировать сайт не слишком быстро, чтобы не допустить его перегрузки. Этот механизм основан на ответах сайта (например, ошибки HTTP 500 означают, что работа сайта замедлена) и настройках в Search Console.

Робот Googlebot сканирует не все обнаруженные страницы. Некоторые страницы запрещено сканировать, другие страницы невозможно посмотреть без ввода пароля, а какие-то страницы являются дубликатами ранее отсканированных. Например, доступ ко многим сайтам осуществляется через версию доменного имени с префиксом www (www.example.com) и без него (example.com), даже если на них одинаковый контент.

В ходе сканирования Google отрисовывает страницу и запускает обнаруженный код JavaScript в актуальной версии Chrome. Похожим образом браузер отрисовывает страницы, которые вы посещаете. Это очень важно, потому что для показа контента на странице часто используется JavaScript, и без отрисовки Google может его не увидеть.

Возможность сканирования зависит от того, есть ли у поисковых роботов Google доступ к сайту. Его может не быть по следующим причинам:

Индексирование

После сканирования страницы нужно выяснить, какого рода контент на ней размещен. Этот этап называется индексированием и состоит из обработки и анализа текста и основных тегов и атрибутов (например, элементов <title> и атрибутов alt), изображений, видео и т. п.

В ходе индексирования Google определяет, является ли обрабатываемая страница дубликатом или канонической версией другой страницы. Каноническая версия может показываться в результатах поиска. Она определяется следующим образом: сначала мы объединяем в группу найденные в интернете страницы с похожим контентом, а затем выбираем среди них главную. Остальные страницы в этой группе считаются альтернативными версиями, которые могут показываться в других контекстах, например если пользователь выполняет поиск с помощью мобильного устройства или ищет определенную страницу из группы.

Кроме того, Google собирает сигналы о канонических страницах и их контенте и может использовать эти сведения на следующем этапе – при показе в результатах поиска. К таким сигналам относятся язык страницы, страна, для которой предназначен контент, использование страницы и т. п.

Информация о канонической странице и ее группе может храниться в индексе Google – большой базе данных, размещенной на тысячах компьютеров. При этом индексируются не все обработанные страницы.

Возможность индексирования также зависит от контента страницы и его метаданных. Проблемы могут возникать по следующим причинам:

Показ результатов поиска

Когда пользователь вводит запрос, наша система находит в индексе и показывает в результатах поиска самые подходящие страницы высокого качества. При этом учитываются сотни различных факторов, такие как местоположение, язык, тип устройства пользователя (компьютер или телефон) и многое другое. Например, результаты по запросу "ремонт велосипедов" будут различаться в зависимости от того, находитесь ли вы в Париже или в Гонконге.

Иногда проиндексированные страницы не показываются в результатах поиска. Это может произойти по следующим причинам:

Мы постоянно работаем над улучшением алгоритма. Вы можете следить за изменениями в блоге Центра Google Поиска.