Подробное руководство по принципам работы Google Поиска

Наша поисковая система полностью автоматизирована и использует так называемых поисковых роботов, которые постоянно сканируют интернет и добавляют в индекс Google новые страницы. Почти все сайты в результатах поиска Google найдены именно так, а не добавлены вручную. В этом документе рассказывается о том, как Google Поиск работает с контентом на вашем сайте. Изучив эту информацию, вы сможете устранить проблемы со сканированием, обеспечите индексирование своих страниц, а также узнаете, как улучшить представление своего сайта в Google Поиске.

Примечания

Внимание! Компания Google не взимает плату за то, чтобы чаще сканировать сайты или повышать их позиции в результатах поиска. Те, кто утверждает обратное, вводят вас в заблуждение.

Мы не гарантируем, что ваш сайт будет просканирован, проиндексирован и показан в результатах поиска, даже если он соответствует нашим рекомендациям из руководства Главное о Google Поиске.

Три этапа в алгоритме работы Google Поиска

Алгоритм Google Поиска включает три этапа, которые перечислены ниже, однако при обработке определенных страниц некоторые из них могут не выполняться.

Сканирование. Google скачивает текст, изображения и видео с сайтов в интернете с помощью автоматизированных программ, называемых роботами.
Индексирование. Google анализирует размещенные на странице текстовые фрагменты, изображения и видео, а затем сохраняет информацию о них в индексе Google, который представляет собой большую базу данных.
Показ результатов поиска. После того как вы введете в Google поисковый запрос, наша система предложит вам наиболее подходящие результаты.

Сканирование

Первый этап заключается в поиске страниц, опубликованных в интернете. Поскольку их централизованного реестра не существует, роботу Google приходится постоянно искать новые страницы и добавлять их к списку уже известных нам. Этот процесс называется обнаружением URL. Некоторые страницы нам уже известны, потому что робот Google посещал их раньше. Другие обнаруживаются, когда он извлекает ссылку с уже известных страниц (например, ссылку на новую запись в блоге на главной странице). Иногда владельцы сайтов сами присылают нам списки URL, которые нужно просканировать, – так называемые файлы Sitemap.

Обнаружив URL страницы, робот Google посещает ее (или сканирует), чтобы узнать, что на ней опубликовано. Мы постоянно сканируем миллиарды страниц в интернете, используя для этого огромное количество компьютеров. Программа, которая извлекает данные о страницах, называется роботом Googlebot (а также поисковым роботом или "пауком"). Робот Googlebot автоматически определяет, какие сайты следует сканировать, как часто это нужно делать, а также какое количество страниц следует обработать на каждом из них. Кроме того, поисковые роботы Google запрограммированы так, чтобы сканировать сайт не слишком быстро и тем самым предотвращать его перегрузку. Это достигается за счет механизма, который учитывает ответы сайта (например, ошибки HTTP 500 означают, что работа сайта замедлена).

В то же время робот Googlebot сканирует не все обнаруженные страницы. Некоторые страницы запрещено сканировать, а к другим нельзя получить доступ без ввода пароля.

В ходе сканирования Google отрисовывает страницу и запускает обнаруженный код JavaScript в актуальной версии Chrome, подобно тому как браузер отрисовывает страницы, которые вы посещаете. Это очень важно, потому что для показа содержимого страницы часто используется JavaScript, и без отрисовки Google может не извлечь контент с нее.

Возможность сканирования зависит от того, есть ли у поисковых роботов Google доступ к сайту. Его может не быть по следующим причинам:

Индексирование.

После сканирования страницы Google старается выяснить, какого рода контент на ней размещен. Этот этап называется индексированием и состоит из обработки и анализа представленного на ней текста и основных тегов и атрибутов (например, содержимого в тегах <title> и атрибутах alt), изображений, видео и т. п.

В ходе индексирования Google старается определить, не является ли обрабатываемая страница дубликатом или канонической версией какой-либо другой страницы. В результатах поиска обычно показывается каноническая версия. Она определяется следующим образом: сначала мы объединяем в группу (или кластер) найденные в интернете страницы с похожим контентом, а затем выбираем среди них главную. Остальные страницы в этой группе считаются альтернативными версиями, которые могут показываться в других ситуациях, например если пользователь выполняет поиск с помощью мобильного устройства или ищет определенную страницу из входящих в кластер.

Кроме того, Google собирает сигналы, относящиеся к каноническим страницам и их контенту, и может использовать эти сведения на следующем этапе – при показе в результатах поиска. К таким сигналам относятся язык страницы, ее удобство, страна, для которой предназначен контент, и т. п.

Информация о канонической странице и ее кластере может храниться в индексе Google – большой базе данных, размещенной на тысячах компьютеров. Мы не гарантируем, что все обработанные алгоритмами Google страницы будут проиндексированы.

Возможность индексирования также зависит от контента страницы и его метаданных. Проблемы с индексированием могут возникать по следующим причинам:

Показ результатов поиска

Когда пользователь вводит запрос, наша система находит в индексе и показывает в результатах поиска самые качественные страницы, в наибольшей степени соответствующие этому запросу. При этом учитываются сотни различных факторов, такие как местоположение, язык, тип устройства пользователя (компьютер или телефон) и многое другое. Например, результаты по запросу "ремонт велосипедов" будут различаться в зависимости от того, находитесь ли вы в Париже или в Гонконге.

От характера и содержания запроса также зависят функции, которые могут быть задействованы на странице результатов поиска. Например, в большинстве случаев по запросу "ремонт велосипедов" будут показаны местные результаты и не будет результатов поиска картинок, а по запросу "современный велосипед" – наоборот. С ключевыми элементами пользовательского интерфейса Google Поиска можно ознакомиться в галерее визуальных элементов.

Иногда проиндексированные страницы не показываются в результатах поиска. Это может произойти по следующим причинам:

Мы постоянно совершенствуем наши алгоритмы. Актуальную информацию об их изменениях вы можете отслеживать в блоге Центра Google Поиска.