Руководство по системам ранжирования Google Поиска

Системы автоматического ранжирования результатов Google при каждом запросе сортируют сотни миллиардов веб-страниц и разного контента в индексе Google Поиска. Они учитывают многие факторы и сигналы и за доли секунды находят наиболее релевантные и полезные результаты.

Мы постоянно улучшаем алгоритмы сортировки, тщательно тестируя и оценивая обновления перед внедрением, и сообщаем пользователям об изменениях, которые могут быть им полезны.

В этой статье мы рассказываем о самых важных алгоритмах сортировки. Некоторые из них являются частью основных систем ранжирования, которые подбирают результаты поиска в ответ на запросы. Здесь же вы найдете описания алгоритмов, используемых для ранжирования по особым правилам.

Системы ранжирования дополняют другие инструменты Google Поиска и помогают систематизировать всю имеющуюся в мире информацию, делая ее доступной и удобной для использования. Подробнее об этом рассказано на сайте Принципы работы Google Поиска.

BERT

BERT – система Google на основе искусственного интеллекта, которая помогает соотносить сочетания слов с различным контекстами и намерениями.

Системы информирования в кризисных ситуациях

Компания Google разработала системы для оперативного предоставления полезной информации в кризисные периоды, к которым относятся личностные кризисы, стихийные бедствия и другие широкомасштабные кризисные ситуации.

  • Личностные кризисы. Наши системы способны определять, когда пользователи ищут информацию, связанную с кризисной ситуацией в личной жизни: суицидальными мыслями, изнасилованием, проглатыванием отравляющих веществ, насилием по признаку пола или возникновением наркотической зависимости. В результатах поиска при этом появятся телефоны доверия и материалы проверенных организаций. Подробнее о результатах Google Поиска по запросам, связанным с личностными кризисами
  • Экстренные оповещения. Во время стихийных бедствий или широкомасштабных кризисов система экстренных оповещений будет показывать информацию, публикуемую местными, национальными и международными органами государственной власти. Примеры такой информации: номера телефонов и адреса сайтов для экстренной связи, карты, переводы важных фраз, способы отправки пожертвований и т. д. Подробнее об алгоритме экстренных оповещений и его роли в работе системы Google, которая применяется во время стихийных бедствий

Системы дедупликации

Поиск по индексу Google может возвращать тысячи или даже миллионы подходящих под запрос веб-страниц. Некоторые из них могут быть практически полными копиями друг друга. В таких случаях системы Google показывают только наиболее релевантные результаты без ненужных дубликатов. Подробнее о дедупликации и способах посмотреть исключенные результаты

Дедупликация применяется и к выделенным описаниям. Если на какой-либо веб-странице есть информация, которая будет вынесена в выделенное описание, оно не будет повторяться на первой странице результатов. Это помогает упорядочить результаты и упрощает пользователям поиск релевантной информации.

Система контроля точного соответствия доменов

Для систем ранжирования Google слова в доменных именах – это один из множества критериев релевантности контента. Наша система контроля точного соответствия доменов поможет отфильтровать контент, размещенный в доменах, которые были специально адаптированы под соответствие определенным запросам. Например, доменное имя "кафе-с-лучшими-бизнес-ланчами" явно указывает на стремление владельца поднять страницу в список лучших результатов. Система контроля Google блокирует такие попытки найти лазейки.

Системы ранжирования по актуальности

Чтобы оправдывать ожидания пользователей во всех случаях, когда запрос предполагает получение последних новостей, компания Google использует несколько систем для отслеживания актуальности результатов. Например, при поиске информации о недавно выпущенном фильме большинство обычно ожидает увидеть не старые статьи о начале съемок, а свежие рецензии. Запрос "землетрясение" может вернуть страницы с правилами поведения при землетрясении. Но если где-либо в мире недавно произошло землетрясение, в результатах могут появиться новости об этом.

Система ранжирования по качеству контента

Благодаря системе ранжирования по качеству контента пользователи гарантированно получают в результатах поиска материалы, созданные людьми и для людей, а не для привлечения трафика из поисковой системы.

У нас есть несколько систем для отслеживания ссылок, связывающих страницы между собой. Эти системы помогают определить смысловое содержание страниц и подобрать результаты, больше всего соответствующие введенному запросу. К таким системам относится и PageRank, один из основных алгоритмов ранжирования и ровесник поисковой системы Google. Подробнее о нем рассказывается в оригинальной научной статье и на странице с описанием патента. С тех пор алгоритм PageRank сильно изменился, но он по-прежнему остается одной из основных систем ранжирования Google.

Системы поиска местных новостей

У Google также есть системы, помогающие находить местные источники новостей, например для каруселей "Главные новости" или "Местные новости".

MUM

MUM (Multitask Unified Model) – система на основе искусственного интеллекта, умеющая распознавать сложные запросы и предлагать ответы на них. В Google Поиске она используется не для ранжирования результатов по общим запросам, а для более узких целей, например для улучшения поисковой выдачи о вакцине от вируса COVID-19 или выделенных описаний.

Алгоритм нейронных соответствий

Алгоритм нейронных соответствий распознает в запросах концепции и подбирает для них подходящие страницы. Он основан на принципах искусственного интеллекта.

Системы определения уникального контента

Компания Google использует системы, благодаря которым в результатах поиска первые места занимает уникальный контент, в том числе оригинальные репортажи, а не материалы с цитатами из них. Например, мы внедрили поддержку канонической разметки, чтобы авторам было проще найти основную страницу среди ее дубликатов на разных ресурсах.

Системы понижения рейтинга из-за удаления контента

Если контент определенного типа нарушает правила Google, он может быть удален. Если в отношении какого-либо сайта поступает много запросов на удаление контента, для нас это признак того, что нужно улучшить поисковые алгоритмы. В их числе:

  • Удаление на юридических основаниях. Когда к нам поступает много запросов на удаление контента в связи с нарушением авторских прав в отношении определенного сайта, это может стать поводом понизить позиции остальных материалов этого сайта в результатах поиска Google. Это делается для того, чтобы контент, нарушающий авторские права, встречался пользователям реже, чем уникальный контент. Мы понижаем позиции и при наличии жалоб другого рода, например на клевету или поддельные товары, а также при получении запроса на удаление контента по решению суда. Обнаруживая контент, представляющий несовершеннолетних в сексуальном контексте, мы всегда удаляем его, а также понижаем рейтинг сайтов с высокой долей такого контента.
  • Удаление из-за нарушения правил в отношении персональных данных. Если в отношении какого-либо сайта, требующего плату за удаление данных, поступает множество запросов на удаление персональных данных, мы понижаем позиции остальных его материалов в результатах поиска Google. Мы также ищем признаки подобного поведения на других сайтах. Обнаружив эти признаки, мы понижаем позиции таких сайтов. Кроме того, мы можем принимать аналогичные меры к сайтам, в отношение которых поступает много запросов на удаление контента, размещенного в целях доксинга, или визуального контента сексуального характера, опубликованного без разрешения.

Система ранжирования фрагментов

Система ранжирования фрагментов – это интеллектуальный алгоритм, который предназначен для анализа отдельных разделов (или "фрагментов") веб-страницы, чтобы оценить ее релевантность относительно поискового запроса.

Система RankBrain

RankBrain представляет собой систему на основе искусственного интеллекта, которая отвечает за сопоставление слов с концепциями. Это значит, что, даже если на сайте с релевантным контентом не будет слов из поискового запроса в точной форме, он все равно займет высокую позицию, так как будет распознана связь с другими словами и концепциями.

Системы ранжирования по надежности информации

Поисковая система Google объединяет множество алгоритмов, благодаря которым в результаты попадают наиболее заслуживающие доверия материалы. Этого удается достичь, в частности, за счет выбора надежных страниц, понижения позиций низкокачественного контента и приоритизации высококачественной журналистики. Когда заслуживающая доверия информация отсутствует, в результаты автоматически добавляются предупреждения о контенте. Это может происходить, если пользователя интересуют темы, вызывающие активное обсуждение, или если мы не уверены в качестве результатов поиска. В этих предупреждениях содержатся советы, как улучшить запрос, чтобы получить более полезные результаты. Подробнее о том, как получить заслуживающие доверия результаты в Google Поиске

Система отзывов

Система ранжирования отзывов необходима для того, чтобы преимущество в результатах поиска Google получали более качественные отзывы, которые подготовлены экспертами или компетентными пользователями и содержат подробный анализ или оригинальное исследование.

Система обеспечения разнообразия сайтов

Наша система обеспечения разнообразия сайтов, как правило, не допускает показа в списке популярных результатов более двух веб-страниц с одного и того же сайта, чтобы все лидирующие позиции не оказались заняты одним ресурсом. Исключения возможны, если наши алгоритмы оценивают такие страницы как особенно релевантные для определенного поискового запроса. Субдомены в большинстве случаев считаются частью корневого домена. Например, описания с уровня субдомена (subdomain.example.com) и корневого домена (example.com) будут считаться относящимися к одному и тому же сайту. Но с точки зрения разнообразия релевантные для запроса субдомены могут в некоторых случаях расцениваться как отдельные сайты.

Системы обнаружения веб-спама

Никому не хочется видеть в папке входящих электронных писем спам, поэтому спам-фильтры никогда не бывают лишними. В сервисе "Google Поиск" существует похожая проблема – интернет переполнен спамом, который, если с ним не бороться, может вытеснить действительно полезные и релевантные результаты. Для блокировки контента и действий, которые нарушают наши правила в отношении веб-спама, мы используем различные системы обнаружения, в том числе SpamBrain. Они постоянно обновляются, чтобы пользователи Google были всегда защищены от эволюционирующей угрозы спама.

Системы, поддержка которых была прекращена

Описания следующих систем приведены для того, чтобы сохранить информацию о них в архивах Google. В настоящее время они стали частью алгоритмов, которые пришли им на смену, или основных систем ранжирования Google.

Hummingbird

Это было крупное обновление для систем ранжирования, выпущенное в августе 2013 года. Оно стало важным этапом в их развитии, но впоследствии его сменили более совершенные алгоритмы.

Система Panda

Эта система была создана для того, чтобы в результатах поиска появлялся высококачественный и уникальный контент. Мы выпустили ее в 2011 году под названием Panda, а в 2015 году интегрировали в основные системы ранжирования Google.

Система Penguin

Эта система предназначалась для борьбы со ссылочным спамом. Она была анонсирована и выпущена в 2012 году под названием "обновление Penguin", а спустя четыре года интегрирована в основные системы ранжирования Google.