Устранение инцидентов и неполадок платформы Google Карт

Каналы информирования об инциденте

Служба поддержки платформы Google Карт сообщает об инцидентах через различные каналы.

В системе отслеживания ошибок, инцидентов и сбоев платформы Google Карт перечислены все известные проблемы. Там вы можете видеть текущие инциденты и следить за их решением, а также добавлять комментарии, чтобы предоставить больше информации для ее изучения. Вы также можете подписаться на конкретную проблему.

Группа уведомлений платформы Google Карт – это основной ресурс, где публикуются сообщения о массовых сбоях. Все клиенты, которые присоединились к группе, получают уведомление по электронной почте после обнаружения проблемы и регулярные сообщения, пока она не будет решена.

После обнаружения инцидента и сообщения о нем в системе отслеживания ошибок на странице Поддержка платформы Google Карт (в Cloud Console) отображается баннер. На нем указан затронутый продукт и приведена ссылка на систему отслеживания ошибок.

Этапы устранения инцидента

Процесс решения проблем, связанных с платформой Google Карт, основывается на модели управления инцидентами Google Cloud Platform.

В случае сбоя или ухудшения качества обслуживания служба поддержки платформы Google Карт вместе с командой разработчиков продукта занимается решением проблемы и информирует пользователей о проделанной работе.

Этапы устранения инцидента

Обнаружение

Команда Google использует внутренний мониторинг на основе метода черного ящика, чтобы отслеживать инциденты. Подробную информацию об этом можно найти в Главе 6 книги Site Reliability Engineering.

Если вы обнаружили проблему, о которой еще не сообщили в системе отслеживания ошибок, перейдите на страницу Поддержка платформы Google Карт (в Cloud Console) и создайте запрос в службу поддержки.

Первичный ответ

Служба поддержки информирует пользователей об инциденте после его обнаружения. В первом уведомлении часто упоминается только затронутый продукт, так как на этом этапе важно как можно быстрее сообщить о проблеме, а ее подробное описание предоставляется в последующих сообщениях.

В зависимости от масштаба и серьезности инцидента используются разные каналы связи для информирования клиентов.

Ответ

Изучение причин инцидента

Команды разработчиков продукта изучают основные причины неполадок. Устранением проблем и восстановлением работы сервисов занимаются специалисты по контролю надежности сайтов, а также разработчики программного обеспечения или другие сотрудники, в зависимости от ситуации и продукта. Подробную информацию об этом можно найти в Главе 12 книги Site Reliability Engineering.

Уменьшение последствий и решение проблемы

Проблема считается решенной только в том случае, если шаги, предпринятые командой Google, по ее исправлению приведут к полному устранению неполадок, затрагивающих продукт. Например, это может быть откат изменения, которое вызвало ошибку.

Также во время решения проблемы команда разработчиков и служба поддержки пытаются уменьшить последствия, если масштаб или характер инцидента позволяют это сделать. Например, для перегруженного сервиса могут быть временно выделены дополнительные ресурсы.

Если смягчить последствия не получается, служба поддержки по возможности предоставляет временное решение. С помощью такого решения вы можете продолжить пользоваться продуктом или сервисом, несмотря на то, что основная проблема остается нерешенной. Например, можно задать другие настройки для вызова API, чтобы обойти проблемный путь в коде.

Информирование о статусе устранения инцидента

Во время решения проблемы служба поддержки регулярно информирует пользователей о проделываемой работе. В уведомлениях обычно содержатся следующие сведения:

  • дополнительная информация об инциденте, например сообщения об ошибках, список затронутых функций и описание масштаба неполадок;
  • отчет о продвижении в устранении инцидента, включая шаги по уменьшению последствий и временные решения;
  • хронология отправки уведомлений об инциденте в зависимости от его характера;
  • изменение статуса инцидента, например когда проблема была решена.

Анализ

После решения проблемы команда Google проводит тщательный внутренний анализ инцидента, чтобы понять причины его возникновения и определить шаги по улучшению продукта. Затем все эти предписания отслеживаются и внедряются. Подробную информацию об этом можно найти в Главе 15 книги Site Reliability Engineering.

Отчет об инциденте

В случае масштабных и серьезных проблем Google предоставляет отчеты, в которых описываются признаки инцидента, его основная причина и влияние на продукт, меры по ликвидации последствий и предотвращению подобных инцидентов в будущем. Как и при проведении внутреннего анализа, мы уделяем особое внимание повышению стабильности наших продуктов на основе информации, полученной во время устранения неполадок. Цель Google при составлении и публикации внутренних отчетов – продемонстрировать прозрачность компании и заинтересованность в создании надежных сервисов для наших клиентов.

Часто задаваемые вопросы

Я хочу получать уведомления о текущих сбоях. Что для этого нужно сделать?

Присоединитесь к группе уведомлений платформы Google Карт, чтобы получать сообщения о текущих проблемах и следить за их решением в режиме реального времени. В этой группе также публикуются новости о продуктах и сервисах платформы.

Как проверить, было ли вам уже отправлено сообщение о сбое?

Для пользователей платформы Google Карт доступны указанные ниже информационные ресурсы о сбоях и неполадках. Выберите вариант, который подходит вам лучше всего.

  • Система отслеживания ошибок со списком всех известных проблем. В ней вы можете видеть текущие инциденты и следить за их решением, а также добавлять комментарии, подписавшись на конкретную проблему, чтобы предоставить больше информации для ее изучения. Ссылку на общедоступную систему отслеживания ошибок платформы Google Карт можно найти в документации о поддержке и ресурсах.
  • Группа уведомлений платформы Google Карт – это группа, в которой сообщается обо всех масштабных сбоях. Все клиенты, которые присоединились к группе, получают уведомление по электронной почте после обнаружения проблемы и регулярные сообщения, пока она не будет решена.
  • Страница Поддержка платформы Google Карт (в Cloud Console). После обнаружения проблемы и сообщения о ней в системе отслеживания ошибок на странице "Поддержка" отображается баннер, на котором указаны затронутый продукт и ссылка на проблему.

    Сбой

Моя проблема не описана в группе уведомлений и системе отслеживания ошибок. Что делать?

Проблема может быть характерна только для ваших проектов или затрагивать ограниченное количество клиентов. Если об инциденте нет уведомлений, перейдите на страницу Поддержка платформы Google Карт (в Cloud Console) и создайте запрос в службу поддержки.

Чем отличается инцидент от сбоя?

Несмотря на то, что эти термины часто используются как синонимы, в наших уведомлениях слово "инцидент" означает обычное ухудшение качества обслуживания, а "сбой" – только наиболее серьезные проблемы, при которых работа продукта нарушена в значительной степени.