Управление инцидентами на платформе Google Карт

Этапы устранения инцидента

Процесс решения проблем, связанных с платформой Google Карт, основывается на модели управления инцидентами Google Cloud Platform.

В случае сбоя или ухудшения качества обслуживания служба поддержки платформы Google Карт вместе с командой разработчиков продукта занимается решением проблемы и информирует пользователей о проделанной работе.

Этапы устранения инцидента

Обнаружение

Команда Google использует внутренний мониторинг на основе метода черного ящика, чтобы выявлять инциденты и уведомлять о них разработчиков. Подробную информацию об этом можно найти в главе 6 книги Site Reliability Engineering.

Если вы обнаружили проблему, о которой ещё не сообщили в системе отслеживания ошибок, перейдите на эту страницу платформы Google Карт (в Google Cloud Console) и создайте запрос в службу поддержки.

Первичный ответ

Служба поддержки информирует пользователей об инциденте после его обнаружения. В первом уведомлении часто упоминаются только затронутый продукт и основные проявления, так как на этом этапе важно как можно быстрее сообщить о проблеме, а ее подробное описание предоставляется в последующих сообщениях.

Ответ

Каналы информирования об инциденте

В зависимости от масштаба и серьезности инцидента служба поддержки платформы Google Карт использует разные каналы связи для информирования клиентов.

Если вы столкнулись с проблемой, в первую очередь просмотрите информацию на общедоступной панели статусов. Там приводятся сведения об инцидентах, затронувших многих клиентов, среди которых можете быть и вы. Каждый инцидент помечается как нестабильная работа, сбой или информация, чтобы вы могли оценить серьезность проблемы.

Группа уведомлений платформы Google Карт – это общедоступная группа, где публикуются сообщения обо всех массовых сбоях, а также об обновлениях API. Все участники группы получают уведомление по электронной почте после обнаружения проблемы и регулярные сообщения, пока она не будет решена.

Карточка статуса платформы Google Карт – это сообщение, появляющееся в разделе Поддержка Google Карт в Cloud Console, где показан текущий статус API и сервисов платформы. Когда возникает инцидент, появляется сообщение с перечислением затронутых продуктов и ссылкой на общедоступную панель статусов, где показаны активные инциденты.

Сбой

В системе отслеживания ошибок перечислены все известные проблемы. Вы можете видеть текущие инциденты и следить за их решением, подписавшись на сведения о конкретной проблеме, а также добавлять комментарии, чтобы предоставить больше информации для ее изучения. Ссылку на Систему отслеживания ошибок платформы Google Карт можно найти в справочной документации.

Запросы в службу поддержки используются, когда проблема характерна только для ваших проектов или затрагивает ограниченное количество клиентов. Если никто не сообщил об инциденте, но у вас проблема сохраняется, перейдите в Cloud Console на эту страницу платформы Google Карт и создайте запрос в службу поддержки.

Изучение причин инцидента

Команды разработчиков продукта изучают основные причины неполадок. Устранением проблем и восстановлением работы сервисов занимаются специалисты по контролю надежности сайтов, а также разработчики программного обеспечения или другие сотрудники в зависимости от ситуации и продукта. Подробную информацию об этом можно найти в главе 12 книги Site Reliability Engineering.

Уменьшение последствий и решение проблемы

Проблема считается решенной только в том случае, если шаги по ее исправлению, предпринятые командой Google, приведут к полному устранению неполадок, затрагивающих продукт. Например, это может быть откат изменения, которое вызвало ошибку.

Также во время решения проблемы команда разработчиков и служба поддержки пытаются уменьшить последствия, если масштаб или характер инцидента позволяют это сделать. Например, для перегруженного сервиса могут быть временно выделены дополнительные ресурсы.

Если смягчить последствия не получается, служба поддержки по возможности предоставляет временное решение. С помощью такого решения вы можете продолжить пользоваться продуктом или сервисом, несмотря на то что основная проблема остается нерешенной. Например, можно задать другие настройки для вызова API, чтобы обойти проблемный путь в коде.

Информирование о статусе устранения инцидента

Во время решения проблемы служба поддержки регулярно информирует пользователей о проделываемой работе. В уведомлениях обычно содержатся следующие сведения:

  • дополнительная информация об инциденте, например сообщения об ошибках, список затронутых функций и описание масштаба неполадок;
  • отчет о продвижении в устранении инцидента, включая шаги по уменьшению последствий и временные решения;
  • хронология отправки уведомлений об инциденте в зависимости от его характера;
  • изменение статуса инцидента, например когда проблема была решена.

Анализ

После решения проблемы команда Google проводит тщательный внутренний анализ инцидента, чтобы понять причины его возникновения и определить шаги по улучшению продукта. Затем все эти предписания отслеживаются и внедряются. Подробную информацию об этом можно найти в главе 15 книги Site Reliability Engineering.

Отчет об инциденте

В случае масштабных и серьезных проблем Google предоставляет отчеты, в которых описываются признаки инцидента, его основная причина и влияние на продукт, меры по ликвидации последствий и предотвращению подобных инцидентов в будущем. Как и при проведении внутреннего анализа, мы уделяем особое внимание повышению стабильности наших продуктов на основе информации, полученной во время устранения неполадок. Цель Google при составлении и публикации внутренних отчетов – продемонстрировать прозрачность компании и заинтересованность в создании надежных сервисов для наших клиентов.

Часто задаваемые вопросы

Я хочу получать уведомления о текущих сбоях. Что делать?

  • Присоединитесь к группе уведомлений платформы Google Карт, чтобы получать сообщения о текущих проблемах и следить за их решением в режиме реального времени. В этой группе также публикуются новости о продуктах и сервисах платформы.
  • Чтобы просмотреть фид о текущих и прошлых инцидентах, используйте RSS-фид или фид в формате JSON. Ссылки на эти фиды приведены внизу панели статусов. Каждая запись, появляющаяся на панели, автоматически публикуется в фиде. Для удобства отслеживания актуальной информации к записи в фиде добавляются сообщения и обновления, связанные с соответствующим событием на панели статусов. Таким образом, вам не придется искать эти данные в истории записей. RSS-фиды публикуются в формате XML. Расширения для браузеров, такие как RSS Subscription Extension (от Google), позволяют предварительно просмотреть содержание фида и подписаться на него с помощью предпочитаемого RSS-агрегатора. История в формате JSON – это веб-фид JSON, в котором публикуется информация о прошлых инцидентах. Некоторые программные библиотеки и веб-фреймворки поддерживают распространение контента через фид JSON.

Какая информация представлена на главной странице панели статусов?

На общедоступной панели статусов платформы Google Карт показана информация о состоянии сервисов и API платформы Google Карт. При возникновении инцидента публикуется информация о каждом отдельном API и сервисе платформы. Индикаторы статусов показываются всегда, демонстрируя общее состояние каждого API и сервиса. Существуют следующие варианты индикаторов:

  • Сбой сервиса – сервис или рабочая система не функционирует. Решение отсутствует или его сложно применить.
  • Нестабильная работа сервиса – сервис или рабочая система частично не функционирует и/или ведет себя неправильно. Решение существует.
  • Нестабильная работа сервиса – сервис или рабочая система частично не функционирует и/или ведет себя неправильно. В целом сервис доступен, ошибки минимальны и затрагивают небольшое количество пользователей.
  • Доступно – сервис работает правильно, проблем не обнаружено.

Данные на панели представлены в реальном времени?

На панели статусов можно ознакомиться с информацией о доступности сервисов платформы Google Карт, покрываемых нашим соглашением об уровне обслуживания. Наша служба поддержки проверяет все инциденты, поэтому статус сервиса обновляется с небольшой задержкой с момента выявления проблемы. Поэтому панель статусов не может использоваться для отслеживания в реальном времени.

Что, если я не вижу инцидента на панели?

Инцидент может затронуть не всех пользователей. На панели статусов приводится информация только о крупных и серьезных инцидентах. Если у вас возникла проблема, не указанная на панели статусов, обратитесь в службу поддержки.

Где можно найти информацию о прошлых сбоях и периодах нестабильной работы сервиса?

На панели статусов есть страница История, где хранится информация о сбоях и периодах нестабильной работы за последние 365 дней. Нажмите на инцидент, чтобы посмотреть связанные с ним публикации и отчеты службы поддержки.

Кто обновляет панель статусов?

Единая служба поддержки платформы Google Карт следит за состоянием сервисов с помощью множества различных сигналов и при возникновении массовой проблемы добавляет информацию о ней на панель статусов. Наши сотрудники также могут опубликовать подробный отчет о разрешенном инциденте.

Чем отличается инцидент от сбоя?

Несмотря на то что эти термины часто используются как синонимы, на панели статусов и в наших уведомлениях слово "инцидент" означает некоторое ухудшение качества обслуживания, а "сбой" – только наиболее серьезные проблемы, при которых работа продукта нарушена в значительной степени.