Устранение инцидентов и неполадок платформы Google Карт

Этапы устранения инцидента

Процесс решения проблем, связанных с платформой Google Карт, основывается на модели управления инцидентами Google Cloud Platform.

В случае сбоя или ухудшения качества обслуживания служба поддержки платформы Google Карт вместе с командой разработчиков продукта занимается решением проблемы и информирует пользователей о проделанной работе.

Этапы устранения инцидента

Обнаружение

Команда Google использует внутренний мониторинг на основе метода черного ящика, чтобы выявлять инциденты и уведомлять о них разработчиков. Подробную информацию об этом можно найти в Главе 6 книги Site Reliability Engineering.

Если вы обнаружили проблему, о которой ещё не сообщили в системе отслеживания ошибок, перейдите на страницу Поддержка платформы Google Карт (в Google Cloud Console) и создайте запрос в службу поддержки.

Первичный ответ

Служба поддержки информирует пользователей об инциденте после его обнаружения. В первом уведомлении часто упоминаются только затронутый продукт и основные проявления, так как на этом этапе важно как можно быстрее сообщить о проблеме, а ее подробное описание предоставляется в последующих сообщениях.

Ответ

Каналы информирования об инциденте

В зависимости от масштаба и серьезности инцидента служба поддержки платформы Google Карт использует разные каналы связи для информирования клиентов.

Если вы столкнулись с проблемой, в первую очередь просмотрите информацию на общедоступной панели статусов. Там вы узнаете об инцидентах, затронувших многих клиентов, среди которых можете быть и вы. Каждый инцидент помечается как нестабильная работа или сбой, чтобы вы могли оценить серьезность проблемы. Если инцидент несущественен, но затрагивает многих пользователей, он будет добавлен на панель статусов с информационной целью.

Группа уведомлений платформы Google Карт – это общедоступная группа, где публикуются сообщения обо всех массовых сбоях (а также об обновлениях API). Все участники группы получают уведомление по электронной почте после обнаружения проблемы и регулярные сообщения, пока она не будет решена.

Баннер службы поддержки – это сообщение, появляющееся в разделе Поддержка Google Карт в Cloud Console при возникновении инцидента. В этом баннере указывается затронутый продукт и приводится ссылка на систему отслеживания ошибок.

Сбой

В системе отслеживания ошибок перечислены все известные проблемы. В ней вы можете видеть текущие инциденты и следить за их решением, подписавшись на обновления о конкретной проблеме, а также добавлять комментарии, чтобы предоставить больше информации для ее изучения. Ссылку на общедоступную систему отслеживания ошибок платформы Google Карт можно найти в документации о поддержке и ресурсах.

Запросы в службу поддержки используются, когда проблема характерна только для ваших проектов или затрагивает ограниченное количество клиентов. Если никто не сообщил об инциденте, но у вас проблема сохраняется, перейдите на страницу Поддержка платформы Google Карт (в Cloud Console) и создайте запрос службе поддержки.

Изучение причин инцидента

Команды разработчиков продукта изучают основные причины неполадок. Устранением проблем и восстановлением работы сервисов занимаются специалисты по контролю надежности сайтов, а также разработчики программного обеспечения или другие сотрудники в зависимости от ситуации и продукта. Подробную информацию об этом можно найти в главе 12 книги Site Reliability Engineering.

Уменьшение последствий и решение проблемы

Проблема считается решенной только в том случае, если шаги по ее исправлению, предпринятые командой Google, приведут к полному устранению неполадок, затрагивающих продукт. Например, это может быть откат изменения, которое вызвало ошибку.

Также во время решения проблемы команда разработчиков и служба поддержки пытаются уменьшить последствия, если масштаб или характер инцидента позволяют это сделать. Например, для перегруженного сервиса могут быть временно выделены дополнительные ресурсы.

Если смягчить последствия не получается, служба поддержки по возможности предоставляет временное решение. С помощью такого решения вы можете продолжить пользоваться продуктом или сервисом, несмотря на то что основная проблема остается нерешенной. Например, можно задать другие настройки для вызова API, чтобы обойти проблемный путь в коде.

Информирование о статусе устранения инцидента

Во время решения проблемы служба поддержки регулярно информирует пользователей о проделываемой работе. В уведомлениях обычно содержатся следующие сведения:

  • дополнительная информация об инциденте, например сообщения об ошибках, список затронутых функций и описание масштаба неполадок;
  • отчет о продвижении в устранении инцидента, включая шаги по уменьшению последствий и временные решения;
  • хронология отправки уведомлений об инциденте в зависимости от его характера;
  • изменение статуса инцидента, например когда проблема была решена.

Анализ

После решения проблемы команда Google проводит тщательный внутренний анализ инцидента, чтобы понять причины его возникновения и определить шаги по улучшению продукта. Затем все эти предписания отслеживаются и внедряются. Подробную информацию об этом можно найти в главе 15 книги Site Reliability Engineering.

Отчет об инциденте

В случае масштабных и серьезных проблем Google предоставляет отчеты, в которых описываются признаки инцидента, его основная причина и влияние на продукт, меры по ликвидации последствий и предотвращению подобных инцидентов в будущем. Как и при проведении внутреннего анализа, мы уделяем особое внимание повышению стабильности наших продуктов на основе информации, полученной во время устранения неполадок. Цель Google при составлении и публикации внутренних отчетов – продемонстрировать прозрачность компании и заинтересованность в создании надежных сервисов для наших клиентов.

Часто задаваемые вопросы

Я хочу получать уведомления о текущих сбоях. Что делать?

  • Присоединитесь к группе уведомлений платформы Google Карт, чтобы получать сообщения о текущих проблемах и следить за их решением в режиме реального времени. В этой группе также публикуются новости о продуктах и сервисах платформы.
  • Чтобы просмотреть фид о текущих и прошлых инцидентах, используйте RSS-фид или фид в формате JSON. Ссылки на эти фиды приведены внизу панели статусов. Каждая запись, появляющаяся на панели, автоматически публикуется в фиде. Для удобства отслеживания актуальной информации к записи в фиде добавляются сообщения и обновления, связанные с соответствующим событием на панели статусов. Таким образом, вам не придется искать эти данные в истории записей. RSS-фиды публикуются в формате XML. Расширения для браузеров, такие как RSS Subscription Extension (от Google), позволяют предварительно просмотреть содержание фида и подписаться на него с помощью предпочитаемого RSS-агрегатора. История в формате JSON – это веб-фид JSON, в котором публикуется информация о прошлых инцидентах. Некоторые программные библиотеки и веб-фреймворки поддерживают распространение контента через фид JSON.

Какая информация представлена на главной странице панели статусов?

На панели статусов можно посмотреть статусы сервисов, относящихся к платформе Google Карт. Значения могут быть следующими:

  • Сбой сервиса – сервис или рабочая система не функционирует. Решение отсутствует или его сложно применить.
  • Нестабильная работа сервиса – сервис или рабочая система частично не функционирует и/или ведет себя неправильно. Решение существует.
  • Незначительный инцидент – небольшая проблема, добавленная на панель с информационной целью. В целом сервис работает правильно.
  • Доступно – сервис работает правильно, проблем не обнаружено.

Где можно найти информацию о прошлых сбоях и периодах нестабильной работы сервиса?

На панели статусов есть страница История, где хранится информация о сбоях и периодах нестабильной работы за последние 365 дней. Нажмите на инцидент, чтобы посмотреть связанные с ним публикации и отчеты службы поддержки.

Кто обновляет панель статусов?

Единая служба поддержки платформы Google Карт следит за состоянием сервисов с помощью множества различных сигналов и при возникновении массовой проблемы добавляет информацию о ней на панель статусов. Наши сотрудники также могут опубликовать подробный отчет о разрешенном инциденте.

Чем отличается инцидент от сбоя?

Несмотря на то что эти термины часто используются как синонимы, на панели статусов и в наших уведомлениях слово "инцидент" означает некоторое ухудшение качества обслуживания, а "сбой" – только наиболее серьезные проблемы, при которых работа продукта нарушена в значительной степени.