Google Maps Platform のインシデント管理

インシデント通知チャネル

Google Maps Platform サポートチームは、複数のチャネルを通じてインシデントを通知しています。

Issue Tracker(Google Maps Platform のインシデントとサービス停止)には、既知のすべてのインシデントがリスト表示されます。Issue Tracker では進行中のインシデントを容易に表示できます。また、特定の問題を通知登録して進捗状況を確認したり、サポートチームの調査に役立つコメントを追加したりできます。

Google Maps Platform Notifications グループには広範な問題が報告されます。なんらかの問題が検出されると、このグループに参加しているすべてのお客様にメールで通知されます。それ以降も、問題が解決するまで更新情報が送信されます。

問題が見つかり、Issue Tracker に報告されると、Google Maps Platform の [サポート] ページ(Cloud Console 内)にもバナーが表示されます。このバナーには、影響を受けるサービスと、Issue Tracker へのリンクが表示されます。

インシデントのライフサイクル

Google Maps Platform は Google Cloud Platform インシデント管理フレームワークに準拠しています。

サービスが停止した場合やサービス品質が低下した場合は、サービス エンジニアリング チームと Google Maps Platform サポートチームが協力してインシデントを解決し、その状況をお客様に通知します。

ライフサイクル

検出

Google では、内部でブラック ボックス モニタリングを使用してインシデントを検出しています。詳しくは、Google の書籍『Site Reliability Engineering』の第 6 章をご覧ください。

Issue Tracker にまだ報告されていないインシデントを見つけた場合は、Google Maps Platform の [サポート] ページ(Cloud Console 内)へ移動して、新しいサポートケースを作成してください。

最初の対応

インシデントが検出されると、サポートチームからお客様に通知が届きます。通常、インシデントの最初の通知には多くの情報が含まれません。該当するサービスを知らせるだけの場合もあります。これは、情報の詳しさより、まずは迅速な通知を優先しているためです。詳細な情報は、それ以降のアップデートで通知されます。

適切な情報を適切なタイミングで提供するため、問題の影響範囲と重大度に応じて通知チャネルを使い分けています。

対応

調査

インシデントの根本原因の調査は、サービス エンジニアリング チームが担当します。通常、インシデント管理はサイト信頼性エンジニアが行いますが、対象となるサービスや状況によっては、ソフトウェア エンジニアやその他の担当者が行うこともあります。詳しくは、Google の書籍『Site Reliability Engineering』の第 12 章をご覧ください。

軽減 / 解決

問題が解決したとみなされるのは、以前に行った変更の影響が完全になくなったと確信できる場合のみです。たとえば、インシデントの発生原因となった変更をロールバックする場合などがこれにあたります。

インシデントが継続している間は、サポートチームとサービスチームが問題の軽減を試みます。過負荷のサービスに一時的にリソースを追加するなど、なんらかの方法で問題を軽減することで、その影響や範囲を縮小できます。

問題を軽減する方法が見つからない場合、可能であれば、サポートチームが回避策を提案します。回避策とは、インシデントが存在する状況で、基本的なニーズを満たすために講じる対策です。たとえば、問題のあるコードパスを避けるため、別の設定を使用して API を呼び出す方法などがあります。

フォローアップ

インシデントが続いている間は、サポートチームが定期的に最新情報を提供します。通常は、次の情報が提供されます。

  • インシデントに関する詳細(エラー メッセージ、影響を受ける機能、影響が及ぶ範囲など)
  • 問題の軽減に向けた進捗状況(回避策を含む)
  • 通知のスケジュール(インシデントに合わせて調整)
  • ステータスの変更(インシデントが解決されたときなど)

事後分析

インシデントを十分に理解し、信頼性の改善へ向けて Google がすべきことを明らかにするため、すべてのインシデントが社内で事後分析されます。事後分析によって特定された改善策が追跡および実装されます。Google での事後分析について詳しくは、Google の書籍『Site Reliability Engineering』の第 15 章をご覧ください。

インシデント レポート

広範囲にわたり深刻な影響を与えるインシデントの場合、Google は、その症状、影響、根本原因、是正措置、今後のインシデント防止策をまとめたインシデント レポートをリリースします。事後分析と同じく、Google が特に注意を向けるのは、問題から学び、信頼性を改善するために講じる措置です。Google が事後分析レポートを作成し、リリースする目的は、透明性を維持し、安定したサービスの構築へ向けた Google の取り組みをお客様に示すことです。

よくある質問

サービス停止の通知を受け取るにはどうすればよいですか?

Google Maps Platform Notifications グループに参加すると、現在発生している問題の通知を受け取り、インシデントの解決状況をリアルタイムで知ることができます。このグループでは、サービスやプラットフォームに関する最新の発表も確認できます。

サービス停止が報告されているかどうかを確認するには、どうすればよいですか?

お客様がサービス停止に関する最新情報を入手できるよう、Google Maps Platform チームはいくつかのリソースを提供しています。ご希望の方法をお選びください。

  • Issue Tracker のインシデント: 既知のすべてのインシデントがリスト表示され、進行中のインシデントを簡単に確認できます。また、特定のインシデントを通知登録して進捗状況を確認したり、サポートチームの調査に役立つコメントを追加することもできます。公開 Issue Tracker へのリンクは、Google Maps Platform のサポート ドキュメントに記載されています。
  • Google Maps Platform Notifications グループ: 広範なあらゆるサービス停止が報告される Google グループ。サービス停止が検出されると、このグループに参加しているすべてのお客様にメールで通知されます。その後も、問題が解決するまで最新情報が通知されます。
  • Google Maps Platform の [サポート] ページ(Cloud Console 内): 問題が検出され、Issue Tracker に報告された時点で、その問題に関する通知と Issue Tracker へのリンクが [サポート] ページのバナーに表示されます。

    サービス停止

問題があるにもかかわらず、Notifications グループや Issue Tracker には報告されていません。どうすればよいですか?

その問題がお客様のプロジェクトだけで発生しているか、影響を受けているユーザーの数が少ない可能性があります。インシデントが報告されていない場合は、Google Maps Platform の [サポート] ページ(Cloud Console 内)へ移動し、サポートケースを新規に作成してください。

「インシデント」と「サービス停止」の違いを教えてください。

通常、この 2 つの用語は同じ意味で使用されますが、Google 外部への通知では、サービスの品質が低下している状況を表す場合に「インシデント」を使用し、サービスがほとんど機能していない極めて深刻な状況の場合のみ「サービス停止」を使用します。