Google Maps Platform のインシデント管理

インシデントのライフサイクル

Google Maps Platform は Google Cloud Platform インシデント管理フレームワークに準拠しています。

サービスが停止した場合やサービス品質が低下した場合は、サービス エンジニアリング チームと Google Maps Platform サポートチームが協力してインシデントを解決し、その状況をお客様に通知します。

ライフサイクル

検出

Google では、内部でブラック ボックス モニタリングを使用してインシデントを検出し、調査のためにエンジニアへのアラートをトリガーしています。詳しくは、Google の書籍『Site Reliability Engineering』の第 6 章をご覧ください。

Issue Tracker にまだ報告されていないインシデントを見つけた場合は、Google Maps Platform の [サポート] セクションの [Create a Case] ページ(Google Cloud Console 内)へ移動して、新しいサポートケースを作成してください。

最初の対応

インシデントが検出されると、サポートチームからお客様に通知が届きます。通常、インシデントの最初の通知には多くの情報が含まれません。該当するサービスと主な問題を知らせるだけの場合もあります。これは、情報の詳しさより、まずは迅速な通知を優先しているためです。 詳細については、以降のアップデートで随時お知らせいたします。

対応

インシデント通知チャネル

適切な情報を適切なタイミングで提供するため、Google Maps Platform のサポートチームでは、問題の影響範囲と重大度に応じて通知チャネルを使い分けています。

問題が起こっていることがわかったら、まずマップ公開ステータス ダッシュボードを確認してください。このダッシュボードには多くのお客様に影響するインシデントが示されるため、ここに示されているインシデントが問題に関連している可能性が考えられます。重大度を示すために、ステータス ダッシュボードではインシデントをサービスの停止、中断、または情報としてマークしています。

Google Maps Platform の通知グループは、Google Maps Platform API に関する一般的な技術情報に加え、広範囲に影響するすべての機能停止を報告する Google の公開グループです。サービス停止が最初に検出されると、すべてのグループ メンバーにメール通知が送られ、その後、問題が解決するまで最新情報が随時送られます。

Maps Platform ステータス カードは、Maps Platform API とサービスの現在のステータスを示す情報メッセージで、Cloud Console の [マップのサポート] セクションに常に表示されています。アクティブなインシデントがある場合は、影響を受けるサービスを示すメッセージと、アクティブなインシデントを確認できるマップ公開ステータス ダッシュボードへのリンクが表示されます。

サービス停止

Issue Tracker には、既知のすべてのインシデントが一覧表示されます。進行中のインシデントを確認できるほか、特定のインシデントを通知登録して進捗状況を追跡したり、サポートチームの調査に役立つコメントを追加したりすることもできます。Issue Tracker へのリンクは、Google Maps Platform のサポート ドキュメントにも記載されています。

サポートケースは、問題の影響がお客様のプロジェクトに限られる場合や、影響を受けるお客様の数が限られている場合に使用されます。インシデントは報告されていないものの、まだ問題が解決していない場合は、Google Maps Platform の [サポート] セクションの [Create a Case] ページ(Cloud Console 内)へ移動して、新しいサポートケースを作成してください。

調査

インシデントの根本原因の調査は、サービス エンジニアリング チームが担当します。通常、インシデント管理はサイト信頼性エンジニアが行いますが、対象となるサービスや状況によっては、ソフトウェア エンジニアやその他の担当者が行うこともあります。詳しくは、Google の書籍『Site Reliability Engineering』の第 12 章をご覧ください。

軽減 / 解決

問題が解決したとみなされるのは、以前に行った変更の影響が完全になくなったと確信できる場合のみです。たとえば、インシデントの発生原因となった変更をロールバックする場合などがこれにあたります。

インシデントが継続している間は、サポートチームとサービスチームが問題の軽減を試みます。過負荷のサービスに一時的にリソースを追加するなど、なんらかの方法で問題を軽減することで、その影響や範囲を縮小できます。

問題を軽減する方法が見つからない場合、可能であれば、サポートチームが回避策を提案します。回避策とは、インシデントが存在する状況で、基本的なニーズを満たすために講じる対策です。たとえば、問題のあるコードパスを避けるため、別の設定を使用して API を呼び出す方法などがあります。

フォローアップ

インシデントが続いている間は、サポートチームが定期的に最新情報を提供します。通常は、次の情報が提供されます。

  • インシデントに関する詳細(エラー メッセージ、影響を受ける機能、影響が及ぶ範囲など)
  • 問題の軽減に向けた進捗状況(回避策を含む)
  • 通知のスケジュール(インシデントに合わせて調整)
  • ステータスの変更(インシデントが解決されたときなど)

事後分析

インシデントを十分に理解し、信頼性の改善へ向けて Google がすべきことを明らかにするため、すべてのインシデントが社内で事後分析されます。事後分析によって特定された改善策が追跡および実装されます。Google での事後分析について詳しくは、Google の書籍『Site Reliability Engineering』の第 15 章をご覧ください。

インシデント レポート

広範囲にわたり深刻な影響を与えるインシデントの場合、Google は、その症状、影響、根本原因、是正措置、今後のインシデント防止策をまとめたインシデント レポートをリリースします。事後分析と同じく、Google が特に注意を向けるのは、問題から学び、信頼性を改善するために講じる措置です。Google が事後分析レポートを作成し、リリースする目的は、透明性を維持し、安定したサービスの構築へ向けた Google の取り組みをお客様に示すことです。

よくある質問

サービス停止の通知を受け取るにはどうすればよいですか?

  • Google Maps Platform Notifications グループに参加すると、現在発生している問題の通知を受け取り、インシデントの解決状況をリアルタイムで知ることができます。このグループでは、サービスやプラットフォームに関する最新の発表も確認できます。
  • マップ公開ステータスダッシュボードの [RSS フィード] または [JSON の履歴] リンクを使用して、現在と過去のインシデントのフィードを確認します。 ダッシュボードに投稿があると、そのたびにフィードにも投稿されます。 最新情報をご提供するために、フィードへの各投稿には、対応するダッシュボード イベントに関連するすべてのメッセージと更新情報を含めています。このため、フィードの履歴を詳しく調べて、解決状況に関する情報をご自分で集める必要はありません。 RSS フィードは XML 形式で公開されます。RSS Subscription Extension(by Google)などのブラウザの拡張機能を使用すると、フィードのコンテンツをプレビューしたり、任意の RSS リーダーで購読したりできます。JSON の履歴は、過去のインシデントの JSON ウェブフィードです。さまざまなソフトウェア ライブラリやウェブ フレームワークが、JSON フィードを使用してコンテンツ シンジケーションをサポートしています。

ダッシュボード ホームページには、どのような種類のステータス情報が表示されますか?

Google マップ公開ステータス ダッシュボードには、Google Maps Platform の一部である API とサービスに関する情報が表示されます。アクティブなインシデントがある場合は、Google Maps Platform 内の特定の API とサービスに関する情報がここに投稿されます。各 API とサービスの全体的な健全性を示す以下のいずれかのステータス インジケーターが常に表示されています。

  • サービス停止: 本番環境システムまたはサービスがダウンしています。回避策がない、または簡単に実装できません。
  • サービス中断: 本番環境システムまたはサービスが一部機能していない、または正常に動作しません。回避策があります。
  • サービス情報: 本番環境システムまたはサービスが一部機能していない、または正常に動作しません。通常、サービスは利用可能な状態で、影響は軽微であり、影響を受けるユーザーの数も限られます。
  • 利用可能: サービスは完全に機能しており、正常に動作しています。

ダッシュボードはリアルタイムのものですか?

マップ公開ステータス ダッシュボードは、Google Maps Platform SLA の対象となる、一般提供されているサービスに関するほぼリアルタイムのステータスを提供することを目的としています。すべてのインシデントは、送信前にまず検証されます。このため、最初に検出されてから表示されるまでに若干の遅れが生じる場合があります。そのため、ダッシュボードは、稼働時間をトラッキングする目的で使用しないでください。

ダッシュボードを使って Google Maps Platform の稼働時間をモニタリングすることはできますか?

マップの公開ステータス ダッシュボードは、GMP SLA に基づいて GMP サービスのステータスをモニタリングするためのものではありません。ダッシュボードに表示されるサービスの停止時間に、プロジェクトで実際に発生した「ダウンタイム」(SLA で定義されている停止時間)が正確に反映されていない場合があります。この誤差は、重要度が低いインシデントで特に多く見られます。また、表示される停止時間には、問題の完全解決が確認できた後の時間も含まれている場合があります。

API の使用状況のモニタリング、ダッシュボードまたはアラートの作成を行うには、Google Maps Platform のモニタリングにアクセスしてください。

ダッシュボードにインシデントが表示されない場合は、どうすればよいですか?

インシデントによっては、お客様とプロジェクトに影響が及ばないものがあります。ダッシュボードには、広範囲に影響を及ぼす深刻なインシデントのみが反映されます。ダッシュボードに表示されていない問題が発生した場合は、サポートまでお問い合わせください

過去のサービス中断とサービス停止に関する情報はどこで調べることができますか?

マップ公開ステータス ダッシュボードの [ 履歴] ページは、過去 365 日間に発生した中断や停止に関する情報が保存されています。インシデントをクリックすると、そのインシデントの発生中に投稿された説明と、サポートチームによって公開されたインシデント レポートを確認できます。

誰がダッシュボードを更新するのですか?

Google Maps Platform グローバル サポートチームは、さまざまなシグナルを使用してサービスのステータスをモニタリングし、広範囲で問題が発生した場合はダッシュボードを更新します。また、必要に応じて、インシデントの解決後に詳細な分析レポートも投稿します。

「インシデント」と「サービス停止」の違いを教えてください。

通常、この 2 つの用語は同じ意味で使用されますが、マップ公開ステータス ダッシュボードおよび Google 外部への通知では、サービスの品質が低下している状況を表す場合に「インシデント」を使用し、サービスがほとんど機能せず、お客様の役に立っていないといった極めて深刻な状況の場合のみ「サービス停止」を使用します。