Gérer les incidents Google Maps Platform

Canaux de communication pour les incidents

L'équipe d'assistance Google Maps Platform propose différents canaux de communication en cas d'incident.

La liste "Google Maps Platform Incidents & Outages" dans l'Issue Tracker contient tous les incidents connus. Vous pouvez facilement consulter les incidents en cours, suivre leur progression et ajouter des commentaires pour aider nos équipes à les résoudre en vous abonnant à un problème.

Le groupe Google Maps Platform Notifications est le premier endroit où les problèmes d'indisponibilité majeurs sont signalés. En cas d'indisponibilité, tous les utilisateurs ayant rejoint le groupe reçoivent une notification par e-mail, puis des informations sur l'avancement du problème jusqu'à ce qu'il soit résolu.

Dès qu'un problème est détecté et signalé dans l'Issue Tracker, une bannière s'affiche également sur la page d'assistance Google Maps Platform (dans Cloud Console). La bannière identifie le produit concerné et inclut un lien vers l'Issue Tracker.

Cycle de vie d'un incident

Google Maps Platform respecte le framework Google Cloud Platform de gestion des incidents.

En cas d'indisponibilité ou de dégradation du service, les ingénieurs produit et l'équipe d'assistance Google Maps Platform travaillent conjointement pour résoudre l'incident, et communiquent avec vous à ce sujet.

Cycle de vie

Détection

Google a instauré une surveillance interne et par boîte noire pour détecter les incidents. Pour en savoir plus, consultez le chapitre 6 du manuel d'ingénierie en fiabilité des sites (SRE).

Si vous détectez un incident qui n'a pas encore été signalé dans l'Issue Tracker, accédez à la page d'assistance Google Maps Platform (dans Cloud Console) et créez une demande d'assistance.

Réponse initiale

Lorsqu'un incident est détecté, l'équipe d'assistance engage la communication avec vous. La notification initiale d'un incident est souvent sommaire, ne mentionnant généralement que le produit concerné. Nous privilégions en effet la rapidité de la notification aux détails de l'incident, qui seront fournis par la suite.

Différents canaux de communication sont utilisés pour fournir la quantité d'informations appropriée, en fonction du champ d'application et de la gravité du problème.

response

Enquête

Les ingénieurs produit sont chargés d'enquêter sur l'origine des incidents. La gestion des incidents est souvent assurée par des ingénieurs en fiabilité des sites (SRE), mais elle peut être confiée à des ingénieurs logiciels ou à d'autres spécialistes, en fonction de la situation et du produit. Pour en savoir plus, consultez le chapitre 12 du manuel d'ingénierie en fiabilité des sites (SRE).

Atténuation/Résolution

Un problème n'est considéré comme résolu que lorsque des modifications ont été apportées et que Google a la certitude qu'elles vont le régler définitivement. Par exemple, un rollback peut être effectué pour annuler une modification ayant déclenché un incident.

Lorsqu'un incident est en cours, les équipes d'assistance et de produits tentent d'atténuer le problème. Atténuer un problème consiste à en réduire l'impact ou l'étendue, par exemple, en fournissant temporairement des ressources supplémentaires à un service présentant une surcharge.

Si aucune mesure d'atténuation n'a été trouvée, l'équipe d'assistance trouve des solutions de contournement, lorsque cela est possible, et les communique. Il s'agit d'étapes que vous pouvez suivre pour répondre à votre besoin en dépit de l'incident. Une solution de contournement peut par exemple consister à utiliser des paramètres différents pour un appel d'API afin d'éviter un chemin de code problématique.

Suivi

Lorsqu'un incident est en cours, l'équipe d'assistance transmet régulièrement des informations lesquelles fournissent généralement :

  • plus d'informations sur l'incident, par exemple, les messages d'erreur, les fonctionnalités affectées et la portée de cet incident ;
  • l'avancement du processus d'atténuation, y compris les solutions de contournement ;
  • le calendrier des communications, adapté à l'incident ;
  • les changements d'état, par exemple, lorsqu'un incident est résolu.

Analyse post-mortem

Tous les incidents entraînent une analyse interne post-mortem (post-incident) afin de comprendre pleinement l'incident et d'identifier les améliorations que Google peut apporter pour plus de fiabilité. Ces améliorations sont ensuite suivies et mises en place. Pour en savoir plus sur les analyses post-mortem effectuées par Google, consultez le chapitre 15 du manuel d'ingénierie en fiabilité des sites (SRE).

Rapport d'incident

Lorsque les incidents ont des conséquences importantes et très étendues, Google fournit des rapports d'incident décrivant les symptômes, l'impact, l'origine, les mesures correctives et les futures actions de prévention. Comme pour les analyses post-mortem, nous accordons une attention particulière aux mesures que nous prenons pour tirer les leçons du problème et améliorer la fiabilité. Chez Google, en rédigeant et en publiant des analyses post-mortem, nous faisons preuve de transparence et montrons que nous tenons à créer des services stables pour nos clients.

FAQ

Je souhaite être averti si un service est indisponible. Que dois-je faire ?

Rejoignez le groupe Google Maps Platform Notifications pour être informé des problèmes en cours et suivre l'avancement de l'incident en temps réel. Ce groupe vous permettra également de suivre les annonces concernant les produits et la plate-forme.

Où puis-je vérifier si une indisponibilité a été signalée ?

L'équipe Google Maps Platform propose plusieurs ressources pour vous tenir informé en cas d'indisponibilité. Choisissez celle qui vous convient le mieux.

  • Incidents dans l'Issue Tracker : liste de référence de tous les incidents connus. Vous pouvez facilement consulter les incidents en cours, suivre leur progression en vous y abonnant, et ajouter des commentaires pour aider nos équipes à enquêter sur le problème. Vous trouverez le lien vers l'Issue Tracker public dans la documentation d'assistance Google Maps Platform.
  • Groupe Google Maps Platform Notifications : groupe Google dans lequel tous les problèmes d'indisponibilité majeurs sont signalés. En cas d'indisponibilité, tous les utilisateurs ayant rejoint le groupe reçoivent une notification par e-mail, puis des informations sur l'avancement du problème jusqu'à ce qu'il soit résolu.
  • Page d'assistance Google Maps Platform (dans Cloud Console) : lorsqu'un problème est détecté et signalé dans l'Issue Tracker, la page d'assistance affiche une bannière active avec une notification à propos du problème et un lien vers l'Issue Tracker.

    outage

Que faire si je rencontre un problème qui ne figure pas dans le groupe de notifications ni dans l'Issue Tracker ?

Le problème peut ne concerner que vos projets ou un nombre limité de clients. Si aucun incident n'a été signalé, accédez à la page d'assistance Google Maps Platform (dans Cloud Console) et créez une demande d'assistance.

Quelle est la différence entre un "incident" et une "indisponibilité" ?

Bien que ces termes soient souvent employés indifféremment, nous utilisons "incident" dans nos communications externes pour désigner toute période de dégradation de service, et "indisponibilité" pour les problèmes les plus importants, lorsqu'un produit ne fonctionne pas à grande échelle.