Gestione degli incidenti di Google Maps Platform

Ciclo di vita di un incidente

Google Maps Platform è conforme al framework di gestione degli incidenti della piattaforma Google Cloud.

In caso di interruzione o calo del servizio, il team di ingegneria del prodotto e il team di assistenza di Google Maps Platform collaborano per risolvere l'incidente e comunicartelo.

ciclo di vita

Rilevamento

Google utilizza il monitoraggio interno e black box per rilevare gli incidenti e inviare avvisi ai suoi tecnici per le indagini. Per ulteriori informazioni, consulta il capitolo 6 del libro Site Reliability Engineering.

Se rilevi un incidente che non è stato ancora segnalato nel tracker dei problemi, vai alla pagina Crea una richiesta di assistenza di Google Maps Platform (nella console Google Cloud) e crea una nuova richiesta di assistenza.

Risposta iniziale

Quando Google rileva un incidente, il team di assistenza gestisce la comunicazione con te. La notifica iniziale di un incidente è spesso scarsa e spesso menziona solo il prodotto in questione e i sintomi principali. Questo perché diamo la priorità alle notifiche rapide rispetto ai dettagli. Man mano che apprendiamo di più, forniremo ulteriori dettagli negli aggiornamenti successivi.

risposta

Canali di comunicazione degli incidenti

Per fornire la quantità appropriata di informazioni, il team di assistenza di Google Maps Platform offre diversi canali di comunicazione degli incidenti, a seconda dell'ambito e della gravità del problema:

La dashboard Stato pubblico di Maps è il primo posto da controllare quando scopri che un problema ti riguarda. La dashboard mostra gli incidenti che interessano molti clienti, pertanto, se ne vedi uno elencato, è probabile che sia correlato al tuo problema. Per indicare la gravità, la dashboard dello stato contrassegna gli incidenti come interruzioni o interruzioni del servizio o come informazioni.

Il gruppo di notifiche di Google Maps Platform è un gruppo Google pubblico in cui vengono segnalate tutte le interruzioni di servizio diffuse, oltre ad altri aggiornamenti tecnici sulle API di Google Maps Platform. Tutti i membri del gruppo riceveranno una notifica via email quando viene rilevata inizialmente un'interruzione con aggiornamenti successivi fino alla risoluzione del problema.

La scheda dello stato di Maps Platform è un messaggio informativo sempre visibile nella sezione Assistenza Maps della console Cloud che mostra lo stato attuale delle API e dei servizi di Maps Platform. Quando è presente un incidente attivo, viene visualizzato un messaggio che identifica il prodotto interessato e include un link alla dashboard dello stato pubblico di Maps, dove puoi visualizzare gli incidenti attivi.

interruzione del servizio

Il tracker dei problemi contiene un elenco di riferimento di tutti gli incidenti noti. Puoi visualizzare gli incidenti aperti, seguire il loro andamento abbonandoti e aggiungere commenti per aiutare i nostri team a effettuare accertamenti. Puoi anche trovare il link al tracker dei problemi nella documentazione di assistenza di Google Maps Platform.

Le richieste di assistenza vengono utilizzate se il problema potrebbe essere limitato ai tuoi progetti o interessare un numero limitato di clienti. Se non è stato dichiarato alcun incidente, ma il problema persiste, vai alla pagina Crea una richiesta di assistenza dell'assistenza di Google Maps Platform (nella console Cloud) e crea una nuova richiesta di assistenza.

Indagine

I team di ingegneri di prodotto sono responsabili di analizzare la causa principale degli incidenti. La gestione degli incidenti viene spesso eseguita dagli SRE, ma potrebbe essere eseguita da tecnici software o altri, a seconda della situazione e del prodotto. Per ulteriori informazioni, consulta il capitolo 12 del libro Site Reliability Engineering.

Attenuazione/correzione

Un problema è considerato risolto solo quando sono state apportate modifiche che Google ritiene con certezza che metteranno fine all'impatto in modo definitivo. Ad esempio, la correzione potrebbe consistere nel rollback di una modifica che ha attivato un incidente.

Mentre è in corso un incidente, i team di assistenza e prodotto tenteranno di mitigare il problema. La mitigazione si verifica quando è possibile ridurre l'impatto o l'ambito di un problema, ad esempio fornendo temporaneamente risorse aggiuntive a un servizio in sovraccarico.

Se non viene trovata alcuna soluzione, il team di assistenza troverà e comunicherà, se possibile, le soluzioni alternative. Le soluzioni alternative sono passaggi che puoi intraprendere per soddisfare la necessità di base nonostante l'incidente. Una soluzione alternativa potrebbe essere utilizzare impostazioni diverse per una chiamata API per evitare un percorso di codice problematico.

Follow Up

Mentre un incidente è ancora in corso, il team di assistenza fornisce aggiornamenti regolari. Gli aggiornamenti in genere forniscono:

  • Ulteriori informazioni sull'incidente, ad esempio messaggi di errore, funzionalità interessate e grado di diffusione.
  • Aggiornamento relativo alla mitigazione, incluse eventuali soluzioni alternative.
  • Tempistiche per la comunicazione, personalizzate in base all'incidente.
  • Modifiche dello stato, ad esempio quando un incidente viene risolto.

Postmortem

Tutti gli incidenti comportano un'analisi interna post mortem per comprendere appieno l'incidente e identificare i miglioramenti dell'affidabilità che Google può apportare. Questi miglioramenti vengono poi monitorati e implementati. Per ulteriori informazioni sui post mortem di Google, consulta il capitolo 15 del libro Site Reliability Engineering.

Report sugli incidenti

Quando gli incidenti hanno un impatto molto ampio e grave, Google fornisce report sugli incidenti che illustrano i sintomi, l'impatto, la causa principale, la correzione e la prevenzione futura degli incidenti. Come per i post mortem, prestiamo particolare attenzione ai passaggi che intraprendiamo per imparare dal problema e migliorare l'affidabilità. Lo scopo di Google nel redigere e pubblicare i post mortem è essere trasparente e dimostrare il nostro impegno a creare servizi stabili per i nostri clienti.

Domande frequenti

Voglio ricevere una notifica quando si verifica un'interruzione. Che cosa devo fare?

  • Unisciti al gruppo di notifiche di Google Maps Platform per ricevere notifiche relative ai problemi in corso e per seguire l'avanzamento dell'incidente in tempo reale. Questo gruppo ti aiuterà anche a rimanere al passo con gli annunci relativi a prodotti e piattaforme.
  • Utilizza i link al feed RSS o alla cronologia JSON nella parte inferiore della dashboard dello stato pubblico di Maps per visualizzare un feed degli incidenti attuali e passati. Ogni post nella dashboard attiverà un post nel feed. Per aggiornarti, ogni post del feed includerà tutti i messaggi e gli aggiornamenti relativi all'evento della dashboard corrispondente. In questo modo, non dovrai esaminare la cronologia del feed per capire come stanno procedendo le cose. I feed RSS vengono pubblicati in formato XML. Estensioni del browser come Estensione di abbonamento RSS (di Google) ti consentono di visualizzare l'anteprima dei contenuti del feed e di abbonarti tramite il tuo lettore RSS preferito. La cronologia JSON è un feed web JSON di incidenti passati. Una serie di librerie software e framework web supporta la syndication dei contenuti tramite feed JSON.

Quali tipi di informazioni sullo stato posso trovare nella home page della dashboard?

La dashboard dello stato pubblico di Google Maps fornisce informazioni sulle API e sui servizi che fanno parte di Google Maps Platform. Se è presente un incidente attivo, le informazioni verranno pubblicate qui per ogni API e servizio specifico all'interno di Google Maps Platform. Gli indicatori di stato vengono sempre visualizzati e rappresentano l'integrità complessiva di ogni API e servizio in base a uno dei seguenti elementi:

  • Interruzione del servizio: un servizio o un sistema di produzione non è attivo. La soluzione alternativa non è disponibile o non è facilmente implementabile.
  • Interruzione del servizio: un sistema o un servizio di produzione è parzialmente compromesso e/o non funziona come previsto. Esiste una soluzione alternativa.
  • Informazioni sul servizio: un sistema o un servizio di produzione è parzialmente compromesso e/o non funziona come previsto. In genere, il servizio è ancora disponibile, l'impatto è minore e riguarda un numero limitato di utenti.
  • Disponibile: il servizio è completamente funzionale e funziona come previsto.

La dashboard è in tempo reale?

La dashboard di stato pubblico di Maps ha lo scopo di fornire uno stato quasi in tempo reale dei prodotti disponibili a livello generale e coperti dallo SLA di Google Maps Platform. Poiché tutti gli incidenti vengono verificati inizialmente prima della pubblicazione, potrebbe verificarsi un leggero ritardo dal momento in cui sono stati rilevati per la prima volta. Di conseguenza, la dashboard non deve essere utilizzata per il monitoraggio del tempo di attività.

Posso utilizzare la dashboard per monitorare il tempo di attività di Google Maps Platform?

La dashboard dello stato pubblico di Maps non è progettata per monitorare lo stato dei servizi GMP in base al SLA di GMP poiché le durate delle interruzioni mostrate nella dashboard potrebbero non riflettere il "tempo di riposo" effettivo (come definito nello SLA) per il tuo progetto, in particolare per gli incidenti di minore gravità. Inoltre, le durate mostrate potrebbero includere un tempo aggiuntivo dopo la mitigazione del problema per confermare completamente la correzione.

Per monitorare l'utilizzo delle API, creare dashboard e avvisi, visita Monitoraggio di Google Maps Platform.

Cosa succede se non vedo un incidente nella dashboard?

Non tutti i clienti e i progetti sono interessati da ogni incidente. Nella dashboard vengono riportati solo gli incidenti gravi e di ampia portata. Se riscontri un problema non elencato nella dashboard, contatta l'assistenza .

Dove posso trovare informazioni su interruzioni e interruzioni del servizio passate?

La pagina Cronologia nella dashboard dello stato pubblico di Maps è un repository di interruzioni e guasti degli ultimi 365 giorni. Fai clic su un incidente per esaminare i post pubblicati in merito mentre era in corso, nonché eventuali segnalazioni di incidenti pubblicate dal team di assistenza.

Chi aggiorna la dashboard?

Il team di assistenza globale di Google Maps Platform monitora lo stato dei servizi utilizzando molti tipi diversi di indicatori e aggiorna la dashboard in caso di un problema diffuso. Se necessario, pubblicheranno anche un report di analisi dettagliato dopo la risoluzione di un incidente.

Qual è la differenza tra un "evento" e un "disagio"?

Sebbene questi termini vengano spesso utilizzati in modo intercambiabile, la dashboard dello stato pubblico di Maps e le nostre comunicazioni esterne utilizzano il termine "incidente" per fare riferimento a qualsiasi periodo di servizio degradato e il termine "interruzione" per fare riferimento solo al peggioramento più grave, quando un servizio non funziona al punto da rendere l'esperienza dei nostri clienti praticamente inutile.