Zarządzanie incydentami w Google Maps Platform

Cykl życia incydentu

Google Maps Platform spełnia wymagania platformy zarządzania incydentami Google Cloud Platform.

W przypadku awarii lub pogorszenia jakości usługi zespół inżynierów ds. usługi oraz zespół pomocy Google Maps Platform wspólnie pracują nad rozwiązaniem problemu i przekazaniem powiadomienia.

cykl życia

Wykrywanie

Do wykrywania incydentów i uruchamiania alertów naszym inżynierom Google używa wewnętrznego i czarnego systemu monitorowania czarnych pól. Więcej informacji znajdziesz w rozdziałie 6 książki Book Site Reliability Engineering.

Jeśli wykryjesz incydent, który nie został jeszcze zgłoszony w narzędziu do śledzenia problemów, przejdź na stronę tworzenia zgłoszenia do zespołu pomocy Google Maps Platform (w Google Cloud Console) i utwórz nowe zgłoszenie do zespołu pomocy.

Pierwsza odpowiedź

Gdy Google wykryje incydent, zespół pomocy skontaktuje się z Tobą. Wstępne powiadomienia o incydencie są często rzadkie i często opisują tylko dany produkt, oraz jego kluczowe objawy. Wynika to z faktu, że w pierwszej kolejności priorytetowo traktujemy powiadomienia. W miarę wprowadzania nowych danych podajemy kolejne szczegóły.

odpowiedź

Kanały komunikacji dotyczące incydentów

Aby udostępnić odpowiednią ilość informacji, zespół pomocy Google Maps Platform udostępnia różne kanały komunikacji w zależności od zakresu i wagi problemu:

Panel stanu publicznego Map Google jest pierwszym miejscem, w którym możesz sprawdzić, czy dotyczy on jakiegoś problemu. W panelu wyświetlane są incydenty, które wpływają na wielu klientów, więc jeśli widzisz tu incydent, prawdopodobnie jest on związany z Twoim problemem. Aby wskazać poziom ważności, panel stanu oznacza incydenty jako przerwy w działaniu usługi, zakłócenia lub informacje.

Grupa powiadomień Google Maps Platform to publiczna grupa Google, w której zgłaszane są wszystkie powszechne przerwy w dostępie wraz z innymi technicznymi aktualizacjami dotyczącymi interfejsów API Google Maps Platform. Wszyscy członkowie grupy otrzymają e-maila z powiadomieniem o wykryciu przerwy w działaniu z kolejnymi aktualizacjami, dopóki problem nie zostanie rozwiązany.

Karta stanu Map Google to wiadomość informacyjna, która jest zawsze widoczna w sekcji Pomoc Map Google w Cloud Console. Wskazuje on bieżący stan interfejsów API i usług Maps Platform. W przypadku aktywnego incydentu pojawi się komunikat identyfikujący produkt. Zawiera on link do Panelu stanu publicznego Map Google, na którym można zobaczyć aktywne incydenty.

przerwa

Moduł śledzenia błędów zawiera listę referencyjną dotyczącą wszystkich znanych incydentów. Możesz przeglądać otwarte incydenty, śledzić ich postęp, subskrybując je, i dodawać komentarze, aby ułatwić naszym zespołom zbadanie sprawy. Link do narzędzia Issue Tracker znajdziesz też w dokumentacji pomocy Google Maps Platform.

Przypadki, w których występuje problem, mogą być izolowane w Twoich projektach lub wpływają na ograniczoną liczbę klientów. Jeśli nie zgłoszono żadnego incydentu, ale nadal występuje problem, wejdź na stronę tworzenia zgłoszenia do zespołu pomocy Google Maps Platform (w Cloud Console) i utwórz nowe zgłoszenie do zespołu pomocy.

Badanie

Zespoły inżynierów produktu są odpowiedzialne za badanie głównej przyczyny incydentów. Zarządzanie incydentami jest często wykonywane przez inżynierów Site Reliability Engineering, ale w zależności od sytuacji i usługi może to dotyczyć inżynierów. Więcej informacji znajdziesz w rozdziale 12 podręcznika inżynierów Site Reliability Engineering.

Łagodzenie/rozwiązywania problemów

Problem jest uważany za rozwiązany dopiero po wprowadzeniu zmian, które na pewno Google zakończą wpływ na stałe. Poprawką może być na przykład cofnięcie zmiany, która spowodowała incydent.

W trakcie incydentu zespoły pomocy i usługi będą próbowały zmniejszyć problem. Łagodzenie skutków może wystąpić, gdy wpływ lub zakres problemu może zostać zmniejszony, na przykład przez tymczasowe udostępnienie dodatkowych zasobów usłudze, która jest przeciążona.

Jeśli nie udało się znaleźć zastosowania rozwiązania, zespół pomocy znajdzie i w miarę możliwości zajmie sposoby obejścia problemu. Obejście problemu to kroki, które możesz wykonać, aby rozwiązać zaistniałą sytuację mimo incydentu. Aby obejść ten problem, możesz użyć różnych ustawień wywołania interfejsu API.

Dalsze kroki

W trakcie trwania incydentu zespół pomocy regularnie je aktualizuje. Aktualizacje zwykle zapewniają:

  • Dowiedz się więcej na temat tego incydentu, na przykład komunikatów o błędach, funkcji, których dotyczy, i stopnia jego rozprzestrzeniania.
  • Postępy w łagodzeniu skutków problemu, w tym sposoby jego obejścia.
  • Terminy komunikacji dostosowane do incydentu.
  • zmiany stanu, na przykład w celu naprawienia incydentu;

Postmortem

Wszystkie incydenty skutkują analizą końcową (po incydentach) po analizie zagrożeń, aby w pełni zrozumieć incydent i dowiedzieć się, co Google może poprawić. Te usprawnienia są następnie śledzone i wdrażane. Więcej informacji o postmortemach w Google znajdziesz w artykule rozdział 15 podręcznika inżynierów Site Reliability Engineering.

Raport o incydentach

Gdy incydenty mają bardzo duży i poważny wpływ, Google udostępnia raporty na temat incydentów, które opisują objawy, wpływ, przyczynę problemu, działania naprawcze i przyszłe zapobieganie incydentom. Podobnie jak w przypadku pompek, zwracamy szczególną uwagę na działania, które podejmujemy, aby rozwiązać problem i zwiększyć niezawodność. Celem Google jest pisemne i publikowanie pocztówek w sposób przejrzysty i pokazanie naszego zaangażowania w budowanie stabilnych usług dla klientów.

Najczęstsze pytania

Chcę otrzymywać powiadomienia o trwających przerwach w działaniu usługi. Co mam zrobić?

  • Dołącz do grupy powiadomień Google Maps Platform, aby na bieżąco otrzymywać informacje o problemach i śledzić postęp incydentu. Dzięki tej grupie będziesz na bieżąco z nowościami w usługach i platformach.
  • Korzystając z linków Kanał RSS lub Historia JSON u dołu panelu stanu publicznego Map Google, możesz wyświetlić kanał z bieżącymi i wcześniejszymi incydentami. Każdy post w panelu spowoduje uruchomienie posta na kanale. Aby być na bieżąco, każdy post w kanale będzie zawierał wszystkie wiadomości i aktualizacje dotyczące odpowiedniego zdarzenia w Panelu. W ten sposób nie musisz przeglądać historii kanału, aby sprawdzić postępy. Kanały RSS są publikowane w formacie XML. Rozszerzenia do przeglądarki, takie jak Rozszerzenie subskrypcji RSS (od Google), umożliwiają podgląd treści kanału i subskrybowanie za pomocą ulubionego czytnika RSS. Historia JSON to kanał internetowy JSON z wcześniejszymi incydentami. Zakres bibliotek oprogramowania i platform internetowych obsługuje dystrybucję treści za pomocą kanału JSON.

Jakie informacje o stanie mogę znaleźć na stronie głównej panelu?

Panel stanu publicznego Map Google zawiera informacje o interfejsach API i usługach, które są częścią Google Maps Platform. W przypadku aktywnego incydentu tutaj zostaną opublikowane informacje dotyczące poszczególnych interfejsów API i usług w Google Maps Platform. Wskaźniki stanu są zawsze wyświetlane i odzwierciedlają ogólny stan poszczególnych interfejsów API i usług, spośród następujących:

  • Przerwa w świadczeniu usługi: system lub usługa produkcyjna nie działają. Obejście jest niedostępne lub nie jest łatwe do wdrożenia.
  • Chwilowe problemy z usługą: system lub usługa produkcyjna ma częściowe problemy z działaniem lub nie działa zgodnie z oczekiwaniami. Istnieje rozwiązanie tymczasowe.
  • Informacje o usłudze: system lub usługa produkcyjna ma częściowo problemy z działaniem lub nie działa zgodnie z oczekiwaniami. Usługa jest nadal dostępna, jej wpływ jest niewielki i ma wpływ na niewielką liczbę użytkowników.
  • Dostępny: usługa jest w pełni funkcjonalna i działa zgodnie z oczekiwaniami.

Czy panel jest aktualizowany w czasie rzeczywistym?

Panel stanu Map Google zapewnia niemal rzeczywisty stan produktów, które są ogólnie dostępne i objęte gwarancją jakości usług Google Maps Platform. Wszystkie incydenty są najpierw weryfikowane przed opublikowaniem, więc od pierwszego wykrycia może wystąpić niewielkie opóźnienie. Z tego względu panel nie powinien być używany do śledzenia dostępności.

Czy mogę używać panelu do monitorowania dostępności Google Maps Platform?

Panel stanu publicznego Map Google nie służy do monitorowania stanu usług GMP na podstawie gwarancji jakości usług, ponieważ czasy wyświetlania wyświetlane w panelu mogą nie odzwierciedlać rzeczywistego „przerwy” (zgodnie z definicją w gwarancji jakości usług) projektu, zwłaszcza w przypadku incydentów o małej wadze. Wyświetlane okresy mogą obejmować dodatkowy czas po złagodzeniu problemu, aby w pełni potwierdzić problem.

Aby monitorować użycie interfejsu API, tworzyć panele i tworzyć alerty, odwiedź stronę Google Maps Platform Monitoring.

Co się stanie, jeśli nie widzę incydentu w panelu?

Nie wszystkie incydenty wpływają na wszystkich klientów i projekty. W panelu wyświetlane są tylko szerokie i poważne incydenty. Jeśli napotkasz problem, którego nie ma w panelu, skontaktuj się z zespołem pomocy.

Gdzie znajdę informacje o przeszłości i przerwach w działaniu usługi?

Strona Historia w panelu stanu publicznego Map Google to repozytorium zakłóceń i awarii z ostatnich 365 dni. Kliknij incydent, aby zobaczyć zawarte w nim wpisy w czasie jego trwania oraz raporty dotyczące incydentów opublikowane przez zespół pomocy.

Kto aktualizuje panel

Globalny zespół pomocy Google Maps Platform monitoruje stan usług na podstawie wielu różnych typów sygnałów, a w przypadku dużego problemu aktualizuje panel. W razie potrzeby po rozwiązaniu incydentu opublikuje szczegółowy raport na temat analizy.

Jaka jest różnica między „wypadkiem” a „przerwą”?

Chociaż terminy te są często używane zamiennie, w Panelu stanu publicznego Map Google i naszej komunikacji zewnętrznej określenie „incydent” odnosi się do każdego pogorszonego stanu usługi, a „przerwa” w odniesieniu do najpoważniejszej niepełnosprawności, gdy usługa nie działa prawidłowo w zakresie, w jakim sprawia, że wrażenia naszych klientów są bezużyteczne.