Manajemen Insiden Google Maps Platform

Siklus proses insiden

Google Maps Platform mematuhi framework Manajemen Insiden Google Cloud Platform.

Saat terjadi pemadaman atau penurunan layanan, tim engineering produk dan tim Dukungan Google Maps Platform bekerja sama untuk mengatasi insiden tersebut dan menyampaikannya kepada Anda.

siklus proses

Deteksi

Google menggunakan pemantauan kotak hitam dan internal untuk mendeteksi insiden dan memicu peringatan kepada engineer kami untuk penyelidikan. Untuk informasi selengkapnya, lihat Bab 6 dalam buku Site Reliability Engineering.

Jika Anda mendeteksi insiden yang belum dilaporkan di Issue Tracker, buka halaman "Create a Case" di bagian Support Google Maps Platform (di Google Cloud Console) lalu buat kasus dukungan baru.

Respons Awal

Saat Google mendeteksi insiden, tim Dukungan akan membuka komunikasi dengan Anda. Notifikasi awal insiden biasanya singkat, sering kali hanya menyebutkan produk yang bermasalah serta gejala utama. Itu karena kami lebih memprioritaskan notifikasi yang bersifat cepat daripada mendetail. Setelah kami mempelajari lebih lanjut, detail tambahan akan diberikan pada pemberitahuan selanjutnya.

respons

Saluran komunikasi insiden

Untuk memberikan jumlah informasi yang sesuai, tim Dukungan Google Maps Platform menawarkan saluran komunikasi insiden yang berbeda, bergantung pada cakupan dan tingkat keparahan masalah:

Dasbor Status Publik Maps adalah tempat pertama yang harus diperiksa ketika Anda menemukan masalah. Dasbor ini menampilkan insiden yang memengaruhi banyak pelanggan, jadi jika Anda melihat insiden yang tercantum, insiden tersebut kemungkinan terkait dengan masalah Anda. Untuk menunjukkan tingkat keparahan, dasbor status menandai insiden sebagai informasi, gangguan, atau penghentian layanan.

Grup Notifikasi Google Maps Platform adalah Google Grup publik tempat semua pemadaman layanan secara luas dilaporkan, selain info teknis lainnya tentang API Google Maps Platform. Semua anggota grup akan menerima notifikasi email saat penonaktifan pertama kali terdeteksi dan akan terus menerima info terbaru hingga masalah teratasi.

Kartu status Maps Platform adalah pesan informatif yang selalu terlihat di bagian Support Maps pada Cloud Console yang menunjukkan status saat ini untuk API dan layanan Maps Platform. Saat ada insiden aktif, akan ada pesan yang mengidentifikasi produk yang terpengaruh dan menyertakan link ke Dasbor Status Publik Maps tempat Anda dapat melihat insiden aktif.

penonaktifan

Issue Tracker berisi daftar referensi semua insiden yang diketahui. Anda dapat melihat insiden yang sedang terjadi, mengikuti progresnya dengan berlangganan, dan menambahkan komentar untuk membantu investigasi tim kami. Anda juga dapat menemukan link ke Issue Tracker di dokumentasi dukungan Google Maps Platform.

Kasus dukungan digunakan jika masalah mungkin terjadi hanya di project Anda atau hanya berdampak pada sebagian kecil pelanggan. Jika tidak ada insiden yang dilaporkan, tetapi Anda masih mengalami masalah, buka halaman "Create a Case" di bagian Support Google Maps Platform (di Cloud Console) dan buat kasus dukungan baru.

Investigasi

Tim teknis produk bertanggung jawab untuk menyelidiki akar penyebab insiden. Manajemen insiden sering kali dilakukan oleh Site Reliability Engineer, tetapi bisa dilakukan oleh software engineer atau yang lainnya, bergantung pada situasi dan produk. Untuk informasi selengkapnya, lihat Bab 12 dalam Buku Site Reliability Engineering.

Mitigasi/Perbaikan

Masalah dianggap telah diperbaiki hanya jika perubahan yang dibuat diyakini oleh Google akan meniadakan dampak yang timbul untuk selamanya. Misalnya, perbaikan dapat menghapus perubahan yang memicu insiden.

Saat insiden sedang berlangsung, tim Dukungan dan Produk akan mencoba memitigasi masalah. Mitigasi terjadi jika dampak atau cakupan masalah dapat dikurangi, misalnya dengan menyediakan resource tambahan sementara untuk layanan yang mengalami kelebihan beban.

Jika mitigasi tidak ditemukan, jika memungkinkan, tim Dukungan akan menemukan dan menyampaikan solusinya. Solusinya berupa langkah-langkah yang dapat Anda ambil untuk mengatasi kebutuhan yang mendasari, meskipun terjadi insiden. Solusi mungkin menggunakan setelan yang berbeda untuk panggilan API guna menghindari jalur kode yang bermasalah.

Tindak Lanjut

Saat insiden berlangsung, tim Dukungan akan memberikan info terbaru secara rutin. Info terbaru biasanya berupa:

  • Informasi selengkapnya tentang insiden tersebut, seperti pesan error, fitur mana yang terdampak, dan seberapa luas dampaknya.
  • Progres menuju mitigasi, termasuk semua solusinya.
  • Linimasa komunikasi, yang disesuaikan dengan insiden.
  • Perubahan status, seperti saat insiden diperbaiki.

Postmortem

Semua insiden menghasilkan analisis internal postmortem (pasca-insiden) untuk sepenuhnya memahami insiden dan mengidentifikasi peningkatan keandalan yang dapat dilakukan oleh Google. Perbaikan ini kemudian dilacak dan diterapkan. Untuk informasi selengkapnya tentang postmortem di Google, lihat Bab 15 dalam Buku Site Reliability Engineering.

Laporan Insiden

Saat insiden memiliki dampak yang sangat besar dan serius, Google memberikan laporan insiden yang menjelaskan gejala, dampak, penyebab utama, perbaikan, dan pencegahan insiden di masa mendatang. Seperti halnya postmortem, kami memberikan perhatian khusus pada langkah-langkah yang kami ambil untuk belajar dari masalah dan meningkatkan keandalan. Tujuan Google menulis dan merilis postmortem adalah agar transparan dan menunjukkan komitmen kami dalam membangun layanan yang stabil bagi pelanggan.

Pertanyaan Umum (FAQ)

Saya ingin diberi tahu saat terjadi penonaktifan. Apa yang harus saya lakukan?

  • Bergabunglah ke grup Notifikasi Google Maps Platform untuk mendapatkan notifikasi tentang masalah yang sedang terjadi dan mengikuti progres insiden secara real time. Grup ini juga akan membantu Anda mendapatkan informasi terbaru tentang pengumuman produk dan platform.
  • Gunakan link Feed RSS atau Histori JSON di bagian bawah Dasbor Status Publik Maps untuk melihat feed insiden yang terbaru dan terdahulu. Setiap postingan yang dikirim ke Dasbor akan memicu postingan yang dikirim ke feed. Agar Anda terus mendapatkan informasi terbaru, setiap postingan yang dikirim ke feed akan menyertakan semua pesan dan info terbaru yang terkait dengan peristiwa Dasbor yang sesuai. Dengan demikian, Anda tidak akan perlu menggali histori feed untuk mengetahui progres terkini. Feed RSS dipublikasikan dalam format XML. Ekstensi browser seperti RSS Subscription Extension (oleh Google) memungkinkan Anda melihat pratinjau konten feed dan berlangganan feed melalui pembaca RSS favorit. Histori JSON adalah Feed Web JSON dari insiden terdahulu. Berbagai library software dan framework web mendukung distribusi offline konten melalui Feed JSON.

Jenis informasi status apa saja yang dapat saya temukan di halaman beranda dasbor?

Dasbor Status Publik Google Maps memberikan informasi tentang API dan layanan yang merupakan bagian dari Google Maps Platform. Jika ada insiden aktif, informasi akan diposting di sini untuk setiap API dan layanan tertentu di Google Maps Platform. Indikator status selalu ditampilkan, yang menunjukkan informasi kesiapan setiap API dan layanan secara keseluruhan, dari salah satu hal berikut:

  • Penonaktifan Layanan: Layanan atau sistem produksi tidak berfungsi. Solusi tidak tersedia atau sulit diterapkan.
  • Gangguan Layanan: Layanan atau sistem produksi terganggu sebagian dan/atau tidak berfungsi seperti yang diharapkan. Solusi tersedia.
  • Informasi Layanan: Layanan atau sistem produksi terganggu sebagian dan/atau tidak berfungsi sebagaimana mestinya. Biasanya, layanan masih tersedia, dampaknya kecil, dan memengaruhi sejumlah kecil pengguna.
  • Tersedia: Layanan berfungsi sepenuhnya dan bekerja sebagaimana mestinya.

Apakah dasbor bersifat real-time?

Dasbor Status Publik Maps ditujukan untuk memberikan status produk hampir secara real-time, yang biasanya tersedia dan tercakup dalam SLA Google Maps Platform. Semua insiden diverifikasi terlebih dahulu sebelum diposting; sehingga mungkin akan terjadi sedikit keterlambatan dari waktu saat insiden pertama kali terdeteksi. Oleh karena itu, dasbor tidak boleh digunakan untuk tujuan pelacakan waktu beroperasi.

Dapatkah saya menggunakan dasbor untuk memantau waktu beroperasi Google Maps Platform?

Dasbor Status Publik Maps tidak dimaksudkan untuk memantau status layanan GMP berdasarkan SLA GMP karena durasi pemadaman layanan yang ditampilkan di dasbor mungkin tidak menunjukkan "Periode nonaktif" yang sebenarnya (sebagaimana didefinisikan dalam SLA) untuk project Anda, terutama untuk insiden dengan tingkat keparahan yang lebih rendah. Selain itu, durasi yang ditampilkan dapat mencakup waktu tambahan setelah masalah dimitigasi yang diperlukan untuk mengonfirmasi bahwa perbaikan telah dilakukan sepenuhnya.

Untuk memantau penggunaan API, membuat dasbor, dan membuat pemberitahuan, buka Pemantauan Google Maps Platform.

Bagaimana jika saya tidak melihat insiden di dasbor?

Tidak semua pelanggan dan project terpengaruh oleh setiap insiden. Hanya insiden yang luas dan serius yang ditampilkan di dasbor. Jika Anda mengalami masalah yang tidak tercantum di dasbor, hubungi Dukungan .

Di mana saya dapat menemukan informasi tentang penonaktifan dan gangguan layanan sebelumnya?

Halaman Histori di Dasbor Status Publik Maps adalah repositori gangguan dan penonaktifan selama 365 hari terakhir. Klik insiden untuk meninjau postingan tentang insiden saat insiden tersebut masih berlangsung, serta semua laporan insiden yang dipublikasikan oleh tim Dukungan.

Siapa yang memperbarui dasbor?

Tim Dukungan Google Maps Platform global memantau status layanan menggunakan berbagai jenis sinyal yang berbeda dan akan memperbarui dasbor jika terjadi masalah yang meluas. Jika diperlukan, mereka juga akan memposting laporan analisis mendetail setelah insiden diselesaikan.

Apa perbedaan antara "insiden" dan "penonaktifan"?

Meskipun istilah ini sering digunakan secara bergantian, Dasbor Status Publik Maps dan komunikasi eksternal kami menggunakan "insiden" untuk merujuk ke periode layanan yang mengalami penurunan dan "pemadaman" hanya untuk merujuk ke gangguan yang paling serius, yaitu saat layanan tidak berfungsi sehingga membuat pengalaman pelanggan menjadi terhenti.