การจัดการเหตุการณ์ของ Google Maps Platform

วงจรของเหตุการณ์

Google Maps Platform ปฏิบัติตามเฟรมเวิร์กการจัดการเหตุการณ์ของ Google Cloud Platform

เมื่อเกิดปัญหาการหยุดทำงานหรือการบริการทำงานช้าลง ทีมวิศวกรผลิตภัณฑ์และทีมสนับสนุนของ Google Maps Platform จะทำงานร่วมกันเพื่อแก้ไขปัญหาและแจ้งให้คุณทราบ

วงจร

การตรวจจับ

Google ใช้การตรวจสอบภายในและการตรวจสอบแบบแบล็กบ็อกซ์เพื่อตรวจหาเหตุการณ์และส่งการแจ้งเตือนไปยังวิศวกรของเราเพื่อดำเนินการตรวจสอบ ดูข้อมูลเพิ่มเติมได้ที่บทที่ 6 ของหนังสือวิศวกรรมความเสถียรสำหรับเว็บไซต์

หากตรวจพบเหตุการณ์ที่ยังไม่ได้รายงานในเครื่องมือติดตามปัญหา ให้ไปที่หน้าสร้างเคสของทีมสนับสนุนแพลตฟอร์ม Google Maps (ในคอนโซล Google Cloud) และสร้างเคสขอรับการสนับสนุนใหม่

การตอบกลับครั้งแรก

เมื่อ Google ตรวจพบเหตุการณ์ ทีมสนับสนุนจะเป็นผู้สื่อสารกับคุณ การแจ้งเตือนครั้งแรกเกี่ยวกับเหตุการณ์มักจะมีข้อมูลไม่มากนัก โดยมักจะพูดถึงเฉพาะผลิตภัณฑ์ที่เป็นปัญหาพร้อมกับอาการหลักๆ เนื่องจากเราให้ความสำคัญกับการแจ้งเตือนที่รวดเร็วมากกว่ารายละเอียด เราจะแจ้งรายละเอียดเพิ่มเติมในการอัปเดตครั้งต่อๆ ไปเมื่อได้รับข้อมูลเพิ่มเติม

การตอบกลับ

ช่องทางการสื่อสารเกี่ยวกับเหตุการณ์

ทีมสนับสนุนของ Google Maps Platform มีช่องทางการสื่อสารเกี่ยวกับเหตุการณ์ต่างๆ ดังนี้ ทั้งนี้ขึ้นอยู่กับขอบเขตและความร้ายแรงของปัญหา

หน้าแดชบอร์ดสถานะสาธารณะของ Maps คือที่แรกที่ควรตรวจสอบเมื่อคุณพบปัญหาที่ส่งผลกระทบต่อคุณ แดชบอร์ดจะแสดงเหตุการณ์ที่ส่งผลกระทบต่อลูกค้าจํานวนมาก ดังนั้นหากคุณเห็นเหตุการณ์แสดงอยู่ในรายการ ก็อาจเกี่ยวข้องกับปัญหาของคุณ แดชบอร์ดสถานะจะระบุความรุนแรงของเหตุการณ์เป็น "การหยุดทำงาน" "การหยุดชะงัก" หรือ "ข้อมูล"

กลุ่มการแจ้งเตือนของ Google Maps Platform เป็นกลุ่ม Google แบบสาธารณะที่รายงานการหยุดทำงานครั้งใหญ่ทั้งหมด นอกเหนือจากการอัปเดตทางเทคนิคอื่นๆ เกี่ยวกับ API ของ Google Maps Platform สมาชิกกลุ่มทุกคนจะได้รับการแจ้งเตือนทางอีเมลเมื่อตรวจพบการหยุดทำงานครั้งแรก พร้อมทั้งการอัปเดตเพิ่มเติมจนกว่าปัญหาจะได้รับการแก้ไข

การ์ดสถานะ Maps Platform คือข้อความที่ให้ข้อมูลซึ่งจะปรากฏในส่วนการสนับสนุน Maps ของคอนโซล Cloud เสมอ ซึ่งจะแสดงสถานะปัจจุบันของ API และบริการ Maps Platform เมื่อเกิดเหตุการณ์ที่ใช้งานอยู่ จะมีข้อความระบุผลิตภัณฑ์ที่ได้รับผลกระทบ รวมถึงลิงก์ไปยังหน้าแดชบอร์ดสถานะสาธารณะของ Maps ซึ่งคุณจะดูเหตุการณ์ที่ใช้งานอยู่ได้

การหยุดทำงาน

เครื่องมือติดตามปัญหาจะมีรายการอ้างอิงเกี่ยวกับเหตุการณ์ทั้งหมดที่ทราบ คุณสามารถดูเหตุการณ์ที่ยังไม่ได้รับการแก้ไข ติดตามความคืบหน้าโดยติดตามเหตุการณ์ และเพิ่มความคิดเห็นเพื่อช่วยทีมของเราในการตรวจสอบ นอกจากนี้ คุณยังดูลิงก์ไปยังเครื่องมือติดตามปัญหาในเอกสารประกอบการสนับสนุนของ Google Maps Platform ได้ด้วย

กรณีการสนับสนุนจะใช้ในกรณีที่ปัญหาอาจเกิดขึ้นเฉพาะกับโปรเจ็กต์ของคุณหรือส่งผลกระทบต่อลูกค้าจํานวนหนึ่ง หากไม่มีการประกาศเหตุการณ์ แต่คุณยังคงพบปัญหาอยู่ ให้ไปที่หน้าสร้างเคสของทีมสนับสนุน Google Maps Platform (ในคอนโซล Cloud) และสร้างเคสขอรับการสนับสนุนใหม่

การตรวจสอบ

ทีมวิศวกรผลิตภัณฑ์มีหน้าที่ตรวจสอบสาเหตุที่แท้จริงของเหตุการณ์ การจัดการเหตุการณ์มักดำเนินการโดยวิศวกรความน่าเชื่อถือของเว็บไซต์ แต่อาจดำเนินการโดยวิศวกรซอฟต์แวร์หรือคนอื่นๆ ก็ได้ ทั้งนี้ขึ้นอยู่กับสถานการณ์และผลิตภัณฑ์ ดูข้อมูลเพิ่มเติมได้ที่บทที่ 12 ของหนังสือวิศวกรรมความเสถียรสำหรับเว็บไซต์

การบรรเทาปัญหา/การแก้ไข

เราจะถือว่าปัญหาได้รับการแก้ไขแล้วต่อเมื่อมีการเปลี่ยนแปลงที่ทำให้ Google มั่นใจว่าจะทำให้ผลกระทบสิ้นสุดลงอย่างถาวร เช่น การแก้ไขอาจเป็นการย้อนกลับการเปลี่ยนแปลงที่ทริกเกอร์เหตุการณ์

ขณะที่เหตุการณ์เกิดขึ้น ทีมสนับสนุนและทีมผลิตภัณฑ์จะพยายามบรรเทาปัญหา การบรรเทาปัญหาเกิดขึ้นเมื่อสามารถลดผลกระทบหรือขอบเขตของปัญหาได้ เช่น การให้ทรัพยากรเพิ่มเติมชั่วคราวแก่บริการที่ทำงานหนักเกินไป

หากไม่พบวิธีบรรเทาปัญหา ทีมสนับสนุนจะค้นหาและสื่อสารวิธีแก้ปัญหาเฉพาะหน้าหากเป็นไปได้ วิธีแก้ปัญหาเฉพาะหน้าคือขั้นตอนที่คุณสามารถทำตามได้เพื่อแก้ปัญหาสำคัญที่เกี่ยวข้องแม้จะเกิดเหตุการณ์ดังกล่าวขึ้น วิธีแก้ปัญหาเฉพาะหน้าอาจเป็นการใช้การตั้งค่าอื่นสำหรับการเรียก API เพื่อหลีกเลี่ยงเส้นทางโค้ดที่มีปัญหา

คำอธิบายเพิ่มเติม

ขณะที่ยังหาทางแก้ปัญหาอยู่ ทีมสนับสนุนจะคอยอัปเดตอย่างสม่ำเสมอ โดยปกติแล้วการอัปเดตจะมีประโยชน์ดังต่อไปนี้

  • ข้อมูลเพิ่มเติมเกี่ยวกับเหตุการณ์ เช่น ข้อความแสดงข้อผิดพลาด ฟีเจอร์ที่ได้รับผลกระทบ และระดับการแพร่กระจาย
  • ความคืบหน้าในการบรรเทาปัญหา รวมถึงวิธีแก้ปัญหาชั่วคราว
  • ไทม์ไลน์การสื่อสารที่ปรับให้เหมาะกับเหตุการณ์
  • การเปลี่ยนแปลงสถานะ เช่น เมื่อเหตุการณ์ได้รับการแก้ไข

Postmortem

เหตุการณ์ทั้งหมดจะส่งผลให้มีการวิเคราะห์ภายในเพื่อหาสาเหตุของปัญหา (หลังเกิดเหตุการณ์) เพื่อให้เข้าใจเหตุการณ์ดังกล่าวอย่างถ่องแท้และระบุการปรับปรุงความน่าเชื่อถือที่ Google ทำได้ จากนั้นเราจะติดตามและนําการปรับปรุงเหล่านี้ไปใช้ ดูข้อมูลเพิ่มเติมเกี่ยวกับการตรวจสอบผลที่ตามมาที่ Google ได้บทที่ 15 ของหนังสือวิศวกรรมความเสถียรสำหรับเว็บไซต์

รายงานเหตุการณ์

เมื่อเหตุการณ์ส่งผลกระทบในวงกว้างและร้ายแรง Google จะจัดเตรียมรายงานเหตุการณ์ที่ระบุอาการ ผลกระทบ สาเหตุที่แท้จริง การแก้ไข และการป้องกันเหตุการณ์ในอนาคต เช่นเดียวกับการตรวจสอบผล เราให้ความสำคัญเป็นพิเศษกับขั้นตอนที่เราใช้เพื่อเรียนรู้จากปัญหาและปรับปรุงความน่าเชื่อถือ เป้าหมายของ Google ในการเขียนและเผยแพร่รายงานผลการตรวจสอบหลังเกิดเหตุการณ์คือเพื่อแสดงความโปร่งใสและแสดงให้เห็นถึงความมุ่งมั่นของเราในการสร้างบริการที่เสถียรให้แก่ลูกค้า

คำถามที่พบบ่อย

ฉันต้องการรับการแจ้งเตือนเมื่อเกิดปัญหาขัดข้องอย่างต่อเนื่อง ฉันควรทำอย่างไร

  • เข้าร่วมกลุ่มการแจ้งเตือนของแพลตฟอร์ม Google Maps เพื่อรับการแจ้งเตือนเกี่ยวกับปัญหาที่เกิดขึ้นอยู่และติดตามความคืบหน้าของเหตุการณ์แบบเรียลไทม์ กลุ่มนี้ยังช่วยให้คุณทราบข้อมูลอัปเดตเกี่ยวกับผลิตภัณฑ์และแพลตฟอร์มด้วย
  • ใช้ลิงก์ฟีด RSS หรือประวัติ JSON ที่ด้านล่างของ หน้าแดชบอร์ดสถานะสาธารณะของ Maps เพื่อดูฟีดของเหตุการณ์ปัจจุบันและที่ผ่านมา โพสต์ทุกรายการในแดชบอร์ดจะทริกเกอร์การโพสต์ไปยังฟีด แต่ละโพสต์ในฟีดจะมีข้อความและการอัปเดตทั้งหมดที่เกี่ยวข้องกับเหตุการณ์ในแดชบอร์ดที่เกี่ยวข้อง เพื่อให้คุณได้รับข้อมูลอัปเดตอยู่เสมอ วิธีนี้จะช่วยให้คุณไม่ต้องค้นหาประวัติฟีดเพื่อดูความคืบหน้า ฟีด RSS จะเผยแพร่ในรูปแบบ XML ส่วนขยายของเบราว์เซอร์ เช่น ส่วนขยายการสมัครรับข้อมูล RSS (โดย Google) ช่วยให้คุณดูตัวอย่างเนื้อหาฟีดและสมัครรับข้อมูลผ่านโปรแกรมอ่าน RSS ที่คุณชื่นชอบได้ ประวัติ JSON คือฟีด JSON บนเว็บของเหตุการณ์ที่ผ่านมา ไลบรารีซอฟต์แวร์และเฟรมเวิร์กเว็บที่หลากหลาย รองรับการเผยแพร่เนื้อหาผ่านฟีด JSON

ฉันจะดูข้อมูลสถานะประเภทใดในหน้าแรกของแดชบอร์ดได้บ้าง

หน้าแดชบอร์ดสถานะสาธารณะของ Google Maps ให้ข้อมูลเกี่ยวกับ API และบริการที่เป็นส่วนหนึ่งของ Google Maps Platform หากมีเหตุการณ์ที่กำลังเกิดขึ้น ระบบจะโพสต์ข้อมูลเกี่ยวกับ API และบริการแต่ละรายการใน Google Maps Platform ไว้ที่นี่ ตัวบ่งชี้สถานะจะแสดงอยู่เสมอ ซึ่งแสดงถึงประสิทธิภาพโดยรวมของ API และบริการแต่ละรายการจากรายการต่อไปนี้

  • การหยุดทำงานของบริการ: ระบบหรือบริการเวอร์ชันที่ใช้งานจริงหยุดทำงาน ไม่มีวิธีแก้ปัญหาหรือใช้งานได้ยาก
  • การหยุดชะงักของบริการ: ระบบหรือบริการเวอร์ชันที่ใช้งานจริงทำงานได้เพียงบางส่วน และ/หรือทำงานไม่ได้ตามที่คาดไว้ มีวิธีแก้ปัญหาชั่วคราว
  • ข้อมูลบริการ: ระบบหรือบริการเวอร์ชันที่ใช้งานจริงมีความเสียหายบางส่วนและ/หรือไม่ทำงานตามที่คาดไว้ โดยทั่วไปแล้ว บริการจะยังคงใช้งานได้อยู่ ผลกระทบมีไม่มากนัก และส่งผลกระทบต่อผู้ใช้เพียงไม่กี่ราย
  • พร้อมใช้งาน: บริการใช้งานได้อย่างเต็มรูปแบบและทำงานตามที่คาดไว้

หน้าแดชบอร์ดเป็นแบบเรียลไทม์ไหม

แดชบอร์ดสถานะสาธารณะของ Maps มีไว้เพื่อแสดงสถานะแบบเรียลไทม์ของผลิตภัณฑ์ที่พร้อมให้บริการแก่ผู้ใช้ทั่วไปและอยู่ภายใต้ SLA ของ Google Maps Platform เหตุการณ์ทั้งหมดจะได้รับการตรวจสอบก่อนโพสต์ ดังนั้นจึงอาจมีความล่าช้าเล็กน้อยจากเวลาที่ตรวจพบเหตุการณ์ครั้งแรก ดังนั้น คุณไม่ควรใช้แดชบอร์ดเพื่อติดตามเวลาทำงาน

ฉันใช้แดชบอร์ดเพื่อตรวจสอบเวลาในการทํางานของ Google Maps Platform ได้ไหม

แดชบอร์ดสถานะสาธารณะของ Maps ไม่ได้มีไว้สำหรับตรวจสอบสถานะของบริการ GMP ตาม SLA ของ GMP เนื่องจากระยะเวลาการหยุดทำงานที่แสดงในแดชบอร์ดอาจไม่ได้แสดงถึง "การหยุดทำงาน" จริง (ตามที่ระบุไว้ใน SLA) สำหรับโปรเจ็กต์ของคุณ โดยเฉพาะสำหรับเหตุการณ์ความรุนแรงระดับต่ำ นอกจากนี้ ระยะเวลาที่แสดงอาจรวมเวลาเพิ่มเติมหลังจากที่ปัญหาได้รับการแก้ไขแล้วเพื่อยืนยันการแก้ไขอย่างสมบูรณ์

หากต้องการตรวจสอบการใช้งาน API, สร้างหน้าแดชบอร์ด และสร้างการแจ้งเตือน ให้ไปที่การตรวจสอบ Google Maps Platform

ฉันควรทำอย่างไรหากไม่เห็นเหตุการณ์ในหน้าแดชบอร์ด

ลูกค้าและโปรเจ็กต์บางรายอาจไม่ได้รับผลกระทบจากเหตุการณ์บางรายการ เฉพาะเหตุการณ์ที่รุนแรงและกว้างๆ เท่านั้นที่จะแสดงในแดชบอร์ด หากพบปัญหาที่ไม่ได้แสดงในหน้าแดชบอร์ด โปรดติดต่อทีมสนับสนุน

ฉันจะดูข้อมูลเกี่ยวกับการหยุดชะงักและการหยุดทำงานของบริการที่ผ่านมาได้จากที่ใด

หน้า ประวัติในแดชบอร์ดสถานะสาธารณะของ Maps เป็นที่เก็บข้อมูลการหยุดชะงักและการหยุดทำงานในช่วง 365 วันที่ผ่านมา คลิกเหตุการณ์เพื่อตรวจสอบโพสต์เกี่ยวกับเหตุการณ์ขณะที่เกิดเหตุการณ์นั้น รวมถึงรายงานเหตุการณ์ที่ทีมสนับสนุนเผยแพร่

ใครเป็นผู้อัปเดตหน้าแดชบอร์ด

ทีมสนับสนุนของ Google Maps Platform ทั่วโลกจะตรวจสอบสถานะของบริการโดยใช้สัญญาณประเภทต่างๆ และอัปเดตหน้าแดชบอร์ดในกรณีที่เกิดปัญหาในวงกว้าง และจะโพสต์รายงานการวิเคราะห์โดยละเอียดหลังจากเหตุการณ์ได้รับการแก้ไขแล้ว หากจำเป็น

"เหตุการณ์" กับ "การหยุดทำงาน" แตกต่างกันอย่างไร

แม้ว่าคำเหล่านี้มักใช้แทนกันได้ แต่แดชบอร์ดสถานะสาธารณะของ Maps และการสื่อสารภายนอกของเราจะใช้คำว่า "เหตุการณ์" เพื่ออ้างอิงถึงระยะเวลาที่บริการทำงานได้ไม่ดี และคำว่า "การหยุดทำงาน" เพื่ออ้างอิงถึงการทำงานที่บกพร่องขั้นร้ายแรงที่สุดเท่านั้น ซึ่งบริการไม่ทำงานจนทำให้ประสบการณ์ของลูกค้าไร้ประโยชน์