Google 地圖平台事件管理

事件通訊管道

Google 地圖平台支援團隊提供不同的事件通訊管道。

Google 地圖平台事件和服務中斷 Issue Tracker 清單列出了所有已知事件。您可以輕鬆查看目前發生的事件,也可以訂閱事件來追蹤進度,並新增留言以協助團隊調查。

Google 地圖平台通知群組是通報大規模服務中斷問題的首要位置。在系統偵測到服務中斷時,所有加入群組的客戶都會在第一時間收到電子郵件通知,且會持續接收所有後續更新消息,直到問題解決為止。

一旦系統偵測到問題並於 Issue Tracker 中通報,Google 地圖平台支援頁面 (位於 Cloud Console) 也會同時顯示橫幅通知。橫幅會指明受影響的產品,並附上 Issue Tracker 的連結。

事件的生命週期

Google 地圖平台遵循 Google Cloud Platform 事件管理架構

當服務中斷或效能下降時,產品工程團隊與 Google 地圖平台支援團隊會共同合作以解決事件,並傳送相關通知給您。

生命週期

偵測

Google 使用內部監控與黑箱監控來偵測事件。如要進一步瞭解相關資訊,請參閱《Site Reliability Engineering》(網站穩定性工程) 一書的第 6 章

如果您偵測到事件尚未在 Issue Tracker 中通報,請前往 Google 地圖平台支援頁面 (位於 Cloud Console) 建立新的客服案件。

初步回應

當系統偵測到事件時,支援團隊將主動與您聯繫。一般來說,第一次發出事件通知時,能夠提供的訊息並不多,通常只會提到有問題的產品。這是因為我們選擇盡速發出通知,而非提供具體的細節,相關詳情會於後續更新中提供。

為提供適當資訊量,系統會視問題影響範圍和嚴重程度採用不同的通訊管道。

回應

調查

產品工程團隊會負責調查事件的根本原因。事件管理則通常由網站穩定性工程師執行,但視實際情況和產品而定,也可能交由軟體工程師或其他人員負責。如要進一步瞭解相關資訊,請參閱《Site Reliability Engineering》(網站穩定性工程) 一書的第 12 章

緩解措施/修正

只有當 Google 確認已進行的變更可永久終止問題帶來的影響時,才會將問題視為「已修正」。舉例來說,修正可能是將觸發事件的變更復原。

事件還未解決時,支援團隊與產品團隊會嘗試「緩解」問題。「緩解」是指得以縮減問題的影響或範圍,例如暫時提供額外資源予超載服務,以便緩解問題。

如果尚未找出緩解措施,支援團隊會盡可能尋找「因應措施」並傳授給客戶。「因應措施」是指事件尚未修正或緩解前,用來解決基本需求的操作步驟。例如,為 API 呼叫使用不同設定,避開有問題的程式碼路徑,就是一種因應措施。

後續追蹤

在事件發生的過程中,支援團隊會定期向使用者提供更新消息,內容通常包括:

  • 事件的詳細資訊,例如錯誤訊息、哪些功能會受到影響及其影響範圍。
  • 緩解措施的進度,包括所有因應措施。
  • 根據事件建立的通訊時間軸。
  • 狀態更新,例如通知「事件已修正」。

檢討報告

所有事件一定會進行內部分析,並在事後出具檢討報告。這是因為 Google 想全盤瞭解事件,並據以研擬可靠的改善措施。在此之後,我們便會持續追蹤並執行這些改善措施。如要進一步瞭解 Google 檢討報告,請參閱《Site Reliability Engineering》(網站穩定性工程) 一書的第 15 章

事件報告

當事件帶來的影響層面既廣泛又嚴重時,Google 就會提供事件報告,概要說明問題、影響、根本原因、補救措施以及日後的防範工作。和檢討報告一樣,我們會把焦點放在 Google 如何從問題中學習,並據以推出相關措施,進一步改善產品/服務可靠性。Google 撰寫及發布檢討報告,就是想要達成透明化,表明我們將致力為客戶打造穩定的優質服務。

常見問題

我想要在發生服務中斷時收到通知,該怎麼做才好?

加入 Google 地圖平台通知群組即可接收當前問題相關通知,並即時追蹤事件處理進度。您也可以透過這個群組掌握產品和平台的最新公告資訊。

在哪裡可以查看已通報的服務中斷?

Google 地圖平台小組備有多種資源可協助您掌握最新的服務中斷資訊,請選取最適合您的方式。

  • Issue Tracker 中的事件:所有已知事件的參考清單。 您可以輕鬆查看目前發生的事件,也可以訂閱事件來追蹤進度,並新增留言以協助團隊調查。您可以在 Google 地圖平台支援說明文件中找到公開 Issue Tracker 的連結。
  • Google 地圖平台通知群組:通報所有大規模服務中斷問題的 Google 群組。在系統偵測到服務中斷時,所有加入群組的客戶都會在第一時間收到電子郵件通知,且會持續接收所有後續更新消息,直到問題解決為止。
  • Google 地圖平台支援頁面 (位於 Cloud Console):一旦系統偵測到問題並於 Issue Tracker 通報,「支援」頁面隨即會以現行橫幅向使用者通知該問題,並附上 Issue Tracker 連結。

    服務中斷

如果我遇到的問題,在通知群組或 Issue Tracker 中都找不到,該怎麼辦?

該問題可能只與您的專案有關,也可能是只有少數客戶受到影響。 如果系統沒有宣布任何事件,請前往 Google 地圖平台支援頁面 (位於 Cloud Console) 建立新的客服案件。

「事件」與「服務中斷」有何不同?

雖然這些字詞經常交替使用,但我們的外部通訊會使用「事件」來表示任何時期的服務效能下降問題。「服務中斷」則僅用於表示最嚴重的問題,也就是產品幾乎無法運作的狀況。