Google 地圖平台事件管理

事件的生命週期

Google 地圖平台遵循 Google Cloud Platform 事件管理架構

當服務中斷或效能下降時,產品工程團隊與 Google 地圖平台支援團隊會共同合作以解決事件,並傳送相關通知給您。

生命週期

偵測

Google 會使用內部和黑箱監控來偵測事件,並觸發快訊通知工程師進行調查。如要進一步瞭解相關資訊,請參閱《Site Reliability Engineering》(網站穩定性工程) 一書的第 6 章

如果您偵測到的事件在 Issue Tracker 中尚未有任何通報記錄,請前往 Google 地圖平台支援頁面 (位於 Google Cloud Console) 建立新的客服案件。

初步回應

當 Google 偵測到事件,支援團隊將會主動與您聯繫。一般來說,第一次發出事件通知時,能夠提供的訊息並不多,通常只會提到有問題及重要徵兆的產品。我們的用意是盡速發出通知,重點不在於提供具體細節; 當我們後續掌握更詳盡的資訊,就會向您更新最新情況。

回應

事件通訊管道

為避免資訊量太多或不足,Google 地圖平台支援團隊會視問題影響範圍和嚴重程度,採用不同的事件通訊管道。

一旦您發現有任何影響到您的問題,別忘了先前往地圖公開狀態資訊主頁查看。資訊主頁上會顯示對許多客戶造成影響的事件,而其中列的事件很可能就與您的問題有關。狀態資訊主頁會將事件標示為「服務中斷」、「干擾」或「資訊」,藉此指示事件的嚴重程度。

Google 地圖平台通知群組是公開的 Google 群組,所有大規模服務中斷問題及其他有關 Google Maps Platform API 的技術更新,都會透過此通知群組進行通報。系統偵測到服務中斷時,所有群組成員都會在第一時間收到電子郵件通知,並且會持續收到後續更新消息,直到問題解決為止。

Maps Platform 狀態資訊卡是一種實用訊息,會永遠顯示在 Cloud Console 的地圖支援部分,供您查看 Maps Platform API 和服務的目前狀態。發生事件時,系統就會透過訊息指出受影響的產品,並提供地圖公開狀態資訊主頁的連結,方便您查看正在發生的事件。

服務中斷

Issue Tracker 內含所有已知事件的參照清單,方便您查看尚未解決的事件,而您可以訂閱事件來追蹤進度,並新增留言以協助團隊調查。此外,您也可以在 Google 地圖平台支援說明文件中找到 Issue Tracker 的連結

如果問題可能只與您的專案有關,或只有少數客戶受到影響,則可建立客服案件。如果資訊主頁上沒有任何已宣告的事件,但您仍一直遇到問題,請前往 Cloud Console 中的 Google 地圖平台支援頁面,並建立新的客服案件。

調查

產品工程團隊會負責調查事件的根本原因。事件管理則通常由網站穩定性工程師執行,但視實際情況和產品而定,也可能交由軟體工程師或其他人員負責。如要進一步瞭解相關資訊,請參閱《Site Reliability Engineering》(網站穩定性工程) 一書的第 12 章

緩解措施/修正

只有當 Google 確認已進行的變更可永久終止問題帶來的影響時,才會將問題視為「已修正」。舉例來說,修正可能是將觸發事件的變更復原。

事件還未解決時,支援團隊與產品團隊會嘗試「緩解」問題。「緩解」是指得以縮減問題的影響或範圍,例如暫時提供額外資源予超載服務,以便緩解問題。

如果尚未找出緩解措施,支援團隊會盡可能尋找「因應措施」並傳授給客戶。「因應措施」是指事件尚未修正或緩解前,用來解決基本需求的操作步驟。例如,為 API 呼叫使用不同設定,避開有問題的程式碼路徑,就是一種因應措施。

後續追蹤

在事件發生的過程中,支援團隊會定期向使用者提供更新消息,內容通常包括:

  • 事件的詳細資訊,例如錯誤訊息、哪些功能會受到影響及其影響範圍。
  • 緩解措施的進度,包括所有因應措施。
  • 根據事件建立的通訊時間軸。
  • 狀態更新,例如通知「事件已修正」。

檢討報告

所有事件一定會進行內部分析,並在事後出具檢討報告。這是因為 Google 想全盤瞭解事件,並據以研擬可靠的改善措施。在此之後,我們便會持續追蹤並執行這些改善措施。如要進一步瞭解 Google 檢討報告,請參閱《Site Reliability Engineering》(網站穩定性工程) 一書的第 15 章

事件報告

當事件帶來的影響層面既廣泛又嚴重時,Google 就會提供事件報告,概要說明問題、影響、根本原因、補救措施以及日後的防範工作。和檢討報告一樣,我們會把焦點放在 Google 如何從問題中學習,並據以推出相關措施,進一步改善產品/服務可靠性。Google 撰寫及發布檢討報告旨在讓資訊公開透明,表明我們致力為客戶打造穩定的優質服務。

常見問題

我想要在發生服務中斷時收到通知,該怎麼做?

  • 加入 Google 地圖平台通知群組即可接收目前問題的相關通知,並即時追蹤事件處理進度。您也可以透過這個群組掌握產品和平台的最新公告資訊。
  • 使用 Google 地圖公開狀態資訊主頁底部的 RSS 動態消息JSON 記錄連結,即可查看目前事件和過往事件的動態消息。每次張貼內容到資訊主頁時,也會張貼內容到動態消息。為即時提供資訊,每次張貼內容到動態消息時,都會包含與對應資訊主頁事件相關的所有訊息和更新內容。如此一來,您就不需要探索動態消息記錄來掌握進度。RSS 動態消息是以 XML 格式發布。RSS 訂閱擴充功能 (由 Google 提供) 等瀏覽器擴充功能可讓您預覽動態消息內容,並訂閱您喜愛的 RSS 閱讀器。JSON 記錄是過往事件的 JSON 網路動態消息。各式各樣的軟體程式庫和網路架構都支援透過 JSON 動態消息聯合發布內容。

我可以在資訊主頁上找到哪種類型的狀態資訊?

Google 地圖公開狀態資訊主頁會針對 Google 地圖平台中的 API 和服務提供相關資訊。發生事件時,這裡就會發布 Google 地圖平台中各項特定 API 和服務的相關資訊。系統一律會顯示以下任一狀態指標,代表各項 API 和服務的整體健全度:

  • 服務中斷:實際執行環境中的系統或服務已停擺。目前沒有可用的因應做法或是難以部署。
  • 服務干擾:實際執行環境中的系統或服務受到部分影響,且/或無法按預期運作。目前有因應做法。
  • 服務資訊:實際執行環境中的系統或服務受到部分影響,且/或無法按預期運作。一般而言,服務仍可正常運作,影響不大,波及少數使用者。
  • 可用:服務功能完全正常,且可按預期運作。

資訊主頁提供的是即時資訊嗎?

地圖公開狀態資訊主頁旨在提供近乎即時的產品狀態,這些產品已全面開放使用,且受到 Google 地圖平台服務水準協議規範。所有事件都必須先經過驗證才能發布,因此發布時間可能會比初次偵測到事件的時間稍晚。由此可知,資訊主頁不應用於追蹤運作時間。

如果資訊主頁上沒有顯示任何事件,該怎麼辦?

並非所有客戶都會受到每個事件的影響。資訊主頁只會顯示影響範圍廣大的嚴重事件。如果您遇到的問題沒有列在資訊主頁上,請與支援團隊聯絡

哪裡可以找到有關過往服務干擾和中斷的資訊?

地圖公開狀態資訊主頁的「記錄」頁面彙整了過去 365 天的服務干擾和中斷資訊。按一下特定事件,即可檢視其發生時的相關貼文,以及支援團隊發布的任何事件報告。

資訊主頁由誰更新?

全球 Google 地圖平台支援團隊會運用多種不同類型的信號來監控服務狀態,並在發生重大問題時更新資訊主頁。事件解決後,他們也會視需要發布詳細的分析報告。

「事件」與「服務中斷」有何不同?

雖然這些字詞經常交替使用,但地圖公開狀態資訊主頁和我們的外部通訊團隊,通會使用「事件」來表示任何時期的服務效能下降問題。「服務中斷」則僅用於表示最嚴重的問題,也就是服務幾乎無法運作,進而徹底影響客戶體驗的情況。