目標
大量地址驗證教學課程會引導您瞭解可使用大量地址驗證的不同情境。在本教學課程中,我們將介紹 Google Cloud Platform 中用於執行大量地址驗證的各種設計模式。
我們將先概略說明如何在 Google Cloud Platform 中使用 Cloud Run、Compute Engine 或 Google Kubernetes Engine 執行一次性的高大量地址驗證作業。然後,我們將說明如何在資料管道中納入這項功能。
閱讀完本文後,您應該會充分瞭解在 Google Cloud 環境中,有哪些不同的選項可用於大量執行地址驗證。
Google Cloud Platform 參考架構
本節深入探討使用 Google Cloud Platform 進行高容量位址驗證的不同設計模式。您可以在 Google Cloud Platform 上執行,並整合現有的程序和資料管道。
在 Google Cloud Platform 上執行一次高大量地址驗證
以下為如何在 Google Cloud Platform 上建構整合的參考架構,這種方式較適合一次性作業或測試。
在這種情況下,建議您將 CSV 檔案上傳至 Cloud Storage 值區。然後即可透過 Cloud Run 環境執行高容量位址驗證指令碼。不過,您可以執行任何其他執行階段環境,例如 Compute Engine 或 Google Kubernetes Engine。輸出 CSV 也可以上傳至 Cloud Storage 值區。
做為 Google Cloud Platform 資料管道執行
上一節所示的部署模式非常適合用於快速測試一次性使用的大量地址驗證。不過,如果您需要定期將其用於資料管道,則可以更有效地運用 Google Cloud Platform 原生功能,讓管道更健全。您可以進行的變更包括:
- 在這種情況下,您可以在 Cloud Storage 值區中傾印 CSV 檔案。
- Dataflow 工作可擷取要處理的地址,然後在 BigQuery 中快取。
- Dataflow Python 程式庫可擴充,加入大量地址驗證邏輯,驗證 Dataflow 工作中的地址。
以長時間週期性程序的形式,從資料管道執行指令碼
另一種常見的方法是,將串流資料管道中的一批位址驗證為週期性程序。您也可以在 BigQuery 資料儲存庫裡找到位址。在這個方法中,我們將說明如何建構週期性資料管道 (需要每天/每週/每月觸發)
- 將初始 CSV 檔案上傳至 Cloud Storage 值區。
- 使用 Memorystore 做為永久資料儲存庫,讓長時間執行的程序維持中繼狀態。
- 在 BigQuery 資料儲存庫中快取最終地址。
- 設定 Cloud Scheduler 定期執行指令碼。
此架構具備下列優點:
- 您可以使用 Cloud Scheduler 定期執行地址驗證。建議您每個月重新驗證地址,或是每季/每季驗證新的地址。這個架構可解決此用途。
如果客戶資料位於 BigQuery 中,則可直接在該處快取已驗證的地址或驗證標記。注意:您可以參閱大量地址驗證文章,進一步瞭解可快取的內容和方式。
使用 Memorystore 可提高復原能力,並處理更多位址。這個步驟會為整個處理管道新增狀態,以便處理非常龐大的地址資料集。其他資料庫技術 (例如 Cloud SQL[https://cloud.google.com/sql]) 或 Google Cloud Platform 提供的任何其他資料庫類型,也可以用於此處。不過,我們認為 Memorystore 完美地平衡了擴充和簡易性的需求,因此應是首選。
結論
只要套用本文所述的模式,您就能在 Google Cloud Platform 上,針對不同的用途和用途來源,使用 Address Validation API。
我們已編寫開放原始碼 Python 程式庫,協助您開始使用上述用途。您可以透過電腦上的指令列,或透過 Google Cloud Platform 或其他雲端服務供應商來叫用此工具。
如要進一步瞭解如何使用程式庫,請參閱這篇文章。
後續步驟
下載「透過可靠的地址改善結帳、運送和營運」 白皮書,並觀看「透過地址驗證功能改善結帳、運送和營運」 網路研討會。
建議參閱以下文章:
貢獻者
本文由 Google 維護。下列提供者原本可以撰寫您的簽名。
首席作者:
Henrik Valve | 解決方案工程師
Thomas Anglaret | 解決方案工程師
Sarthak Ganguly | 解決方案工程師