Mẫu thiết kế cho quy trình xác thực địa chỉ khối lượng lớn trên Google Cloud Platform

Mục tiêu

Hướng dẫn Xác thực địa chỉ số lượng lớn đã hướng dẫn bạn qua nhiều trường hợp có thể sử dụng tính năng xác thực địa chỉ số lượng lớn. Trong hướng dẫn này, chúng tôi sẽ giới thiệu cho bạn các mẫu thiết kế trong Google Cloud Platform để chạy tính năng Xác thực địa chỉ số lượng lớn.

Chúng ta sẽ bắt đầu với thông tin tổng quan về cách chạy tính năng Xác thực địa chỉ số lượng lớn trong Google Cloud Platform bằng Cloud Run, Compute Engine hoặc Google Kubernetes Engine cho các lần thực thi một lần. Sau đó, chúng ta sẽ xem cách đưa khả năng này vào pipeline dữ liệu.

Khi đọc xong bài viết này, bạn sẽ hiểu rõ các lựa chọn để chạy tính năng Xác thực địa chỉ số lượng lớn trong môi trường Google Cloud.

Kiến trúc tham chiếu trên Google Cloud Platform

Phần này đi sâu hơn vào các mẫu thiết kế cho tính năng Xác thực địa chỉ số lượng lớn bằng Google Cloud Platform. Khi chạy trên Google Cloud Platform, bạn có thể tích hợp với các quy trình và quy trình dữ liệu hiện có.

Chạy tính năng Xác thực địa chỉ số lượng lớn một lần trên Google Cloud Platform

Dưới đây là kiến trúc tham chiếu về cách xây dựng quy trình tích hợp trên Google Cloud Platform, phù hợp hơn cho các hoạt động hoặc thử nghiệm một lần.

hình ảnh

Trong trường hợp này, bạn nên tải tệp CSV lên một nhóm lưu trữ trên Cloud Storage. Sau đó, bạn có thể chạy tập lệnh Xác thực địa chỉ số lượng lớn từ môi trường Cloud Run. Tuy nhiên, bạn có thể thực thi tập lệnh này trong bất kỳ môi trường thời gian chạy nào khác như Compute Engine hoặc Google Kubernetes Engine. Bạn cũng có thể tải tệp CSV đầu ra lên nhóm lưu trữ trên Cloud Storage.

Chạy dưới dạng quy trình dữ liệu của Google Cloud Platform

Mẫu triển khai được trình bày trong phần trước rất phù hợp để nhanh chóng kiểm thử tính năng Xác thực địa chỉ số lượng lớn cho một lần sử dụng. Tuy nhiên, nếu cần sử dụng thường xuyên trong quy trình dữ liệu, bạn có thể tận dụng tốt hơn các tính năng gốc của Google Cloud Platform để làm cho quy trình này mạnh mẽ hơn. Bạn có thể thực hiện một số thay đổi sau:

hình ảnh

  • Trong trường hợp này, bạn có thể kết xuất tệp CSV vào các nhóm lưu trữ trên Cloud Storage.
  • Công việc Dataflow có thể chọn các địa chỉ cần xử lý rồi lưu vào bộ nhớ đệm trong BigQuery.
  • Bạn có thể mở rộng thư viện Dataflow Python để có logic cho tính năng Xác thực địa chỉ số lượng lớn nhằm xác thực các địa chỉ từ công việc Dataflow.

Chạy tập lệnh từ quy trình dữ liệu dưới dạng quy trình định kỳ lâu dài

Một phương pháp phổ biến khác là xác thực một lô địa chỉ trong quy trình dữ liệu truyền trực tuyến dưới dạng quy trình định kỳ. Bạn cũng có thể có các địa chỉ trong kho lưu trữ dữ liệu BigQuery. Trong phương pháp này, chúng ta sẽ xem cách xây dựng quy trình dữ liệu định kỳ (cần được kích hoạt hằng ngày/hằng tuần/hằng tháng)

hình ảnh

  • Tải tệp CSV ban đầu lên một nhóm lưu trữ trên Cloud Storage.
  • Sử dụng Memorystore làm kho lưu trữ dữ liệu cố định để duy trì trạng thái trung gian cho quy trình chạy lâu dài.
  • Lưu các địa chỉ cuối cùng vào bộ nhớ đệm trong kho lưu trữ dữ liệu BigQuery.
  • Thiết lập Cloud Scheduler để chạy tập lệnh theo định kỳ.

Kiến trúc này có những ưu điểm sau:

  • Bạn có thể xác thực địa chỉ theo định kỳ bằng Cloud Scheduler. Bạn có thể muốn xác thực lại địa chỉ hằng tháng hoặc xác thực mọi địa chỉ mới hằng tháng/hằng quý. Kiến trúc này giúp giải quyết trường hợp sử dụng đó.
  • Nếu dữ liệu khách hàng nằm trong BigQuery, thì các địa chỉ đã xác thực hoặc Cờ xác thực có thể được lưu vào bộ nhớ đệm trực tiếp tại đó. Lưu ý: Bạn có thể lưu vào bộ nhớ đệm những gì và cách lưu vào bộ nhớ đệm được mô tả chi tiết trong bài viết Xác thực địa chỉ số lượng lớn

  • Việc sử dụng Memorystore giúp tăng khả năng phục hồi và khả năng xử lý nhiều địa chỉ hơn. Bước này thêm trạng thái vào toàn bộ quy trình xử lý cần thiết để xử lý các tập dữ liệu địa chỉ rất lớn. Bạn cũng có thể sử dụng các công nghệ cơ sở dữ liệu khác như Cloud SQL[https://cloud.google.com/sql] hoặc bất kỳ loại cơ sở dữ liệu nào khác mà Google Cloud Platform cung cấp. Tuy nhiên, chúng tôi tin rằng Memorystore cân bằng hoàn hảo các nhu cầu về khả năng mở rộng và tính đơn giản, vì vậy, đây là lựa chọn đầu tiên.

Kết luận

Bằng cách áp dụng các mẫu được mô tả ở đây, bạn có thể sử dụng Address Validation API cho nhiều trường hợp sử dụng và từ nhiều trường hợp sử dụng trên Google Cloud Platform.

Chúng tôi đã viết một thư viện Python mã nguồn mở để giúp bạn bắt đầu với các trường hợp sử dụng được mô tả ở trên. Bạn có thể gọi thư viện này từ dòng lệnh trên máy tính hoặc từ Google Cloud Platform hoặc các nhà cung cấp dịch vụ đám mây khác.

Tìm hiểu thêm về cách sử dụng thư viện trong bài viết này.

Các bước tiếp theo

Tải xuống Báo cáo chính thức về cách Cải thiện quy trình thanh toán, giao hàng và hoạt động bằng các địa chỉ đáng tin cậy và xem Hội thảo trực tuyến về cách Cải thiện quy trình thanh toán, giao hàng và hoạt động bằng tính năng Xác thực địa chỉ .

Đề xuất đọc thêm:

Người đóng góp

Google duy trì bài viết này. Những người đóng góp sau đây đã viết bài viết này.
Tác giả chính:

Henrik Valve | Kỹ sư giải pháp
Thomas Anglaret | Kỹ sư giải pháp
Sarthak Ganguly | Kỹ sư giải pháp