Wzorce projektowe do walidacji dużej ilości adresów w Google Cloud Platform

Cel

W samouczku Weryfikacja adresów w dużych ilościach omówiliśmy różne scenariusze, w których można stosować weryfikację adresów w dużych ilościach. W tym samouczku zapoznasz się z różnymi wzorcami projektowania w Google Cloud Platform, które umożliwiają przeprowadzanie walidacji adresów na dużą skalę.

Zaczniemy od omówienia wykonywania weryfikacji adresów o dużej liczbie adresów w Google Cloud Platform za pomocą Cloud Run, Compute Engine lub Google Kubernetes Engine w ramach jednorazowych operacji. Następnie zobaczysz, jak można włączyć tę funkcję w ramach potoku danych.

Do końca tego artykułu powinieneś dobrze rozumieć różne opcje uruchamiania weryfikacji adresów w dużych ilościach w środowisku Google Cloud.

Architektura referencyjna w Google Cloud Platform

W tej sekcji znajdziesz więcej informacji o różnych wzorcach projektowania weryfikacji adresów w dużej ilości przy użyciu Google Cloud Platform. Dzięki działaniu na platformie Google Cloud Platform możesz integrować się z dotychczasowymi procesami i potoki danych.

Jednorazowe uruchomienie weryfikacji adresów o dużej liczbie rekordów w Google Cloud Platform

Poniżej znajduje się architektura referencyjna, która pokazuje, jak tworzyć integrację na Google Cloud Platform. Jest ona bardziej odpowiednia do operacji jednorazowych lub testowania.

obraz

W takim przypadku zalecamy przesłanie pliku CSV do zasobnika Cloud Storage. Skrypt do weryfikacji adresów o dużej liczbie adresów można następnie uruchomić w środowisku Cloud Run. Możesz jednak uruchomić go w dowolnym innym środowisku wykonawczym, takim jak Compute Engine czy Google Kubernetes Engine. Plik CSV z wynikiem może też zostać przesłany do zasobnika Cloud Storage.

Uruchamianie jako potok danych Google Cloud Platform

Wzorzec wdrożenia pokazany w poprzedniej sekcji doskonale nadaje się do szybkiego testowania walidacji adresów o dużej liczbie adresów na potrzeby jednorazowego użycia. Jeśli jednak potrzebujesz regularnego korzystania z niego w ramach potoku danych, możesz lepiej wykorzystać funkcje natywne Google Cloud Platform, aby zwiększyć jego niezawodność. Oto niektóre z nich:

obraz

  • W takim przypadku możesz zapisywać pliki CSV w zasobnikach Cloud Storage.
  • Zadanie Dataflow może pobrać adresy do przetworzenia, a potem zapisać je w pamięci podręcznej w BigQuery.
  • Biblioteka Dataflow Python może zostać rozszerzona o logikę weryfikacji adresów o dużym natężeniu, aby weryfikować adresy z zadania Dataflow.

Uruchamianie skryptu z potoku danych jako długotrwały proces powtarzalny

Innym popularnym podejściem jest weryfikowanie zbioru adresów w ramach strumieniowego potoku danych jako powtarzalnego procesu. Adresy mogą też być dostępne w bigquery datastore. W ramach tego podejścia zobaczysz, jak tworzyć powtarzające się przepływy danych (które muszą być uruchamiane codziennie, co tydzień lub co miesiąc).

obraz

  • Prześlij początkowy plik CSV do zasobnika Cloud Storage.
  • Użyj Memorystore jako trwałego magazynu danych, aby zachować stan pośredni w przypadku długotrwałego procesu.
  • Zapisz do pamięci podręcznej adresy docelowe w magazynie danych BigQuery.
  • Skonfiguruj Cloud Scheduler, aby skrypt był uruchamiany okresowo.

Ta architektura ma następujące zalety:

  • Za pomocą Cloud Scheduler możesz okresowo przeprowadzać weryfikację adresów. Możesz ponownie sprawdzać adresy co miesiąc lub sprawdzać nowe adresy co miesiąc lub co kwartał. Ta architektura pomaga rozwiązać ten problem.
  • Jeśli dane o klientach znajdują się w BigQuery, można zapisać w pamięci podręcznej bezpośrednio tam zweryfikowane adresy lub flagi weryfikacji. Uwaga: informacje o tym, co i jak można zapisać w pamięci podręcznej, znajdziesz w artykule na temat weryfikacji adresów o dużej liczbie adresów.

  • Korzystanie z Memorystore zapewnia większą odporność i możliwość przetwarzania większej liczby adresów. Te kroki powodują, że cały proces przetwarzania staje się stanowy, co jest potrzebne do obsługi bardzo dużych zbiorów danych adresów. Można tu też używać innych technologii baz danych, takich jak Cloud SQL [https://cloud.google.com/sql] lub innych typów baz danych, które oferuje Google Cloud Platform. Uważamy jednak, że usługa pamięci bezstanowej zapewnia idealny balans między skalowalnością a prostotą, dlatego powinna być pierwszym wyborem.

Podsumowanie

Stosując opisane tu wzorce, możesz używać interfejsu Address Validation API w różnych przypadkach użycia i w różnych zastosowaniach w Google Cloud Platform.

Aby ułatwić Ci rozpoczęcie korzystania z opisanych powyżej przypadków użycia, opracowaliśmy bibliotekę Pythona open source. Można go wywołać z wiersza poleceń na komputerze lub z Google Cloud Platform lub innych dostawców usług w chmurze.

Więcej informacji o korzystaniu z biblioteki znajdziesz w tym artykule.

Następne kroki

Pobierz białą księgę Ulepszenie procesu płatności, dostawy i działalności dzięki wiarygodnym adresom oraz obejrzyj webinar Ulepszenie procesu płatności, dostawy i działalności dzięki walidacji adresów .

Sugerowane artykuły:

Współtwórcy

Google jest autorem tego artykułu. Pierwotnie napisali go autorzy wymienieni poniżej.
Główni autorzy:

Henrik Valve | Inżynier ds. rozwiązań
Thomas Anglaret | Inżynier ds. rozwiązań
Sarthak Ganguly | Inżynier ds. rozwiązań