Designmuster für die Validierung von Adressen mit hohem Volumen auf der Google Cloud Platform

Ziel

Im Leitfaden zur Adressbestätigung bei hohem Volumen wurden verschiedene Szenarien beschrieben, in denen die Adressbestätigung bei hohem Volumen verwendet werden kann. In dieser Anleitung stellen wir Ihnen verschiedene Designmuster in der Google Cloud-Plattform für die Adressvalidierung mit hohem Volumen vor.

Wir beginnen mit einer Übersicht zur Ausführung der Adressenüberprüfung mit hohem Volumen in der Google Cloud Platform mit Cloud Run, Compute Engine oder Google Kubernetes Engine für einmalige Ausführungen. Anschließend sehen wir uns an, wie diese Funktion in eine Datenpipeline eingebunden werden kann.

Am Ende dieses Artikels sollten Sie die verschiedenen Optionen für die Ausführung der Adressüberprüfung in großen Mengen in Ihrer Google Cloud-Umgebung kennen.

Referenzarchitektur in der Google Cloud Platform

In diesem Abschnitt werden verschiedene Designmuster für die Adressvalidierung mit hohem Volumen mithilfe der Google Cloud Platform näher erläutert. Da die Lösung auf der Google Cloud Platform ausgeführt wird, können Sie sie in Ihre vorhandenen Prozesse und Datenpipelines einbinden.

Einmalige Ausführung der Adressüberprüfung mit hohem Volumen auf der Google Cloud Platform

Unten sehen Sie eine Referenzarchitektur für die Erstellung einer Integration in der Google Cloud Platform, die sich besser für einmalige Vorgänge oder Tests eignet.

Image

In diesem Fall empfehlen wir, die CSV-Datei in einen Cloud Storage-Bucket hochzuladen. Das Script zur Adressbestätigung mit hohem Volumen kann dann in einer Cloud Run-Umgebung ausgeführt werden. Sie können ihn jedoch in jeder anderen Laufzeitumgebung wie der Compute Engine oder der Google Kubernetes Engine ausführen. Die Ausgabe-CSV kann auch in den Cloud Storage-Bucket hochgeladen werden.

Als Google Cloud Platform-Datenpipeline ausführen

Das im vorherigen Abschnitt gezeigte Bereitstellungsmuster eignet sich hervorragend, um die Adressenüberprüfung für hohes Volumen für eine einmalige Verwendung schnell zu testen. Wenn Sie es jedoch regelmäßig als Teil einer Datenpipeline verwenden müssen, können Sie die nativen Funktionen der Google Cloud Platform besser nutzen, um es robuster zu machen. Sie können unter anderem Folgendes ändern:

Image

  • In diesem Fall können Sie CSV-Dateien in Cloud Storage-Buckets ablegen.
  • Ein Dataflow-Job kann die zu verarbeitenden Adressen abrufen und dann in BigQuery im Cache speichern.
  • Die Dataflow-Python-Bibliothek kann um eine Logik für die Validierung von Adressen mit hohem Volumen erweitert werden, um die Adressen aus dem Dataflow-Job zu validieren.

Das Script aus einer Datenpipeline als langwierigen wiederkehrenden Prozess ausführen

Ein weiterer gängiger Ansatz besteht darin, eine Reihe von Adressen als Teil einer Streaming-Datenpipeline als wiederkehrenden Prozess zu validieren. Möglicherweise haben Sie die Adressen auch in einem BigQuery-Datenspeicher. Bei diesem Ansatz sehen wir uns an, wie eine wiederkehrende Datenpipeline erstellt wird, die täglich, wöchentlich oder monatlich ausgelöst werden muss.

Image

  • Laden Sie die ursprüngliche CSV-Datei in einen Cloud Storage-Bucket hoch.
  • Verwenden Sie Memorystore als nichtflüchtigen Datenspeicher, um den Zwischenstatus für den lang laufenden Prozess beizubehalten.
  • Speichern Sie die endgültigen Adressen in einem BigQuery-Datenspeicher.
  • Richten Sie Cloud Scheduler ein, um das Script regelmäßig auszuführen.

Diese Architektur bietet folgende Vorteile:

  • Mit Cloud Scheduler kann die Adressbestätigung regelmäßig erfolgen. Sie können die Adressen monatlich oder neue Adressen monatlich oder vierteljährlich noch einmal validieren. Diese Architektur hilft, diesen Anwendungsfall zu lösen.
  • Wenn sich Kundendaten in BigQuery befinden, können die validierten Adressen oder die Validierungsflags direkt dort im Cache gespeichert werden. Hinweis: Was im Cache gespeichert werden kann und wie, wird im Artikel zur Adressbestätigung bei hohem Volumen ausführlich beschrieben.

  • Die Verwendung von Memorystore bietet eine höhere Ausfallsicherheit und die Möglichkeit, mehr Adressen zu verarbeiten. Durch diesen Schritt wird der gesamten Verarbeitungspipeline ein Status hinzugefügt, der für die Verarbeitung sehr großer Adressdatensätze erforderlich ist. Auch andere Datenbanktechnologien wie Cloud SQL[https://cloud.google.com/sql] oder jede andere Datenbankvariante, die die Google Cloud Platform bietet, können hier verwendet werden. Wir sind jedoch der Meinung, dass Memorystore die Anforderungen an Skalierung und Einfachheit perfekt in Einklang bringt und daher die erste Wahl sein sollte.

Fazit

Wenn Sie die hier beschriebenen Muster anwenden, können Sie die Address Validation API für verschiedene Anwendungsfälle und von verschiedenen Anwendungsfällen auf der Google Cloud Platform verwenden.

Wir haben eine Open-Source-Python-Bibliothek entwickelt, die Ihnen den Einstieg in die oben beschriebenen Anwendungsfälle erleichtern soll. Sie können es über eine Befehlszeile auf Ihrem Computer oder über die Google Cloud Platform oder andere Cloud-Anbieter aufrufen.

Weitere Informationen zur Verwendung der Bibliothek

Nächste Schritte

Laden Sie das Whitepaper Mit gültigen Adressen den Bezahlvorgang und die Lieferung optimieren und das Webinar Mit der Adressbestätigung den Bezahlvorgang, die Lieferung und die Abläufe optimieren herunter.

Weitere Informationen:

Beitragende

Dieser Artikel wird von Google gepflegt. Die folgenden Mitwirkenden haben den Artikel ursprünglich verfasst.
Hauptautoren:

Henrik Valve | Solutions Engineer
Thomas Anglaret | Solutions Engineer
Sarthak Ganguly | Solutions Engineer