Ziel
Im Leitfaden zur Adressbestätigung bei hohem Volumen wurden verschiedene Szenarien beschrieben, in denen die Adressbestätigung bei hohem Volumen verwendet werden kann. In dieser Anleitung stellen wir Ihnen verschiedene Designmuster in der Google Cloud-Plattform für die Adressvalidierung in großem Umfang vor.
Wir beginnen mit einer Übersicht über die einmalige Ausführung von „High Volume Address Validation“ in der Google Cloud Platform mit Cloud Run, Compute Engine oder Google Kubernetes Engine. Anschließend sehen wir uns an, wie diese Funktion in eine Datenpipeline eingebunden werden kann.
Am Ende dieses Artikels sollten Sie die verschiedenen Optionen für die Ausführung der Adressüberprüfung in großen Mengen in Ihrer Google Cloud-Umgebung kennen.
Referenzarchitektur auf der Google Cloud Platform
In diesem Abschnitt werden verschiedene Designmuster für die umfangreiche Adressüberprüfung mit der Google Cloud Platform ausführlicher behandelt. Da die Lösung auf der Google Cloud Platform ausgeführt wird, können Sie sie in Ihre vorhandenen Prozesse und Datenpipelines einbinden.
Einmalige Ausführung der Adressüberprüfung mit hohem Volumen auf der Google Cloud Platform
Unten sehen Sie eine Referenzarchitektur zum Erstellen einer Integration in die Google Cloud Platform, die sich besser für einmalige Vorgänge oder Tests eignet.
In diesem Fall empfehlen wir, die CSV-Datei in einen Cloud Storage-Bucket hochzuladen. Das High Volume Address Validation-Skript kann dann in einer Cloud Run-Umgebung ausgeführt werden. Sie können sie jedoch in jeder anderen Laufzeitumgebung wie Compute Engine oder Google Kubernetes Engine ausführen. Die CSV-Ausgabe kann auch in den Cloud Storage-Bucket hochgeladen werden.
Als Google Cloud Platform-Datenpipeline ausführen
Das im vorherigen Abschnitt gezeigte Bereitstellungsmuster eignet sich hervorragend, um die Adressenüberprüfung für hohes Volumen für eine einmalige Verwendung schnell zu testen. Wenn Sie es jedoch regelmäßig als Teil einer Datenpipeline verwenden müssen, können Sie die nativen Funktionen der Google Cloud Platform besser nutzen, um es robuster zu machen. Sie können u. a. folgende Änderungen vornehmen:
- In diesem Fall können Sie CSV-Dateien in Cloud Storage-Buckets ablegen.
- Ein Dataflow-Job kann die zu verarbeitenden Adressen abrufen und dann in BigQuery im Cache speichern.
- Die Dataflow-Python-Bibliothek kann um eine Logik für die Validierung von Adressen mit hohem Volumen erweitert werden, um die Adressen aus dem Dataflow-Job zu validieren.
Das Script aus einer Datenpipeline als langwierigen wiederkehrenden Prozess ausführen
Ein weiterer gängiger Ansatz besteht darin, eine Reihe von Adressen als Teil einer Streaming-Datenpipeline als wiederkehrenden Prozess zu validieren. Möglicherweise haben Sie die Adressen auch in einem BigQuery-Datenspeicher. Bei diesem Ansatz sehen wir uns an, wie eine wiederkehrende Datenpipeline erstellt wird, die täglich, wöchentlich oder monatlich ausgelöst werden muss.
- Laden Sie die ursprüngliche CSV-Datei in einen Cloud Storage-Bucket hoch.
- Verwenden Sie Memorystore als nichtflüchtigen Datenspeicher, um den Zwischenstatus für den lang andauernden Prozess beizubehalten.
- Speichern Sie die endgültigen Adressen in einem BigQuery-Datenspeicher.
- Richten Sie Cloud Scheduler ein, um das Script regelmäßig auszuführen.
Diese Architektur bietet folgende Vorteile:
- Mit Cloud Scheduler kann die Adressvalidierung regelmäßig durchgeführt werden. Sie können Adressen monatlich oder vierteljährlich validieren. Diese Architektur hilft bei der Lösung dieses Anwendungsfalls.
Wenn sich Kundendaten in BigQuery befinden, können die validierten Adressen oder die Validierungsflags direkt dort im Cache gespeichert werden. Hinweis: Was im Cache gespeichert werden kann und wie, wird im Artikel zur Adressbestätigung bei hohem Volumen ausführlich beschrieben.
Die Verwendung von Memorystore bietet eine höhere Ausfallsicherheit und die Möglichkeit, mehr Adressen zu verarbeiten. Durch diesen Schritt wird der gesamten Verarbeitungspipeline ein Status hinzugefügt, der für die Verarbeitung sehr großer Adressdatensätze erforderlich ist. Auch andere Datenbanktechnologien wie Cloud SQL[https://cloud.google.com/sql] oder jede andere Datenbankvariante, die die Google Cloud Platform bietet, können hier verwendet werden. Wir sind jedoch der Meinung, dass Memorystore die Anforderungen an Skalierung und Einfachheit perfekt in Einklang bringt und daher die erste Wahl sein sollte.
Fazit
Wenn Sie die hier beschriebenen Muster anwenden, können Sie die Address Validation API für verschiedene Anwendungsfälle und von verschiedenen Anwendungsfällen auf der Google Cloud Platform verwenden.
Wir haben eine Open-Source-Python-Bibliothek entwickelt, die Ihnen den Einstieg in die oben beschriebenen Anwendungsfälle erleichtern soll. Sie können es über eine Befehlszeile auf Ihrem Computer oder über die Google Cloud Platform oder andere Cloud-Anbieter aufrufen.
Weitere Informationen zur Verwendung der Bibliothek findest du in diesem Artikel.
Nächste Schritte
Laden Sie das Whitepaper Mit gültigen Adressen den Bezahlvorgang und die Lieferung optimieren und das Webinar Mit der Adressbestätigung den Bezahlvorgang, die Lieferung und die Abläufe optimieren herunter.
Empfohlene weiterführende Informationen:
- Dokumentation zur Address Validation API
- Geocoding und Adressbestätigung
- Demo für Address Validation
Beitragende
Dieser Artikel wird von Google gepflegt. Die folgenden Mitwirkenden haben den Artikel ursprünglich verfasst.
Hauptautoren:
Henrik Valve | Solutions Engineer
Thomas Anglaret | Solutions Engineer
Sarthak Ganguly | Solutions Engineer