目標
大量の住所の検証のチュートリアルでは、大量の住所の検証が使用できるさまざまなシナリオについて説明しました。このチュートリアルでは、大規模な住所検証を実行するための Google Cloud Platform 内のさまざまな設計パターンについて説明します。
まず、Google Cloud Platform で Cloud Run、Compute Engine、または Google Kubernetes Engine を使用して、1 回限りの実行で大量のアドレス検証を実行する方法の概要について説明します。次に、この機能をデータ パイプラインの一部として含める方法について説明します。
この記事の最後まで読めば、Google Cloud 環境で大量の住所検証を実行するためのさまざまなオプションを理解できるはずです。
Google Cloud Platform 上のリファレンス アーキテクチャ
このセクションでは、Google Cloud Platform を使用した大量の住所検証のさまざまな設計パターンについて詳しく説明します。Google Cloud Platform で実行することで、既存のプロセスやデータ パイプラインと統合できます。
Google Cloud Platform で大規模な住所検証を 1 回実行する
以下は、1 回限りのオペレーションやテストに適した、Google Cloud Platform で統合を構築する方法のリファレンス アーキテクチャです。
この場合は、CSV ファイルを Cloud Storage バケットにアップロードすることをおすすめします。大量の住所検証スクリプトは、Cloud Run 環境から実行できます。ただし、Compute Engine や Google Kubernetes Engine などの他のランタイム環境で実行することもできます。出力 CSV は Cloud Storage バケットにアップロードすることもできます。
Google Cloud Platform データ パイプラインとして実行する
前のセクションで説明したデプロイ パターンは、1 回限りの使用で大量のアドレス検証をすばやくテストするのに適しています。ただし、データ パイプラインの一部として定期的に使用することが必要な場合は、Google Cloud Platform のネイティブ機能を活用して堅牢性を高めることをおすすめします。変更できる項目は次のとおりです。
- この場合、CSV ファイルを Cloud Storage バケットにダンプできます。
- Dataflow ジョブは、処理するアドレスを取得して BigQuery にキャッシュに保存できます。
- Dataflow Python ライブラリを拡張して、大量の住所検証のロジックを追加し、Dataflow ジョブの住所を検証できます。
長時間の反復処理としてデータ パイプラインからスクリプトを実行する
別の一般的なアプローチとして、ストリーミング データ パイプラインの一部として、住所のバッチを定期的なプロセスとして検証する方法があります。住所は BigQuery データストアに保存することもできます。このアプローチでは、(日次、週次、月次にトリガーされる必要がある)繰り返しデータ パイプラインを構築する方法について説明します。
- 最初の CSV ファイルを Cloud Storage バケットにアップロードします。
- 永続データストアとして Memorystore を使用して、長時間実行プロセスの中間状態を維持します。
- 最終的なアドレスを BigQuery データストアにキャッシュに保存します。
- スクリプトを定期的に実行するように Cloud Scheduler を設定します。
このアーキテクチャには、次のメリットがあります。
- Cloud Scheduler を使用すると、住所の検証を定期的に行うことができます。アドレスは毎月再検証するか、新しいアドレスは月単位または四半期単位で検証することをおすすめします。このアーキテクチャは、そのようなユースケースの解決に役立ちます。
顧客データが BigQuery にある場合は、検証済みの住所または検証フラグを BigQuery に直接キャッシュに保存できます。注: キャッシュに保存できる内容と方法については、大量の住所の検証に関する記事をご覧ください。
Memorystore を使用すると、復元力が向上し、より多くのアドレスを処理できるようになります。このステップでは、非常に大規模な住所データセットの処理に必要な状態を処理パイプライン全体に追加します。Cloud SQL[https://cloud.google.com/sql] などの他のデータベース テクノロジーや、Google Cloud Platform が提供する他のデータベース フレーバーも使用できます。ただし、Memorystore はスケーリングとシンプルさのニーズを完璧にバランスさせているため、最初に選択すべきです。
まとめ
ここで説明するパターンを適用することで、Google Cloud Platform でさまざまなユースケースで Address Validation API を使用できます。
上記のユースケースの開始を支援するために、オープンソースの Python ライブラリを作成しました。コンピュータのコマンドラインから呼び出すことも、Google Cloud Platform や他のクラウド プロバイダから呼び出すこともできます。
ライブラリの使用方法について詳しくは、こちらの記事をご覧ください。
次のステップ
確実な住所で購入手続き、配送、オペレーションを改善する ホワイトペーパーをダウンロードし、Address Validation で購入手続き、配送、オペレーションを改善する ウェブセミナーをご覧ください。
おすすめの関連情報:
寄稿者
この記事は Google が管理しています。以下は、このガイドを最初に作成したコントリビューターです。
主な作成者:
Henrik Valve | ソリューション エンジニア
Thomas Anglaret | ソリューション エンジニア
Sarthak Ganguly | ソリューション エンジニア