أنماط تصميم للتحقق من صحة العناوين ذات الحجم الكبير على Google Cloud Platform
تنظيم صفحاتك في مجموعات
يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.
الهدف
أرشدك البرنامج التعليمي التحقّق من صحة العناوين ذات الحجم الكبير إلى سيناريوهات مختلفة يمكن فيها استخدام ميزة التحقّق من صحة العناوين ذات الحجم الكبير. في هذا البرنامج التعليمي، سنقدّم لك أنماط تصميم مختلفة ضمن "منصة Google Cloud" لتنفيذ عملية التحقّق من صحة العناوين ذات الحجم الكبير.
سنبدأ بنظرة عامة حول تنفيذ خدمة "التحقّق من صحة العناوين" ذات الحجم الكبير في Google Cloud Platform باستخدام Cloud Run أو Compute Engine أو Google Kubernetes Engine لعمليات التنفيذ لمرة واحدة. سنرى بعد ذلك كيف يمكن تضمين هذه الإمكانية كجزء من مسار نقل البيانات.
في نهاية هذه المقالة، يجب أن يكون لديك فهم جيد للخيارات المختلفة لتنفيذ خدمة "التحقّق من صحة العناوين" بكميات كبيرة في بيئة Google Cloud.
البنية المرجعية على Google Cloud Platform
يتعمّق هذا القسم في أنماط التصميم المختلفة لخدمة High Volume Address Validation باستخدام Google Cloud Platform. من خلال التشغيل على Google Cloud Platform، يمكنك الدمج مع العمليات الحالية وقنوات نقل البيانات.
تشغيل خدمة High Volume Address Validation لمرة واحدة على Google Cloud Platform
في ما يلي بنية مرجعية توضّح كيفية إنشاء عملية دمج على Google Cloud Platform تكون أكثر ملاءمة للعمليات أو الاختبارات لمرة واحدة.
في هذه الحالة، ننصحك بتحميل ملف CSV إلى حزمة Cloud Storage. يمكن بعد ذلك تشغيل النص البرمجي الخاص بخدمة "التحقّق من صحة العناوين" ذات الحجم الكبير من بيئة Cloud Run.
ومع ذلك، يمكنك تنفيذها في أي بيئة تشغيل أخرى، مثل Compute Engine أو Google Kubernetes Engine.
يمكن أيضًا تحميل ملف CSV الناتج إلى حزمة Cloud Storage.
التشغيل كمسار بيانات على Google Cloud Platform
إنّ نمط النشر الموضّح في القسم السابق مناسب لاختبار خدمة High Volume Address Validation بسرعة للاستخدام لمرة واحدة.
ومع ذلك، إذا كنت بحاجة إلى استخدامها بانتظام كجزء من مسار نقل البيانات، يمكنك الاستفادة بشكل أفضل من الإمكانات الأصلية في Google Cloud Platform لجعلها أكثر فعالية. تشمل بعض التغييرات التي يمكنك إجراؤها ما يلي:
في هذه الحالة، يمكنك إفراغ ملفات CSV في حِزم Cloud Storage.
يمكن أن تسترد مهمة Dataflow العناوين المطلوب معالجتها ثم تخزّنها مؤقتًا في BigQuery.
يمكن توسيع نطاق مكتبة Dataflow Python لتضمين منطق خدمة High Volume Address Validation من أجل التحقّق من صحة العناوين من مهمة Dataflow.
تشغيل النص البرمجي من مسار بيانات كعملية متكرّرة طويلة الأمد
هناك طريقة شائعة أخرى تتمثّل في التحقّق من صحة مجموعة من العناوين كجزء من مسار البيانات المتدفقة كعملية متكرّرة.
قد تكون العناوين أيضًا في مستودع بيانات BigQuery. في هذا النهج، سنرى كيفية إنشاء مسار بيانات متكرّر (يجب تشغيله يوميًا أو أسبوعيًا أو شهريًا).
باستخدام Cloud Scheduler، يمكن التحقّق من صحة العناوين بشكل دوري. ننصحك بإعادة التحقّق من صحة العناوين شهريًا أو التحقّق من صحة أي عناوين جديدة شهريًا أو كل ثلاثة أشهر. تساعد هذه البنية في حلّ حالة الاستخدام هذه.
إذا كانت بيانات العملاء في BigQuery، يمكن تخزين العناوين التي تم التحقّق من صحتها أو علامات التحقّق من الصحة مباشرةً هناك.
ملاحظة: يتم وصف المحتوى الذي يمكن تخزينه مؤقتًا وكيفية ذلك بالتفصيل في مقالة "التحقّق من صحة العناوين بكميات كبيرة".
يوفّر استخدام Memorystore مرونة أكبر وقدرة على معالجة المزيد من العناوين. تضيف هذه الخطوة حالة إلى مسار المعالجة بالكامل، وهو أمر ضروري للتعامل مع مجموعات بيانات العناوين الكبيرة جدًا.
يمكن استخدام تكنولوجيات قواعد البيانات الأخرى، مثل Cloud SQL[https://cloud.google.com/sql] أو أي نوع آخر من قواعد البيانات التي توفّرها "منصة Google Cloud" هنا أيضًا. ومع ذلك، نعتقد أنّ memorystore perfectless يحقّق التوازن بين احتياجات التوسّع والبساطة، وبالتالي يجب أن يكون الخيار الأول.
الخاتمة
من خلال تطبيق الأنماط الموضّحة هنا، يمكنك استخدام Address Validation API في حالات استخدام مختلفة ومن حالات استخدام مختلفة على Google Cloud Platform.
لقد كتبنا مكتبة Python مفتوحة المصدر لمساعدتك في البدء بحالات الاستخدام الموضّحة أعلاه. يمكن استدعاؤها من سطر أوامر على جهاز الكمبيوتر أو من Google Cloud Platform أو موفّري خدمات سحابية آخرين.
يمكنك الاطّلاع على مزيد من المعلومات حول كيفية استخدام المكتبة من خلال هذه المقالة.
تاريخ التعديل الأخير: 2025-09-05 (حسب التوقيت العالمي المتفَّق عليه)
[[["يسهُل فهم المحتوى.","easyToUnderstand","thumb-up"],["ساعَدني المحتوى في حلّ مشكلتي.","solvedMyProblem","thumb-up"],["غير ذلك","otherUp","thumb-up"]],[["لا يحتوي على المعلومات التي أحتاج إليها.","missingTheInformationINeed","thumb-down"],["الخطوات معقدة للغاية / كثيرة جدًا.","tooComplicatedTooManySteps","thumb-down"],["المحتوى قديم.","outOfDate","thumb-down"],["ثمة مشكلة في الترجمة.","translationIssue","thumb-down"],["مشكلة في العيّنات / التعليمات البرمجية","samplesCodeIssue","thumb-down"],["غير ذلك","otherDown","thumb-down"]],["تاريخ التعديل الأخير: 2025-09-05 (حسب التوقيت العالمي المتفَّق عليه)"],[[["\u003cp\u003eThis guide provides various design patterns for performing high volume address validation using Google Cloud Platform, integrating with existing processes and pipelines.\u003c/p\u003e\n"],["\u003cp\u003eYou can leverage Cloud Run, Compute Engine, or Google Kubernetes Engine for one-time address validation tasks, uploading data to Cloud Storage for processing.\u003c/p\u003e\n"],["\u003cp\u003eFor recurring data pipelines, use Cloud Storage, Dataflow, and BigQuery to efficiently process and validate large address datasets regularly.\u003c/p\u003e\n"],["\u003cp\u003eTo implement a long-lasting recurring address validation process, use Memorystore for persistent storage, Cloud Scheduler for periodic triggers, and BigQuery for caching results.\u003c/p\u003e\n"],["\u003cp\u003eThis approach allows for periodic revalidation of existing addresses and validation of new ones, offering higher resiliency and the ability to process large datasets.\u003c/p\u003e\n"]]],["This content outlines how to perform high-volume address validation on Google Cloud Platform. It details running validation scripts from Cloud Run, Compute Engine, or Kubernetes Engine for one-time tasks. For data pipelines, it suggests using Cloud Storage for CSV files, Dataflow for processing, and BigQuery for caching. Recurring processes leverage Cloud Storage, Memorystore, and BigQuery, scheduled by Cloud Scheduler. It highlights an open-source Python library for implementation and provides resources for further learning.\n"],null,["Objective\n\nThe [High Volume Address Validation](https://developers.google.com/maps/architecture/high-volume-address-validation) tutorial guided you through different scenarios where high volume address validation can be used. In this tutorial, we will introduce you to different design patterns within Google Cloud Platform for running High Volume Address Validation.\n\nWe will start with an overview on running High Volume Address Validation in Google Cloud Platform with Cloud Run, Compute Engine or Google Kubernetes Engine for one time executions. We will then see how this capability can be included as part of a data pipeline.\n\nBy the end of this article you should have a good understanding of the different options for running Address Validation in high volume in your Google Cloud environment.\n| **Try now:** Visit cloud console and enable the [Address Validation API](https://console.cloud.google.com/marketplace/product/google/addressvalidation.googleapis.com?utm_source=architecture_high_volume).\n\nReference architecture on Google Cloud Platform\n\nThis section dives deeper into different design patterns for High Volume Address Validation using [Google Cloud Platform](https://cloud.google.com/). By running on Google Cloud Platform, you can integrate with your existing processes and data pipelines.\n\nRunning High Volume Address Validation one time on Google Cloud Platform\n\nShown below is a reference architecture of how to build an integration\non Google Cloud Platform which is more suitable for one off operations or testing.\n\nIn this case, we recommend uploading the CSV file to a [Cloud Storage](https://cloud.google.com/storage/docs/creating-buckets) bucket. The High Volume Address Validation script can then be run from a [Cloud Run](https://cloud.google.com/run) environment.\nHowever you can execute it any other runtime environment like [Compute Engine](https://cloud.google.com/compute) or [Google Kubernetes Engine](https://cloud.google.com/kubernetes-engine).\nThe output CSV can also be uploaded to the [Cloud Storage](https://cloud.google.com/storage/docs/creating-buckets) bucket.\n\nRunning as a Google Cloud Platform data pipeline\n\nThe deployment pattern shown in the previous section is great for quickly testing High Volume Address Validation for one time usage.\nHowever if you need to use it regularly as part of a data pipeline, then you can better leverage Google Cloud Platform native capabilities to make it more robust. Some of the changes which you can make include:\n\n- In this case, you can dump CSV files in [Cloud Storage](https://cloud.google.com/storage/docs/creating-buckets) buckets.\n- A [Dataflow](https://cloud.google.com/dataflow) job can pick up the addresses to be processed and then cache in [BigQuery](https://cloud.google.com/bigquery/docs/introduction).\n- The [Dataflow Python library](https://cloud.google.com/dataflow/docs/quickstarts/create-pipeline-python) can be be extended to have logic for High Volume Address Validation to validate the addresses from the Dataflow job.\n\nRunning the script from a data pipeline as a long lasting recurring process\n\nAnother common approach is to validate a batch of addresses as part of a streaming data pipeline as a recurring process.\nYou may also have the addresses in a bigquery datastore. In this approach we will see how to build out a recurring data pipeline (which needs to be triggered daily/weekly/monthly)\n\n- Upload the initial CSV file to a [Cloud Storage](https://cloud.google.com/storage/docs/creating-buckets) bucket.\n- Use [Memorystore](https://cloud.google.com/memorystore) as a persistent datastore to maintain intermediate state for the long running process.\n- Cache the final addresses in a [BigQuery](https://cloud.google.com/bigquery/docs/introduction) datastore.\n- Set up [Cloud Scheduler](https://cloud.google.com/scheduler) to run the script periodically.\n\nThis architecture has the following advantages:\n\n- Using [Cloud Scheduler](https://cloud.google.com/scheduler), address validation can be done periodically. You might want to revalidate the addresses on a monthly basis or validate any new addresses on a monthly/quarterly basis. This architecture helps solve that use case.\n- If customer data is in [BigQuery](https://cloud.google.com/bigquery/docs/introduction), then the validated addresses or the validation Flags can be cached directly there.\n Note: What can be cached and how is described in details in the [High Volume Address Validation article](https://developers.google.com/maps/architecture/high-volume-address-validation#caching_for_production_use)\n\n- Using [Memorystore](https://cloud.google.com/memorystore) provides higher resiliency and ability to process more addresses. This steps adds a statefulness to the whole processing pipeline which is needed for handling very large address datasets.\n Other database technologies like cloud SQL\\[https://cloud.google.com/sql\\] or any other [flavour of database](https://cloud.google.com/products/databases) which Google cloud Platform offers can be used here as well. However we believe memorystore perfectless balances the scaling and simplicity needs, thus should be the first choice.\n\nConclusion\n\nBy applying the patterns described here, you can use Address Validation API for different use cases and from different use cases on Google Cloud Platform.\n\nWe have written an open-source Python library to help you get started with the use cases described above. It can be invoked from a command line on your computer or it can be invoked from [Google Cloud Platform](https://cloud.google.com/) or other cloud providers.\n\nLearn more about how to use the library from this [article](https://developers.google.com/maps/architecture/high-volume-address-validation-library-oss).\n\nNext Steps\n\nDownload the [Improve checkout, delivery, and operations with reliable addresses](https://mapsplatform.withgoogle.com/address-validation-whitepaper/home.html?utm_source=architecture&utm_medium=website&utm_campaign=FY23-Q1-global-Maps-website-dl-GMP-AV-Whitepaper&utm_content=av_whitepaper)Whitepaper and view the [Improving checkout, delivery, and operations with Address Validation](https://mapsonair.withgoogle.com/events/improving-checkout-operations-with-address-validation-webinar?utm_source=architecture&utm_medium=website&utm_campaign=FY23-Q1-global-Maps-onlineevent-er-GMP-Improving-Ops-with-Address-Validation&utm_content=january_webinar)Webinar.\n\nSuggested further reading:\n\n- [Address Validation API Documentation](https://developers.google.com/maps/documentation/address-validation)\n- [Geocoding and Address Validation](https://developers.google.com/maps/architecture/geocoding-address-validation)\n- Explore the [Address Validation demo](https://developers.google.com/maps/documentation/address-validation/demo)\n\nContributors\n\nGoogle maintains this article. The following contributors originally wrote it. \n\nPrincipal authors:\n\n[Henrik Valve](https://www.linkedin.com/in/henrikvalve/) \\| Solutions Engineer \n\n[Thomas Anglaret](https://www.linkedin.com/in/thomas-anglaret/) \\| Solutions Engineer \n\n[Sarthak Ganguly](https://www.linkedin.com/in/sarthakganguly/) \\| Solutions Engineer"]]