هدف
آموزش اعتبار سنجی آدرس با حجم بالا شما را از طریق سناریوهای مختلفی که می توان از اعتبارسنجی آدرس با حجم بالا استفاده کرد، راهنمایی کرد. در این آموزش شما را با الگوهای طراحی مختلف در Google Cloud Platform برای اجرای اعتبارسنجی آدرس با حجم بالا آشنا می کنیم.
ما با مروری بر اجرای اعتبارسنجی آدرس با حجم بالا در Google Cloud Platform با Cloud Run، Compute Engine یا Google Kubernetes Engine برای اجراهای یکباره شروع خواهیم کرد. سپس خواهیم دید که چگونه این قابلیت می تواند به عنوان بخشی از خط لوله داده گنجانده شود.
در پایان این مقاله باید درک خوبی از گزینه های مختلف اجرای Address Validation در حجم بالا در محیط Google Cloud خود داشته باشید.
معماری مرجع در Google Cloud Platform
این بخش بیشتر به الگوهای طراحی مختلف برای اعتبارسنجی آدرس با حجم بالا با استفاده از Google Cloud Platform می پردازد. با اجرای بر روی Google Cloud Platform، می توانید با فرآیندهای موجود و خطوط لوله داده خود یکپارچه شوید.
اجرای اعتبارسنجی آدرس با حجم بالا یک بار در Google Cloud Platform
در زیر یک معماری مرجع از نحوه ایجاد یکپارچگی در Google Cloud Platform نشان داده شده است که برای عملیات یا آزمایش یکباره مناسب تر است.
در این مورد، توصیه می کنیم فایل CSV را در یک سطل ذخیره سازی ابری آپلود کنید. سپس اسکریپت High Volume Address Validation را می توان از یک محیط Cloud Run اجرا کرد. با این حال می توانید آن را در هر محیط زمان اجرا دیگری مانند Compute Engine یا Google Kubernetes Engine اجرا کنید. CSV خروجی را می توان در سطل ذخیره سازی ابری نیز آپلود کرد.
در حال اجرا به عنوان خط لوله داده Google Cloud Platform
الگوی استقرار نشان داده شده در بخش قبل برای آزمایش سریع اعتبارسنجی آدرس با حجم بالا برای یک بار استفاده عالی است. با این حال، اگر نیاز دارید که به طور منظم از آن به عنوان بخشی از خط لوله داده استفاده کنید، بهتر می توانید از قابلیت های بومی Google Cloud Platform برای قوی تر کردن آن استفاده کنید. برخی از تغییراتی که می توانید ایجاد کنید عبارتند از:
- در این حالت، میتوانید فایلهای CSV را در سطلهای Cloud Storage قرار دهید.
- یک کار Dataflow میتواند آدرسهایی را که باید پردازش شوند و سپس در BigQuery ذخیره میکند، انتخاب کند.
- کتابخانه Dataflow Python را میتوان به گونهای گسترش داد که منطقی برای اعتبارسنجی آدرس با حجم بالا برای اعتبارسنجی آدرسها از کار Dataflow داشته باشد.
اجرای اسکریپت از خط لوله داده به عنوان یک فرآیند طولانی مدت و تکرارشونده
یکی دیگر از رویکردهای رایج، اعتبارسنجی دسته ای از آدرس ها به عنوان بخشی از خط لوله داده های جریانی به عنوان یک فرآیند تکرار شونده است. همچنین ممکن است آدرسها را در یک فروشگاه داده بزرگ داشته باشید. در این رویکرد خواهیم دید که چگونه یک خط لوله داده مکرر ایجاد کنیم (که باید روزانه / هفتگی / ماهانه راه اندازی شود)
- فایل CSV اولیه را در یک سطل فضای ذخیره سازی ابری آپلود کنید.
- از Memorystore به عنوان یک ذخیرهگاه داده پایدار برای حفظ حالت میانی برای فرآیند طولانی مدت استفاده کنید.
- آدرس های نهایی را در یک دیتا استور BigQuery ذخیره کنید.
- Cloud Scheduler را برای اجرای دوره ای اسکریپت تنظیم کنید.
این معماری دارای مزایای زیر است:
- با استفاده از Cloud Scheduler ، اعتبار سنجی آدرس را می توان به صورت دوره ای انجام داد. ممکن است بخواهید آدرس ها را به صورت ماهانه مجدداً تأیید کنید یا هر آدرس جدید را به صورت ماهانه/سه ماهه تأیید کنید. این معماری به حل آن مورد استفاده کمک می کند.
اگر دادههای مشتری در BigQuery باشد، آدرسهای معتبر یا پرچمهای اعتبارسنجی میتوانند مستقیماً در آنجا ذخیره شوند. توجه: چه چیزی را می توان در حافظه پنهان کرد و چگونه در مقاله اعتبار سنجی آدرس با حجم بالا توضیح داده شده است
استفاده از Memorystore انعطاف پذیری و توانایی بالاتری برای پردازش آدرس های بیشتر فراهم می کند. این مراحل یک حالت حالت را به کل خط لوله پردازش اضافه می کند که برای مدیریت مجموعه داده های آدرس بسیار بزرگ مورد نیاز است. سایر فناوریهای پایگاه داده مانند ابر SQL[https://cloud.google.com/sql] یا هر طعم دیگری از پایگاه داده که پلتفرم ابری Google ارائه میدهد را میتوان در اینجا نیز مورد استفاده قرار داد. با این حال، ما معتقدیم که حافظه بیعیب، نیازهای مقیاسبندی و سادگی را متعادل میکند، بنابراین باید اولین انتخاب باشد.
نتیجه گیری
با اعمال الگوهای شرح داده شده در اینجا، می توانید از Address Validation API برای موارد استفاده مختلف و از موارد استفاده مختلف در Google Cloud Platform استفاده کنید.
ما یک کتابخانه Python منبع باز نوشته ایم تا به شما کمک کنیم تا با موارد استفاده که در بالا توضیح داده شد شروع کنید. می توان آن را از یک خط فرمان در رایانه شما فراخوانی کرد یا می توان آن را از Google Cloud Platform یا سایر ارائه دهندگان ابر فراخوانی کرد.
در مورد نحوه استفاده از کتابخانه از این مقاله بیشتر بیاموزید.
مراحل بعدی
وایت پیپر بهبود پرداخت، تحویل و عملیات با آدرسهای قابل اعتماد را دانلود کنید و با وبینار اعتبارسنجی آدرس بهبود پرداخت، تحویل و عملیات را مشاهده کنید.
پیشنهاد مطالعه بیشتر:
- Address Validation API Documentation
- ژئوکدینگ و اعتبار سنجی آدرس
- نسخه نمایشی اعتبار سنجی آدرس را کاوش کنید
مشارکت کنندگان
گوگل این مقاله را حفظ می کند. مشارکت کنندگان زیر در ابتدا آن را نوشتند.
نویسندگان اصلی:
Henrik Valve | مهندس راه حل
توماس آنگلرت | مهندس راه حل
سرتاک گنگولی | مهندس راه حل
هدف
آموزش اعتبار سنجی آدرس با حجم بالا شما را از طریق سناریوهای مختلفی که می توان از اعتبارسنجی آدرس با حجم بالا استفاده کرد، راهنمایی کرد. در این آموزش شما را با الگوهای طراحی مختلف در Google Cloud Platform برای اجرای اعتبارسنجی آدرس با حجم بالا آشنا می کنیم.
ما با مروری بر اجرای اعتبارسنجی آدرس با حجم بالا در Google Cloud Platform با Cloud Run، Compute Engine یا Google Kubernetes Engine برای اجراهای یکباره شروع خواهیم کرد. سپس خواهیم دید که چگونه این قابلیت می تواند به عنوان بخشی از خط لوله داده گنجانده شود.
در پایان این مقاله باید درک خوبی از گزینه های مختلف اجرای Address Validation در حجم بالا در محیط Google Cloud خود داشته باشید.
معماری مرجع در Google Cloud Platform
این بخش بیشتر به الگوهای طراحی مختلف برای اعتبارسنجی آدرس با حجم بالا با استفاده از Google Cloud Platform می پردازد. با اجرای بر روی Google Cloud Platform، می توانید با فرآیندهای موجود و خطوط لوله داده خود یکپارچه شوید.
اجرای اعتبارسنجی آدرس با حجم بالا یک بار در Google Cloud Platform
در زیر یک معماری مرجع از نحوه ایجاد یکپارچگی در Google Cloud Platform نشان داده شده است که برای عملیات یا آزمایش یکباره مناسب تر است.
در این مورد، توصیه می کنیم فایل CSV را در یک سطل ذخیره سازی ابری آپلود کنید. سپس اسکریپت High Volume Address Validation را می توان از یک محیط Cloud Run اجرا کرد. با این حال می توانید آن را در هر محیط زمان اجرا دیگری مانند Compute Engine یا Google Kubernetes Engine اجرا کنید. CSV خروجی را می توان در سطل ذخیره سازی ابری نیز آپلود کرد.
در حال اجرا به عنوان خط لوله داده Google Cloud Platform
الگوی استقرار نشان داده شده در بخش قبل برای آزمایش سریع اعتبارسنجی آدرس با حجم بالا برای یک بار استفاده عالی است. با این حال، اگر نیاز دارید که به طور منظم از آن به عنوان بخشی از خط لوله داده استفاده کنید، بهتر می توانید از قابلیت های بومی Google Cloud Platform برای قوی تر کردن آن استفاده کنید. برخی از تغییراتی که می توانید ایجاد کنید عبارتند از:
- در این حالت، میتوانید فایلهای CSV را در سطلهای Cloud Storage قرار دهید.
- یک کار Dataflow میتواند آدرسهایی را که باید پردازش شوند و سپس در BigQuery ذخیره میکند، انتخاب کند.
- کتابخانه Dataflow Python را میتوان به گونهای گسترش داد که منطقی برای اعتبارسنجی آدرس با حجم بالا برای اعتبارسنجی آدرسها از کار Dataflow داشته باشد.
اجرای اسکریپت از خط لوله داده به عنوان یک فرآیند طولانی مدت و تکرارشونده
یکی دیگر از رویکردهای رایج، اعتبارسنجی دسته ای از آدرس ها به عنوان بخشی از خط لوله داده های جریانی به عنوان یک فرآیند تکرار شونده است. همچنین ممکن است آدرسها را در یک فروشگاه داده بزرگ داشته باشید. در این رویکرد خواهیم دید که چگونه یک خط لوله داده مکرر ایجاد کنیم (که باید روزانه / هفتگی / ماهانه راه اندازی شود)
- فایل CSV اولیه را در یک سطل فضای ذخیره سازی ابری آپلود کنید.
- از Memorystore به عنوان یک ذخیرهگاه داده پایدار برای حفظ حالت میانی برای فرآیند طولانی مدت استفاده کنید.
- آدرس های نهایی را در یک دیتا استور BigQuery ذخیره کنید.
- Cloud Scheduler را برای اجرای دوره ای اسکریپت تنظیم کنید.
این معماری دارای مزایای زیر است:
- با استفاده از Cloud Scheduler ، اعتبار سنجی آدرس را می توان به صورت دوره ای انجام داد. ممکن است بخواهید آدرس ها را به صورت ماهانه مجدداً تأیید کنید یا هر آدرس جدید را به صورت ماهانه/سه ماهه تأیید کنید. این معماری به حل آن مورد استفاده کمک می کند.
اگر دادههای مشتری در BigQuery باشد، آدرسهای معتبر یا پرچمهای اعتبارسنجی میتوانند مستقیماً در آنجا ذخیره شوند. توجه: چه چیزی را می توان در حافظه پنهان کرد و چگونه در مقاله اعتبار سنجی آدرس با حجم بالا توضیح داده شده است
استفاده از Memorystore انعطاف پذیری و توانایی بالاتری برای پردازش آدرس های بیشتر فراهم می کند. این مراحل یک حالت حالت را به کل خط لوله پردازش اضافه می کند که برای مدیریت مجموعه داده های آدرس بسیار بزرگ مورد نیاز است. سایر فناوریهای پایگاه داده مانند ابر SQL[https://cloud.google.com/sql] یا هر طعم دیگری از پایگاه داده که پلتفرم ابری Google ارائه میدهد را میتوان در اینجا نیز مورد استفاده قرار داد. با این حال، ما معتقدیم که حافظه بیعیب، نیازهای مقیاسبندی و سادگی را متعادل میکند، بنابراین باید اولین انتخاب باشد.
نتیجه گیری
با اعمال الگوهای شرح داده شده در اینجا، می توانید از Address Validation API برای موارد استفاده مختلف و از موارد استفاده مختلف در Google Cloud Platform استفاده کنید.
ما یک کتابخانه Python منبع باز نوشته ایم تا به شما کمک کنیم تا با موارد استفاده که در بالا توضیح داده شد شروع کنید. می توان آن را از یک خط فرمان در رایانه شما فراخوانی کرد یا می توان آن را از Google Cloud Platform یا سایر ارائه دهندگان ابر فراخوانی کرد.
در مورد نحوه استفاده از کتابخانه از این مقاله بیشتر بیاموزید.
مراحل بعدی
وایت پیپر بهبود پرداخت، تحویل و عملیات با آدرسهای قابل اعتماد را دانلود کنید و با وبینار اعتبارسنجی آدرس بهبود پرداخت، تحویل و عملیات را مشاهده کنید.
پیشنهاد مطالعه بیشتر:
- Address Validation API Documentation
- ژئوکدینگ و اعتبار سنجی آدرس
- نسخه نمایشی اعتبار سنجی آدرس را کاوش کنید
مشارکت کنندگان
گوگل این مقاله را حفظ می کند. مشارکت کنندگان زیر در ابتدا آن را نوشتند.
نویسندگان اصلی:
Henrik Valve | مهندس راه حل
توماس آنگلرت | مهندس راه حل
سرتاک گنگولی | مهندس راه حل