Google Cloud Platform पर, ज़्यादा संख्या में पते की पुष्टि करने के लिए डिज़ाइन वाले पैटर्न बनाना

मकसद

ज़्यादा वॉल्यूम वाले पतों की पुष्टि करने के ट्यूटोरियल में, आपको अलग-अलग ऐसे परिदृश्यों के बारे में बताया गया है जिनमें ज़्यादा वॉल्यूम वाले पतों की पुष्टि करने की सुविधा का इस्तेमाल किया जा सकता है. इस ट्यूटोरियल में, हम आपको Google Cloud Platform में, ज़्यादा वॉल्यूम वाले पतों की पुष्टि करने की सुविधा को चलाने के लिए, अलग-अलग डिज़ाइन पैटर्न के बारे में बताएंगे.

हम Cloud Run, Compute Engine या Google Kubernetes Engine की मदद से, Google Cloud Platform में ज़्यादा वॉल्यूम वाले पतों की पुष्टि करने की सुविधा को एक बार चलाने के बारे में खास जानकारी से शुरुआत करेंगे. इसके बाद, हम देखेंगे कि इस सुविधा को डेटा पाइपलाइन के हिस्से के तौर पर कैसे शामिल किया जा सकता है.

इस लेख को पढ़ने के बाद, आपको Google Cloud एनवायरमेंट में ज़्यादा वॉल्यूम वाले पतों की पुष्टि करने की सुविधा को चलाने के अलग-अलग विकल्पों के बारे में अच्छी जानकारी मिल जाएगी.

Google Cloud Platform पर रेफ़रंस आर्किटेक्चर

इस सेक्शन में, Google Cloud Platform का इस्तेमाल करके, ज़्यादा वॉल्यूम वाले पतों की पुष्टि करने की सुविधा के लिए अलग-अलग डिज़ाइन पैटर्न के बारे में ज़्यादा जानकारी दी गई है. Google Cloud Platform पर इस सुविधा को चलाने से, इसे मौजूदा प्रोसेस और डेटा पाइपलाइन के साथ इंटिग्रेट किया जा सकता है.

Google Cloud Platform पर, ज़्यादा वॉल्यूम वाले पतों की पुष्टि करने की सुविधा को एक बार चलाना

यहां, Google Cloud Platform पर इंटिग्रेशन बनाने के लिए, रेफ़रंस आर्किटेक्चर दिखाया गया है. यह एक बार की जाने वाली कार्रवाइयों या टेस्टिंग के लिए ज़्यादा सही है.

इमेज

इस मामले में, हमारा सुझाव है कि CSV फ़ाइल को Cloud Storage बकेट में अपलोड करें. इसके बाद, ज़्यादा वॉल्यूम वाले पतों की पुष्टि करने वाली स्क्रिप्ट को Cloud Run एनवायरमेंट से चलाया जा सकता है. हालांकि, इसे Compute Engine या Google Kubernetes Engine जैसे किसी भी अन्य रनटाइम एनवायरमेंट में चलाया जा सकता है. आउटपुट CSV को Cloud Storage बकेट में भी अपलोड किया जा सकता है.

Google Cloud Platform डेटा पाइपलाइन के तौर पर चलाना

पिछले सेक्शन में दिखाया गया डिप्लॉयमेंट पैटर्न, ज़्यादा वॉल्यूम वाले पतों की पुष्टि करने की सुविधा को एक बार इस्तेमाल करने के लिए, उसकी तुरंत टेस्टिंग करने के लिए सही है. हालांकि, अगर आपको डेटा पाइपलाइन के हिस्से के तौर पर इसका नियमित रूप से इस्तेमाल करना है, तो इसे ज़्यादा मज़बूत बनाने के लिए, Google Cloud Platform की नेटिव सुविधाओं का बेहतर तरीके से फ़ायदा लिया जा सकता है. यहां कुछ ऐसे बदलाव दिए गए हैं जो किए जा सकते हैं:

इमेज

  • इस मामले में, CSV फ़ाइलों को Cloud Storage बकेट में डंप किया जा सकता है.
  • प्रोसेस किए जाने वाले पतों को Dataflow जॉब से चुना जा सकता है. इसके बाद, उन्हें BigQuery में कैश किया जा सकता है.
  • Dataflow Python लाइब्रेरी को बढ़ाया जा सकता है, ताकि इसमें ज़्यादा वॉल्यूम वाले पतों की पुष्टि करने की सुविधा के लिए लॉजिक शामिल किया जा सके. इससे Dataflow जॉब से मिले पतों की पुष्टि की जा सकती है.

डेटा पाइपलाइन से स्क्रिप्ट को, बार-बार होने वाली लंबी प्रोसेस के तौर पर चलाना

एक और आम तरीका यह है कि स्ट्रीमिंग डेटा पाइपलाइन के हिस्से के तौर पर, पतों के बैच की पुष्टि बार-बार होने वाली प्रोसेस के तौर पर की जाए. आपके पास, bigquery डेटास्टोर में भी पते हो सकते हैं. इस तरीके में, हम बार-बार होने वाली डेटा पाइपलाइन बनाने का तरीका देखेंगे. इसे हर दिन/हफ़्ते/महीने में ट्रिगर करना होगा

इमेज

  • शुरुआती CSV फ़ाइल को Cloud Storage बकेट में अपलोड करें.
  • लंबे समय तक चलने वाली प्रोसेस के लिए, इंटरमीडिएट स्टेट को बनाए रखने के लिए, Memorystore को परसिस्टेंट डेटास्टोर के तौर पर इस्तेमाल करें.
  • आखिरी पतों को BigQuery डेटास्टोर में कैश करें.
  • स्क्रिप्ट को समय-समय पर चलाने के लिए, Cloud Scheduler सेट अप करें.

इस आर्किटेक्चर के ये फ़ायदे हैं:

  • Cloud Scheduler का इस्तेमाल करके, पतों की पुष्टि समय-समय पर की जा सकती है. ऐसा हो सकता है कि आपको हर महीने पतों की फिर से पुष्टि करनी हो या हर महीने/तीन महीने में नए पतों की पुष्टि करनी हो. यह आर्किटेक्चर, इस इस्तेमाल के उदाहरण को हल करने में मदद करता है.
  • अगर ग्राहक का डेटा BigQuery में है, तो पुष्टि किए गए पतों या पुष्टि के फ़्लैग को सीधे वहां कैश किया जा सकता है. ध्यान दें: ज़्यादा वॉल्यूम वाले पतों की पुष्टि करने के लेख में, इस बारे में पूरी जानकारी दी गई है कि क्या कैश किया जा सकता है और कैसे.

  • Memorystore का इस्तेमाल करने से, ज़्यादा रेज़िलियंस मिलता है और ज़्यादा पतों को प्रोसेस किया जा सकता है. इस चरण से, पूरी प्रोसेसिंग पाइपलाइन में स्टेटफ़ुलनेस जुड़ जाती है. यह पतों के बहुत बड़े डेटासेट को हैंडल करने के लिए ज़रूरी है. यहां, डेटाबेस की अन्य टेक्नोलॉजी का भी इस्तेमाल किया जा सकता है. जैसे, Cloud SQL[https://cloud.google.com/sql] या डेटाबेस का कोई अन्य फ़्लेवर जो Google Cloud Platform पर उपलब्ध है. हालांकि, हमारा मानना है कि Memorystore, स्केलिंग और आसानी से इस्तेमाल करने की ज़रूरतों को पूरी तरह से बैलेंस करता है. इसलिए, इसे पहली प्राथमिकता दी जानी चाहिए.

नतीजा

यहां बताए गए पैटर्न लागू करके, Google Cloud Platform पर अलग-अलग इस्तेमाल के उदाहरणों के लिए और अलग-अलग इस्तेमाल के उदाहरणों से, Address Validation API का इस्तेमाल किया जा सकता है.

ऊपर बताए गए इस्तेमाल के उदाहरणों के साथ शुरुआत करने में आपकी मदद करने के लिए, हमने ओपन-सोर्स Python लाइब्रेरी लिखी है. इसे आपके कंप्यूटर पर कमांड लाइन से या Google Cloud Platform या अन्य क्लाउड सेवा देने वाली कंपनियों से शुरू किया जा सकता है.

इस लाइब्रेरी का इस्तेमाल करने के बारे में ज़्यादा जानने के लिए, यह लेख पढ़ें.

अगले चरण

भरोसेमंद पतों की मदद से, चेकआउट, डिलीवरी, और कार्रवाइयों को बेहतर बनाने के बारे में श्वेत पत्र डाउनलोड करें. साथ ही, पते की पुष्टि करने की सुविधा की मदद से, चेकआउट, डिलीवरी, और कार्रवाइयों को बेहतर बनाने के बारे में वेबिनार देखें.

आगे पढ़ने के लिए सुझाव:

योगदानकर्ता

Google इस लेख को मैनेज करता है. इसे मूल रूप से इन लोगों ने लिखा है.
मुख्य लेखक:

हेनरिक वाल्व | सलूशन इंजीनियर
थॉमस ऐंगलारेट | सलूशन इंजीनियर
सार्थक गांगुली | सलूशन इंजीनियर