Google Cloud Platform पर, ज़्यादा संख्या में पते की पुष्टि करने के लिए डिज़ाइन वाले पैटर्न बनाना

मकसद

ज़्यादा वॉल्यूम वाले पते की पुष्टि करने वाले ट्यूटोरियल से आपको ऐसे अलग-अलग मामलों के बारे में जानकारी मिलती है जिनमें बड़ी संख्या में पते की पुष्टि करने की सुविधा इस्तेमाल की जा सकती है. इस ट्यूटोरियल में हम आपको Google Cloud Platform के अलग-अलग डिज़ाइन पैटर्न के बारे में बताएंगे. इनकी मदद से, हाई वॉल्यूम में पते की पुष्टि की जा सकती है.

एक बार की प्रोसेस लागू करने के लिए, हम Cloud Run, Compute Engine या Google Kubernetes Engine की मदद से, Google Cloud Platform में, हाई वॉल्यूम वाले पते की पुष्टि करने की प्रक्रिया के बारे में खास जानकारी देंगे. इसके बाद, हम देखेंगे कि इस क्षमता को डेटा पाइपलाइन के हिस्से के रूप में कैसे शामिल किया जा सकता है.

इस लेख के आखिर तक आपको उन अलग-अलग विकल्पों के बारे में अच्छी तरह से समझ आ गया होगा जिनसे Google Cloud के प्लैटफ़ॉर्म पर, पते की पुष्टि की सुविधा को कई तरीकों से मैनेज किया जा सकता है.

Google Cloud Platform पर रेफ़रंस के लिए आर्किटेक्चर

यह सेक्शन Google Cloud Platform का इस्तेमाल करके, ज़्यादा संख्या में पते की पुष्टि करने के डिज़ाइन पैटर्न के बारे में गहराई से बताता है. Google Cloud Platform पर चलाकर, अपनी मौजूदा प्रोसेस और डेटा पाइपलाइन के साथ इंटिग्रेट किया जा सकता है.

Google Cloud Platform पर, एक बार बहुत ज़्यादा संख्या में पते की पुष्टि की जा रही है

इंटिग्रेशन बनाने के बारे में नीचे रेफ़रंस आर्किटेक्चर दिया गया है जो कि एक बार में एक ऑपरेशन या टेस्टिंग के लिए ज़्यादा सही हैं.

इमेज

इस स्थिति में, हमारा सुझाव है कि CSV फ़ाइल को Cloud Storage बकेट में अपलोड करें. इसके बाद, हाई वॉल्यूम वाले पते की पुष्टि करने वाली स्क्रिप्ट को Cloud Run एनवायरमेंट से चलाया जा सकता है. हालांकि, इसे किसी भी अन्य रनटाइम एनवायरमेंट, जैसे कि Compute Engine या Google Kubernetes Engine पर एक्ज़ीक्यूट किया जा सकता है. आउटपुट CSV को Cloud Storage बकेट में भी अपलोड किया जा सकता है.

Google Cloud Platform की डेटा पाइपलाइन के तौर पर काम करना

पिछले सेक्शन में दिखाया गया डिप्लॉयमेंट पैटर्न, एक बार इस्तेमाल किए जाने वाले हाई वॉल्यूम पते की पुष्टि करने की सुविधा को तेज़ी से टेस्ट करने का बेहतरीन तरीका है. हालांकि, अगर आपको डेटा पाइपलाइन के हिस्से के तौर पर नियमित तौर पर इसका इस्तेमाल करना हो, तो Google Cloud Platform की नेटिव सुविधाओं का इस्तेमाल करके इसे और बेहतर बनाया जा सकता है. आपके पास इनमें से कुछ बदलाव करने की अनुमति है:

इमेज

  • इस मामले में, CSV फ़ाइलों को Cloud Storage बकेट में डंप किया जा सकता है.
  • डेटाफ़्लो जॉब, प्रोसेस किए जाने के लिए पतों को चुन सकता है और फिर BigQuery में कैश मेमोरी में सेव कर सकता है.
  • Dataflow Python लाइब्रेरी को इससे ज़्यादा संख्या में पते की पुष्टि करने वाला लॉजिक मिल सकता है, ताकि Dataflow जॉब से पतों की पुष्टि की जा सके.

लंबे समय तक चलने वाली बार-बार होने वाली प्रोसेस के तौर पर, डेटा पाइपलाइन से स्क्रिप्ट को चलाना

एक अन्य सामान्य तरीका, स्ट्रीमिंग डेटा पाइपलाइन के हिस्से के तौर पर पतों के बैच की पुष्टि करना है. ऐसा बार-बार होने वाली प्रोसेस के तौर पर किया जाता है. आपके पास bigquery डेटास्टोर में भी पते हो सकते हैं. इस तरीके में, हम बार-बार लागू होने वाले डेटा पाइपलाइन को बनाने का तरीका देखेंगे (जिसे हर रोज़/हफ़्ते/महीने में ट्रिगर करना होगा)

इमेज

  • शुरुआती CSV फ़ाइल को Cloud Storage बकेट में अपलोड करें.
  • रखरखाव के लिए, Memorystore को स्थायी डेटास्टोर के तौर पर इस्तेमाल करें लंबे समय तक चलने वाली प्रोसेस की इंटरमीडिएट स्थिति.
  • BigQuery डेटास्टोर में, फ़ाइनल पतों को कैश मेमोरी में सेव करें.
  • स्क्रिप्ट को समय-समय पर चलाने के लिए, Cloud शेड्यूलर सेट अप करें.

इस आर्किटेक्चर के ये फ़ायदे हैं:

  • क्लाउड शेड्यूलर का इस्तेमाल करके, पते की पुष्टि समय-समय पर की जा सकती है. इन पतों को हर महीने फिर से पुष्टि किया जा सकता है या इनकी पुष्टि हर महीने या हर तीन महीने में की जा सकती है. इस आर्किटेक्चर से, इस्तेमाल के उदाहरण को हल करने में मदद मिलती है.
  • अगर ग्राहक डेटा BigQuery में है, तो पुष्टि किए गए पतों या पुष्टि करने वाले फ़्लैग सीधे वहां कैश किए जा सकते हैं. ध्यान दें: क्या कैश मेमोरी में सेव किया जा सकता है और ज़्यादा संख्या में पते की पुष्टि करने से जुड़े लेख में इसके बारे में जानकारी दी गई है

  • Memorystore का इस्तेमाल करने से बेहतर तरीके से इस्तेमाल किया जा सकता है और ज़्यादा पतों को प्रोसेस किया जा सकता है. यह तरीका पूरी प्रोसेसिंग पाइपलाइन में एक स्थिति जोड़ता है, जो पते के बहुत बड़े डेटासेट को हैंडल करने के लिए ज़रूरी है. यहां दूसरी डेटाबेस टेक्नोलॉजी, जैसे कि Cloud SQL[https://cloud.google.com/sql] या डेटाबेस का कोई भी फ़्लेवर इस्तेमाल किया जा सकता है. यह टेक्नोलॉजी Google Cloud Platform पर उपलब्ध होती है. हालांकि, हमारा मानना है कि मेमोरीस्टोर सटीक तरीके से स्केलिंग और आसानी से की जाने वाली ज़रूरतों को पूरा करता है. इसलिए, इसे पहली पसंद होना चाहिए.

नतीजा

यहां बताए गए पैटर्न को लागू करके, Google Cloud Platform पर इस्तेमाल के अलग-अलग उदाहरणों और अलग-अलग कामों के लिए, Address Validation API का इस्तेमाल किया जा सकता है.

हमने Python लाइब्रेरी के बारे में एक ओपन-सोर्स फ़ाइल लिखी है, ताकि आपको ऊपर बताए गए इस्तेमाल के उदाहरणों को इस्तेमाल करने में मदद मिल सके. इसे अपने कंप्यूटर पर किसी कमांड लाइन से शुरू किया जा सकता है. इसके अलावा, Google Cloud Platform या क्लाउड सेवा देने वाली अन्य कंपनियों की मदद से भी इसे शुरू किया जा सकता है.

इस लेख से, लाइब्रेरी का इस्तेमाल करने के तरीके के बारे में ज़्यादा जानें.

अगले चरण

भरोसेमंद पते की मदद से चेकआउट, डिलीवरी, और ऑपरेशन को बेहतर बनाने वाला व्हाइट पेपर डाउनलोड करें. साथ ही, पते की पुष्टि करने की सुविधा की मदद से, चेकआउट, डिलीवरी, और कार्रवाइयों को बेहतर बनाने वाला वेबिनार देखें.

आगे पढ़ने के लिए सुझाव:

योगदानकर्ता

Google इस लेख को मैनेज करता है. मूल रूप से इन योगदान देने वालों ने इसे लिखा है.
अभी तक किसी भी व्यक्ति ने चेक इन नहीं किया है मुख्य लेखक:

हेनरिक वाल्व | सॉल्यूशंस इंजीनियर
थॉमस एंगलरेट | सॉल्यूशंस इंजीनियर
सार्थक गांगुली | सलूशन इंजीनियर