इस पेज का अनुवाद Cloud Translation API से किया गया है.

कॉन्टेंट कनेक्टर बनाना

कॉन्टेंट कनेक्टर एक सॉफ़्टवेयर प्रोग्राम है. इसका इस्तेमाल, किसी एंटरप्राइज़ की रिपॉज़िटरी में मौजूद डेटा को ट्रैवर्स करने और डेटा सोर्स को पॉप्युलेट करने के लिए किया जाता है. Google, कॉन्टेंट कनेक्टर बनाने के लिए ये विकल्प उपलब्ध कराता है:

Content Connector SDK. अगर Java में प्रोग्रामिंग की जा रही है, तो यह एक अच्छा विकल्प है. Content Connector SDK टूल, REST API के आस-पास का एक रैपर है. इसकी मदद से, तुरंत कनेक्टर बनाए जा सकते हैं. SDK टूल का इस्तेमाल करके कॉन्टेंट कनेक्टर बनाने के लिए, Content Connector SDK टूल का इस्तेमाल करके कॉन्टेंट कनेक्टर बनाना लेख पढ़ें.
लो-लेवल REST API या एपीआई लाइब्रेरी. अगर Java में प्रोग्रामिंग नहीं की जा रही है या आपके कोडबेस में किसी REST API या लाइब्रेरी को बेहतर तरीके से शामिल किया जा सकता है, तो इन विकल्पों का इस्तेमाल करें. REST API का इस्तेमाल करके कॉन्टेंट कनेक्टर बनाने के लिए, REST API का इस्तेमाल करके कॉन्टेंट कनेक्टर बनाना लेख पढ़ें.

आम तौर पर, कॉन्टेंट कनेक्टर ये काम करता है:

कॉन्फ़िगरेशन पैरामीटर को पढ़ता और प्रोसेस करता है.
तीसरे पक्ष के कॉन्टेंट डेटा स्टोर करने की जगह से, इंडेक्स किए जा सकने वाले डेटा के अलग-अलग हिस्से खींचता है. इन्हें "आइटम" कहा जाता है.
यह एसीएल, मेटाडेटा, और कॉन्टेंट डेटा को इंडेक्स किए जा सकने वाले आइटम में जोड़ता है.
Cloud Search के डेटा सोर्स में आइटम को इंडेक्स करता है.
(ज़रूरी नहीं) तीसरे पक्ष की कॉन्टेंट रिपॉज़िटरी से, बदलाव की सूचनाएं सुनता है. बदलाव की सूचनाओं को इंडेक्स करने के अनुरोधों में बदल दिया जाता है, ताकि Cloud Search के डेटा सोर्स को तीसरे पक्ष के डेटा स्टोर करने की जगह के साथ सिंक किया जा सके. कनेक्टर, सिर्फ़ तब यह काम करता है, जब डेटा स्टोर में बदलाव का पता लगाने की सुविधा उपलब्ध हो.

Content Connector SDK का इस्तेमाल करके कॉन्टेंट कनेक्टर बनाना

नीचे दिए गए सेक्शन में, Content Connector SDK का इस्तेमाल करके कॉन्टेंट कनेक्टर बनाने का तरीका बताया गया है.

डिपेंडेंसी सेट अप करना

SDK टूल का इस्तेमाल करने के लिए, आपको अपनी बिल्ड फ़ाइल में कुछ डिपेंडेंसी शामिल करनी होंगी. अपने बिल्ड एनवायरमेंट के लिए डिपेंडेंसी देखने के लिए, नीचे दिए गए किसी टैब पर क्लिक करें:

Maven

<dependency>
<groupId>com.google.enterprise.cloudsearch</groupId>
<artifactId>google-cloudsearch-indexing-connector-sdk</artifactId>
<version>v1-0.0.3</version>
</dependency>

ग्रेडल

compile group: 'com.google.enterprise.cloudsearch',
        name: 'google-cloudsearch-indexing-connector-sdk',
        version: 'v1-0.0.3'

कनेक्टर कॉन्फ़िगरेशन बनाना

हर कनेक्टर में एक कॉन्फ़िगरेशन फ़ाइल होती है. इसमें कनेक्टर के इस्तेमाल किए गए पैरामीटर होते हैं. जैसे, आपकी रिपॉज़िटरी का आईडी. पैरामीटर को की-वैल्यू पेयर के तौर पर परिभाषित किया जाता है, जैसे कि api.sourceId=1234567890abcdef.

Google Cloud Search SDK में, Google के कई कॉन्फ़िगरेशन पैरामीटर होते हैं. इनका इस्तेमाल सभी कनेक्टर करते हैं. आपको अपनी कॉन्फ़िगरेशन फ़ाइल में, Google के दिए गए इन पैरामीटर का एलान करना होगा:

कॉन्टेंट कनेक्टर के लिए, आपको api.sourceId और api.serviceAccountPrivateKeyFile की जानकारी देनी होगी. ऐसा इसलिए, क्योंकि ये पैरामीटर आपके रिपॉज़िटरी की जगह और रिपॉज़िटरी को ऐक्सेस करने के लिए ज़रूरी निजी कुंजी की पहचान करते हैं.

आइडेंटिटी कनेक्टर के लिए, आपको api.identitySourceId एट्रिब्यूट की वैल्यू सबमिट करनी होगी. ऐसा इसलिए, क्योंकि यह पैरामीटर आपके एक्सटर्नल आइडेंटिटी सोर्स की जगह की जानकारी देता है. अगर उपयोगकर्ताओं को सिंक किया जा रहा है, तो आपको अपने एंटरप्राइज़ के Google Workspace खाते के लिए, api.customerId को यूनीक आईडी के तौर पर भी एलान करना होगा.

अगर आपको Google के दिए गए अन्य पैरामीटर की डिफ़ॉल्ट वैल्यू बदलनी नहीं हैं, तो आपको उन्हें अपनी कॉन्फ़िगरेशन फ़ाइल में बताने की ज़रूरत नहीं है. Google से मिले कॉन्फ़िगरेशन पैरामीटर के बारे में ज़्यादा जानकारी के लिए, Google से मिले कॉन्फ़िगरेशन पैरामीटर लेख पढ़ें. इसमें, कुछ आईडी और कुंजियों को जनरेट करने का तरीका भी बताया गया है.

कॉन्फ़िगरेशन फ़ाइल में इस्तेमाल करने के लिए, अपनी पसंद के हिसाब से कोई भी पैरामीटर तय किया जा सकता है.

कनेक्टर को कॉन्फ़िगरेशन फ़ाइल पास करना

कॉन्फ़िगरेशन फ़ाइल को अपने कनेक्टर पर भेजने के लिए, सिस्टम प्रॉपर्टी config सेट करें. कनेक्टर शुरू करते समय, -D आर्ग्युमेंट का इस्तेमाल करके प्रॉपर्टी सेट की जा सकती है. उदाहरण के लिए, यह कमांड MyConfig.properties कॉन्फ़िगरेशन फ़ाइल के साथ कनेक्टर को शुरू करता है:

java -classpath myconnector.jar;... -Dconfig=MyConfig.properties MyConnector

अगर यह आर्ग्युमेंट मौजूद नहीं है, तो SDK, connector-config.properties नाम की डिफ़ॉल्ट कॉन्फ़िगरेशन फ़ाइल को ऐक्सेस करने की कोशिश करता है.

डेटा ट्रैवल की रणनीति तय करना

कॉन्टेंट कनेक्टर का मुख्य फ़ंक्शन, किसी रिपॉज़िटरी को ट्रैवर्स करना और उसके डेटा को इंडेक्स करना है. आपको अपने डेटा स्टोर में मौजूद डेटा के साइज़ और लेआउट के आधार पर, डेटा को ट्रैवर्स करने की रणनीति लागू करनी होगी. आपके पास अपनी रणनीति बनाने या एसडीके में लागू की गई इन रणनीतियों में से किसी को चुनने का विकल्प है:

पूरी स्ट्रैवल रणनीति

पूरी तरह से ट्रैवर्स करने की रणनीति, पूरे रिपॉज़िटरी को स्कैन करती है और हर आइटम को इंडेक्स करती है. आम तौर पर, इस रणनीति का इस्तेमाल तब किया जाता है, जब आपके पास छोटा डेटाबेस हो और हर बार इंडेक्स करते समय, पूरे डेटाबेस को ट्रैवर्स करने का समय हो.

डेटा को ट्रैवर्स करने की यह रणनीति, उन छोटे डेटा स्टोर के लिए सही है जिनमें ज़्यादातर स्टैटिक और बिना हैरारकी वाला डेटा होता है. ट्रैवर्सल की इस रणनीति का इस्तेमाल तब भी किया जा सकता है, जब बदलाव का पता लगाना मुश्किल हो या रिपॉज़िटरी में यह सुविधा काम न करती हो.

सूची को ट्रैवर्स करने की रणनीति

सूची को ट्रैवर्स करने की रणनीति, पूरे डेटा स्टोर को स्कैन करती है. इसमें सभी चाइल्ड नोड भी शामिल होते हैं. इससे हर आइटम की स्थिति का पता चलता है. इसके बाद, कनेक्टर एक दूसरा पास लेता है और सिर्फ़ उन आइटम को इंडेक्स करता है जो नए हैं या जिन्हें पिछली बार इंडेक्स करने के बाद अपडेट किया गया है. आम तौर पर, इस रणनीति का इस्तेमाल किसी मौजूदा इंडेक्स में इंक्रीमेंटल अपडेट करने के लिए किया जाता है. ऐसा करने से, इंडेक्स को हर बार अपडेट करने के बजाय, सिर्फ़ नए डेटा को अपडेट किया जा सकता है.

डेटा को ट्रैवर्स करने की यह रणनीति तब कारगर होती है, जब बदलाव का पता लगाना मुश्किल हो या रिपॉज़िटरी में यह सुविधा काम न करती हो. साथ ही, आपके पास बिना हैरारकी वाला डेटा हो और बहुत बड़े डेटा सेट के साथ काम किया जा रहा हो.

ग्राफ़ को ट्रैवर्स करना

ग्राफ़ ट्रैवर्सल की रणनीति, हर आइटम की स्थिति तय करने के लिए पूरे पैरंट नोड को स्कैन करती है. इसके बाद, कनेक्टर एक दूसरा पास करता है और सिर्फ़ रूट नोड में मौजूद उन आइटम को इंडेक्स करता है जो नए हैं या जिन्हें पिछली बार इंडेक्स करने के बाद अपडेट किया गया है. आखिर में, कनेक्टर किसी भी चाइल्ड आईडी को पास करता है. इसके बाद, चाइल्ड नोड में उन आइटम को इंडेक्स करता है जो नए हैं या जिन्हें अपडेट किया गया है. कनेक्टर, सभी चाइल्ड नोड में तब तक बार-बार काम करता रहता है, जब तक सभी आइटम को पूरा नहीं कर लिया जाता. आम तौर पर, इस तरह के ट्रैवर्स का इस्तेमाल, हैरारकी वाले उन रिपॉज़िटरी के लिए किया जाता है जहां सभी आईडी की सूची बनाना मुमकिन नहीं होता.

यह रणनीति तब सही होती है, जब आपके पास हैरारकी वाला ऐसा डेटा हो जिसे क्रॉल करना ज़रूरी हो. जैसे, डायरेक्ट्री या वेब पेजों की सीरीज़.

ट्रैवर्सल की इन सभी रणनीतियों को एसडीके में टेंप्लेट कनेक्टर क्लास से लागू किया जाता है. आपके पास ट्रैवर्सल की अपनी रणनीति लागू करने का विकल्प है. हालांकि, इन टेंप्लेट की मदद से, कनेक्टर को तेज़ी से डेवलप किया जा सकता है. टेंप्लेट का इस्तेमाल करके कनेक्टर बनाने के लिए, अपनी ट्रैवर्सल रणनीति से जुड़े सेक्शन पर जाएं:

टेंप्लेट क्लास का इस्तेमाल करके, पूरा ट्रैवर्सल कनेक्टर बनाना
टेंप्लेट क्लास का इस्तेमाल करके, सूची के लिए ट्रैवलर कनेक्टर बनाना
टेंप्लेट क्लास का इस्तेमाल करके, ग्राफ़ ट्रैवर्सल कनेक्टर बनाना

टेंप्लेट क्लास का इस्तेमाल करके, फ़ुल ट्रैवर्सल कनेक्टर बनाना

दस्तावेज़ों के इस सेक्शन में, FullTraversalSample उदाहरण के कोड स्निपेट के बारे में बताया गया है.

कनेक्टर के एंट्री पॉइंट को लागू करना

कनेक्टर का एंट्री पॉइंट, main() तरीका होता है. इस तरीके का मुख्य काम, Application क्लास का इंस्टेंस बनाना और कनेक्टर को चलाने के लिए, उसका start() तरीका शुरू करना है.

application.start() को कॉल करने से पहले, FullTraversalConnector टेंप्लेट को इंस्टैंशिएट करने के लिए, IndexingApplication.Builder क्लास का इस्तेमाल करें. FullTraversalConnector, Repository ऑब्जेक्ट को स्वीकार करता है. नीचे दिए गए कोड स्निपेट में, main() तरीके को लागू करने का तरीका बताया गया है:

FullTraversalSample.java

कॉन्टेंट कनेक्टर बनाना

Content Connector SDK का इस्तेमाल करके कॉन्टेंट कनेक्टर बनाना

डिपेंडेंसी सेट अप करना

Maven

ग्रेडल

कनेक्टर कॉन्फ़िगरेशन बनाना

कनेक्टर को कॉन्फ़िगरेशन फ़ाइल पास करना

डेटा ट्रैवल की रणनीति तय करना

टेंप्लेट क्लास का इस्तेमाल करके, फ़ुल ट्रैवर्सल कनेक्टर बनाना

कनेक्टर के एंट्री पॉइंट को लागू करना

Repository इंटरफ़ेस लागू करना

कस्टम कॉन्फ़िगरेशन पैरामीटर पाना

पूरा ट्रैवर्स करना

किसी आइटम के लिए अनुमतियां सेट करना

किसी आइटम के लिए मेटाडेटा सेट करना

इंडेक्स किया जा सकने वाला आइटम बनाना

इंडेक्स किए जा सकने वाले हर आइटम को किसी आइटरेटर में पैकेज करना

अगले चरण

टेंप्लेट क्लास का इस्तेमाल करके, सूची के लिए ट्रैवलर कनेक्टर बनाना

कनेक्टर के एंट्री पॉइंट को लागू करना

Repository इंटरफ़ेस लागू करना

कस्टम कॉन्फ़िगरेशन पैरामीटर पाना

सूची को ट्रैवर्स करना

आइटम आईडी और हैश वैल्यू को पुश करना

हर आइटम को वापस लाना और उसे मैनेज करना

मिटाए गए आइटम मैनेज करना

बदलाव न किए गए आइटम मैनेज करना

किसी आइटम के लिए अनुमतियां सेट करना

किसी आइटम के लिए मेटाडेटा सेट करना

इंडेक्स किया जा सकने वाला आइटम बनाना

अगले चरण

टेंप्लेट क्लास का इस्तेमाल करके, ग्राफ़ ट्रैवर्सल कनेक्टर बनाना

कनेक्टर के एंट्री पॉइंट को लागू करना

Repository इंटरफ़ेस लागू करना

कस्टम कॉन्फ़िगरेशन पैरामीटर पाना

ग्राफ़ ट्रैवर्सल करना

आइटम आईडी और हैश वैल्यू को पुश करना

हर आइटम को वापस लाना और उसे मैनेज करना

मिटाए गए आइटम मैनेज करना

किसी आइटम के लिए अनुमतियां सेट करना

किसी आइटम के लिए मेटाडेटा सेट करना

इंडेक्स किया जा सकने वाला आइटम बनाना

चाइल्ड आईडी को Cloud Search इंडेक्स करने की सूची में डालना

अगले चरण

REST API का इस्तेमाल करके कॉन्टेंट कनेक्टर बनाना

डेटा ट्रैवल की रणनीति तय करना

डेटा को ट्रैवर्स करने की रणनीति और आइटम को इंडेक्स करना

डेटा स्टोर करने की जगह में हुए बदलावों को हैंडल करना

`Repository` इंटरफ़ेस लागू करना

`Repository` इंटरफ़ेस लागू करना

`Repository` इंटरफ़ेस लागू करना