هذا الدليل مخصّص للمشرفين المسؤولين عن تنزيل وتوزيع وصيانة إضافة الفهرسة Google Cloud Search Norconex HTTP Collector. يجب أن تكون على دراية بنظام التشغيل Linux وأساسيات الزحف إلى الويب وتنسيق XML وNorconex HTTP Collector.
يتضمّن هذا الدليل تعليمات حول ما يلي:
- نزِّل برنامج المكوّن الإضافي للفهرسة.
- إعداد Cloud Search
- ضبط Norconex HTTP Collector والزحف على الويب
- ابدأ الزحف إلى الويب وحمِّل المحتوى.
لا تتضمّن هذه الدليل معلومات حول المهام التي يجب أن ينفّذها مشرف حسابات Google Workspace. للحصول على معلومات حول هذه المهام، يُرجى الاطّلاع على مقالة إدارة مصادر البيانات التابعة لجهات خارجية.
نظرة عامة على المكوّن الإضافي لفهرسة Norconex HTTP Collector
بشكلٍ تلقائي، يمكن لخدمة Cloud Search اكتشاف المحتوى وفهرسته وعرضه من منتجات Google Workspace، مثل "مستندات Google" وGmail. يمكنك توسيع نطاق ذلك ليشمل محتوى على الويب من خلال تفعيل المكوّن الإضافي للفهرسة الخاص بـ Norconex HTTP Collector، وهو زاحف الويب مفتوح المصدر على الويب الخاص بالمؤسسات.
ملفات خصائص الإعداد
لكي يتمكّن المكوّن الإضافي من الزحف إلى المحتوى وتحميله، يجب تقديم معلومات محدّدة في ملفَّي إعدادات:
{gcs-crawl-config.xml}: إعدادات Norconex HTTP Collectorsdk-configuration.properties: إعدادات Cloud Search
الزحف إلى الويب وتحميل المحتوى
بعد ملء ملفات الإعداد، يمكنك بدء الزحف على الويب. يزحف Norconex HTTP Collector إلى الويب ويحمّل المحتوى الأصلي للمستندات الثنائية أو النصية إلى واجهة برمجة التطبيقات للفهرسة في Cloud Search.
متطلبات النظام
- نظام التشغيل: Linux فقط
- إصدار Norconex: الإصدار 2.8.0
- البرنامج: Java JRE 1.8
التوافق مع قوائم ACL
تتيح إضافة الفهرسة استخدام قوائم التحكم بالوصول (ACL) للتحكّم في الوصول إلى المستندات في نطاق Google Workspace.
في حال تفعيل قوائم التحكّم بالوصول التلقائية في إعدادات المكوِّن الإضافي (تم ضبط defaultAcl.mode على قيمة أخرى غير none)، سيطبّق المكوِّن الإضافي هذه الإعدادات التلقائية. بخلاف ذلك، يمنح المكوّن الإضافي إذن القراءة للنطاق بأكمله. اطّلِع على
مَعلمات الموصل التي توفّرها Google.
المتطلبات الأساسية
قبل نشر مكوّن إضافي للفهرسة، اجمع المكوّنات التالية:
- المفتاح الخاص لحساب Google Workspace (الذي يحتوي على معرّف حساب الخدمة) يمكنك الاطّلاع على ضبط أذونات الوصول إلى Cloud Search API.
- معرّف مصدر بيانات Google Workspace يمكنك الاطّلاع على مقالة إدارة مصادر بيانات الجهات الخارجية.
خطوات النشر
- تثبيت Norconex HTTP Collector وبرنامج المكوّن الإضافي
- ضبط Cloud Search
- ضبط Norconex HTTP Collector
- ضبط الزحف على الويب
- بدء عملية الزحف إلى الويب وتحميل المحتوى
الخطوة 1: تثبيت Norconex HTTP Collector وبرامج المكوّن الإضافي
- نزِّل برنامج Norconex committer من صفحة التنزيل في Norconex.
- استخرِج البرنامج إلى
~/norconex/. استنسِخ المكوّن الإضافي committer:
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginاطّلِع على الإصدار الذي اخترته وأنشئ المكوّن الإضافي:
git checkout tags/v1-0.0.3 mvn packageلتخطّي الاختبارات، استخدِم
mvn package -DskipTests.انسخ ملف JAR إلى دليل Norconex
lib:cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libاستخرِج ملف ZIP الذي تم إنشاؤه:
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3شغِّل نص التثبيت البرمجي وقدِّم المسار الكامل إلى دليل Norconex
lib:sh install.shإذا طُلب منك تحديد الملفات المكرّرة، اختَر الخيار
1.
الخطوة 2: ضبط Cloud Search
أنشئ sdk-configuration.properties في دليل Norconex. يجب أن يحدّد الملف المَعلمات التالية:
| الإعداد | المَعلمة |
| معرّف مصدر البيانات | api.sourceId = 1234567890abcdef
مطلوب. رقم تعريف المصدر من مشرف حسابات Google Workspace |
| حساب الخدمة | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
مطلوب. ملف مفتاح حساب الخدمة |
مثال على sdk-configuration.properties:
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
يمكنك أيضًا تضمين مَعلمات مثل batch.* للتحكّم في طريقة إرسال المكوّن الإضافي للبيانات. اطّلِع على
مَعلمات الموصل التي توفّرها Google.
لملء البيانات الوصفية، اضبط هذه المَعلمات الاختيارية:
| الإعداد | المعلَمة |
| العنوان | itemMetadata.title.field=movieTitle |
| نوع عنصر المخطط | itemMetadata.objectType=movie |
الخطوة 3: ضبط Norconex HTTP Collector
يتضمّن المكوّن الإضافي نموذج ملف، minimum-config.xml.
انتقِل إلى دليل Norconex وانسخ النموذج:
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xmlعدِّل
gcs-crawl-config.xmlلإضافة العقدتين<committer>و<tagger>أو استبدالهما:
| الإعداد | المَعلمة |
العقدة <committer> |
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
مطلوب. أضِف هذا الرمز ضمن العُقدة <httpcollector>. |
<uploadFormat> |
<uploadFormat>raw</uploadFormat>
اختياري. raw أو text القيمة التلقائية هي
raw. |
مثال على gcs-crawl-config.xml:
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
الخطوة 4: ضبط الزحف إلى الويب
اضبط عُقد <crawler> لتلبية احتياجاتك، بما في ذلك:
- عناوين URL للبدء
- الحد الأقصى لعمق الزحف
- عدد سلاسل المحادثات
اطّلِع على صفحة إعدادات Norconex.
الخطوة 5: بدء الزحف إلى الويب وتحميل المحتوى
شغِّل أداة الجمع في الوضع المحلي:
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
مراقبة الزاحف باستخدام JEF Monitor
توفّر أداة Norconex JEF (إطار تنفيذ المهام) Monitor عرضًا بيانيًا لمستوى التقدّم. يمكنك الاطّلاع على مراقبة الزاحف باستخدام JEF Monitor.