نشر المكوّن الإضافي لأداة Norconex HTTP Collector

هذا الدليل مخصَّص لمفهرس Google Cloud Search Norconex HTTP Collector المشرفون على المكونات الإضافية، أي أي شخص مسؤول عن التنزيل، نشر المكوّن الإضافي للمفهرس وتهيئته وصيانته يفترض الدليل التي تعرفها وأنظمة التشغيل Linux وأساسيات الويب والزحف وXML أداة تجميع HTTP من Norconex

يتضمّن هذا الدليل تعليمات حول تنفيذ المهام الرئيسية المتعلّقة بالمفهرس. نشر المكون الإضافي:

  • تنزيل برنامج المكوّن الإضافي للمفهرس
  • إعداد Google Cloud Search
  • إعداد Norconex HTTP Collector والزحف على الويب
  • بدء الزحف على الويب وتحميل المحتوى

معلومات حول المهام التي يجب على مشرف Google Workspace تنفيذها تنفيذ ربط Google Cloud Search بالمكوّن الإضافي لمفهرس Norconex HTTP لا تظهر في هذا الدليل. للحصول على معلومات حول هذه المهام، راجع إدارة مصادر البيانات التابعة لجهات خارجية

نظرة عامة على المكوّن الإضافي لأداة فهرسة Norconex HTTP في Cloud Search

يمكن لخدمة Cloud Search تلقائيًا اكتشاف المحتوى من منتجات Google Workspace، مثل "مستندات Google" وGmail يمكنك تمديد إلى Google Cloud Search لتضمين محتوى الويب للمستخدمين من خلال نشر المكون الإضافي للمفهرس Norconex HTTP Collector زاحف ويب للمؤسسات مفتوح المصدر.

ملفات خصائص الإعدادات

لتمكين المكون الإضافي للمفهرس من إجراء عمليات الزحف على الويب وتحميل المحتوى إلى للفهرسة، يمكنك، بصفتك مشرف المكون الإضافي للفهرسة، توفير المعلومات أثناء خطوات الضبط الموضحة في هذا المستند في خطوات النشر:

لاستخدام المكوّن الإضافي للمفهرس، يجب ضبط الخصائص في ملفي إعداد:

  • يحتوي {gcs-crawl-config.xml}-- على إعدادات Norconex HTTP Collector.
  • يحتوي sdk-configuration.properties-- على إعدادات Google Cloud Search.

تمكّن الخصائص في كل ملف المكوّن الإضافي لفهرس Google Cloud Search Norconex HTTP Collector للاتصال ببعضها البعض.

الزحف إلى الويب وتحميل المحتوى

بعد ملء ملفات التهيئة، يكون لديك الإعدادات لبدء زحف الويب. عمليات زحف Norconex HTTP Collector الويب واكتشاف محتوى الوثائق المتعلق بتكوينها تحمِّل النُسخ الثنائية (أو النصية) الأصلية لمحتوى المستند إلى السحابة Search Indexing API حيث تتم فهرستها وعرضها في النهاية للمستخدمين

نظام التشغيل المتوافق

يجب تثبيت المكوّن الإضافي لمفهرس Google Cloud Search Norconex HTTP Collector على نظام التشغيل Linux.

إصدار Norconex HTTP Collector المتوافق

يتوافق المكوّن الإضافي لمفهرس Google Cloud Search Norconex HTTP Collector مع الإصدار 2.8.0.

دعم ACL

يتيح المكون الإضافي للمفهرس التحكم في الوصول إلى المستندات في نطاق Google Workspace باستخدام قوائم التحكم بالوصول (ACLs).

في حال تفعيل قوائم التحكم بالوصول التلقائية في إعداد مكوّن Google Cloud Search الإضافي (تم ضبط defaultAcl.mode على "بخلاف "none" وضبطه باستخدام "defaultAcl.*") يحاول المكون الإضافي للمفهرس أولاً إنشاء قائمة التحكم بالوصول الافتراضية وتطبيقها.

إذا لم يتم تفعيل قوائم التحكم بالوصول التلقائية، يعود المكوّن الإضافي لمنح إذن بالقراءة. على نطاق Google Workspace بالكامل.

للحصول على أوصاف تفصيلية لمعلمات تهيئة قائمة التحكم بالوصول (ACL)، راجع مَعلمات الموصِّل التي توفّرها Google

المتطلبات الأساسية

قبل نشر المكوّن الإضافي للمفهرس، تأكَّد من توفُّر ما يلي: المكونات المطلوبة:

  • تم تثبيت Java JRE 1.8 على جهاز كمبيوتر يقوم بتشغيل المكون الإضافي للفهرسة
  • معلومات Google Workspace المطلوبة لإنشاء علاقات بين Cloud Search وNorconex HTTP Collector:

    يمكن عادةً لمشرف Google Workspace للنطاق توفير ما يلي: أوراق الاعتماد من أجلك.

خطوات النشر

لنشر المكوّن الإضافي للمفهرس، اتبع الخطوات التالية:

  1. تثبيت برنامج Norconex HTTP Collector وبرنامج المكوِّن الإضافي للفهرسة
  2. ضبط Google Cloud Search
  3. إعداد Norconex HTTP Collector
  4. إعداد الزحف إلى الويب
  5. بدء الزحف إلى الويب وتحميل المحتوى

الخطوة 1: تثبيت Norconex HTTP Collector وبرنامج المكونات الإضافية لأداة الفهرسة

  1. تنزيل برنامج متعهد Norconex من هذه الصفحة.
  2. عليك فكّ ضغط البرامج التي تم تنزيلها في مجلد "~/norconex/".
  3. استنسِخ المكوّن الإضافي للمكون من GitHub. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git و ثم cd norconex-committer-plugin
  4. تحقق من الإصدار المطلوب من المكون الإضافي الملتزم وإنشاء ملف ZIP: git checkout tags/v1-0.0.3 وmvn package (لتخطّي الاختبارات أثناء الإنشاء الموصل، استخدم mvn package -DskipTests).
  5. cd target
  6. انسخ ملف وعاء المكون الإضافي المضمن إلى دليل norconex lib. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. يمكنك استخراج ملف ZIP الذي أنشأته للتو، ثم فك ضغط الملف: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip.
  8. نفِّذ النص البرمجي للتثبيت لنسخ ملف jar .الخاص بالمكون الإضافي وجميع المكتبات في دليل جامع http:
    1. تغيير في المكون الإضافي المستخلص القائم على المشروع الذي تم فك ضغطه أعلاه: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. نفِّذ $ sh install.sh وأدخِل المسار الكامل من أجل الهدف norconex/norconex-collector-http-{version}/lib الدليل عندما يُطلب منك ذلك.
    3. في حال العثور على ملفات Jar مكررة، حدِّد الخيار 1 (نسخ الملف المصدر فقط). إذا كانت أكبر أو هي نفس الإصدار كـ Jar المستهدف بعد إعادة تسمية Jar الهدف).

الخطوة 2: ضبط Google Cloud Search

لكي يتصل المكوّن الإضافي للفهرسة بأداة Norconex HTTP Collector وفهرسة ذي صلة، يجب إنشاء ملف إعداد Cloud Search في دليل Norconex حيث تم تثبيت Norconex HTTP Collector. تنصحك Google أنك ستسمي ملف إعداد Cloud Search sdk-configuration.properties

يجب أن يحتوي ملف الإعداد هذا على أزواج المفتاح/القيمة التي تحدد معلَمة. يجب أن يحدد ملف الإعداد على الأقل المعلمات التالية، وهي اللازمة للوصول إلى مصدر بيانات Cloud Search.

الإعدادات المعلمة
رقم تعريف مصدر البيانات api.sourceId = 1234567890abcdef
مطلوبة. معرّف مصدر Cloud Search الذي أعدّه مشرف Google Workspace.
حساب الخدمة api.serviceAccountPrivateKeyFile = ./PrivateKey.json
مطلوبة. ملف مفتاح حساب خدمة Cloud Search الذي أنشأه مشرف Google Workspace لتسهيل استخدام المكوّن الإضافي لأداة الفهرسة

يعرض المثال التالي ملف sdk-configuration.properties.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

يمكن أن يحتوي ملف الإعداد أيضًا على مَعلمات الإعداد التي توفّرها Google. يمكن أن تؤثر هذه المعلمات في كيفية إرسال هذا المكوّن الإضافي للبيانات إلى واجهة برمجة تطبيقات Google Cloud Search. على سبيل المثال، مجموعة المعلمات batch.* يحدد كيفية قيام الموصل بدمج الطلبات.

إذا لم تحدد معلمة في ملف التهيئة، فإن القيمة الافتراضية استخدام البيانات إن وجدت. للحصول على أوصاف تفصيلية لكل مَعلمة، يُرجى الاطّلاع على مَعلمات الموصِّل التي توفّرها Google

يمكنك ضبط المكوّن الإضافي للمفهرس لتعبئة البيانات الوصفية والبيانات المنظَّمة الذي تتم فهرسته. القيم التي ستتم تعبئتها للبيانات الوصفية والبيانات المنظَّمة يمكن استخراج الحقول من العلامات الوصفية في محتوى HTML الذي تتم فهرسته أو يمكن تحديد القيم الافتراضية في ملف التهيئة.

الإعداد المعلَمة
العنوان itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
بشكل تلقائي، يستخدم المكوِّن الإضافي HTML title كعنوان للمستند الذي تتم فهرسته. في حال عدم توفّر عنوان، يمكنك الرجوع إلى سمة البيانات الوصفية التي تحتوي على القيمة المقابلة لعنوان المستند أو يتم تعيين قيمة افتراضية لها.
الطابع الزمني الذي تمّ إنشاؤه itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
سمة البيانات الوصفية التي تحتوي على قيمة الطابع الزمني لإنشاء المستند.
وقت آخر تعديل itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
سمة البيانات الوصفية التي تحتوي على قيمة الطابع الزمني لآخر تعديل للمستند
لغة المستند itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
لغة المحتوى للمستندات التي تتم فهرستها:
نوع كائن المخطط itemMetadata.objectType=movie
نوع الكائن الذي يستخدمه الموقع الإلكتروني، كما هو محدّد في تعريفات عناصر مخطط مصدر البيانات لن يفهرس الموصل أي البيانات المنظَّمة إذا لم يتم تحديد هذه السمة.

ملاحظة: تشير خاصية الضبط هذه إلى قيمة بدلاً من مقارنة بسمة بيانات وصفية، وتمثل .field ولا تتوفر لاحقة .defaultValue.

تنسيقات التاريخ والوقت

تحدد تنسيقات التاريخ والوقت التنسيقات المتوقعة في سمات البيانات الوصفية. إذا لم يحتوي ملف التهيئة على هذه المعلمة، فإن القيم الافتراضية هي استخدام البيانات المختلفة. يعرض الجدول التالي هذه المَعلمة.

الإعداد

المعلَمة

أنماط إضافية للتاريخ والوقت

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

قائمة مفصولة بفاصلة منقوطة لـ java.time.format.DateTimeFormatter الإضافي. أنماط. يتم استخدام الأنماط عند تحليل قيم السلسلة لأي تاريخ أو وقت الحقول في بيانات التعريف أو المخطط. القيمة الافتراضية هي قائمة فارغة، ولكن يتوفر دائمًا تنسيقان RFC 3339 وRFC 1123.

الخطوة 3: إعداد Norconex HTTP Collector

يتضمن الأرشيف المضغوط norconex-committer-google-cloud-search-{version}.zip نموذج ملف الإعداد، minimum-config.xml.

تنصح Google ببدء الإعداد من خلال نسخ نموذج الملف:

  1. تغيير إلى دليل Norconex HTTP Collector:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. انسخ ملف الإعداد:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. عدِّل الملف الذي تم إنشاؤه حديثًا (في هذا المثال، gcs-crawl-config.xml). إضافة أو استبدال العُقدة الحالية <committer> و<tagger> على النحو الموضّح في الجدول التالي.
الإعدادات المعلمة
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

يجب ملء الحقل. لتفعيل المكوّن الإضافي، عليك إضافة عُقدة <committer> كعنصر فرعي للعقدة <httpcollector> الجذرية.
<UploadFormat> <uploadFormat>raw</uploadFormat>
اختياري. يشير ذلك المصطلح إلى التنسيق الذي ينقل به المكوّن الإضافي للفهرسة محتوى المستند إلى واجهة برمجة تطبيقات فهرسة Google Cloud Search. القيم الصالحة هي:
  • raw: يطرح المكوِّن الإضافي للفهرسة محتوى المستند الأصلي الذي لم يتم تحويله.
  • text: يضع المكوّن الإضافي للفهرسة المحتوى النصي المستخرج.

القيمة التلقائية هي raw.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
مطلوبة إذا كانت قيمة <UploadFormat> هي raw. وفي هذه الحالة، يحتاج المكوّن الإضافي للمفهرس إلى إتاحة حقل المحتوى الثنائي للمستند.

عليك إضافة العقدة BinaryContentTagger <tagger> كعنصر ثانوي في العقدة <importer> / <preParseHandlers>.

يوضح المثال التالي العناصر المطلوبة تعديل على gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

الخطوة 4: ضبط زحف الويب

قبل بدء زحف الويب، يجب تهيئة الزحف بحيث لا يتم يتضمن المعلومات التي تريد مؤسستك إتاحتها في البحث نتائجك. أهم إعدادات الزحف إلى الويب هي جزء من <crawler>. ويمكن أن تشمل ما يلي:

  • عناوين URL للبدء
  • الحد الأقصى لعمق الزحف
  • عدد السلاسل

غيِّر قيم الضبط هذه وفقًا لاحتياجاتك. للحصول على مزيد من التفاصيل ومعلومات حول إعداد الزحف على الويب، بالإضافة إلى قائمة كاملة بالتعليمات المحدد، راجع قاعدة تجميع HTTP الإعدادات .

الخطوة 5: بدء الزحف إلى الويب وتحميل المحتوى

بعد تثبيت المكوّن الإضافي للمفهرس وإعداده، يمكنك تشغيله على الخاصة بها في الوضع المحلي.

يفترض المثال التالي أن المكونات المطلوبة موجودة في دليل على نظام Linux. شغِّل الأمر التالي:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

مراقبة الزاحف باستخدام أداة JEF Monitor

تُعد أداة Norconex JEF (إطار تنفيذ المهام) أداة رسومية مراقبة تقدم عمليات زاحف الويب Norconex (HTTP Collector) والوظائف. للحصول على برنامج تعليمي كامل حول كيفية إعداد هذه الأداة، يمكنك الانتقال إلى راقِب تقدّم الزاحف باستخدام أداة JEF Monitor.