نشر المكوّن الإضافي لأداة Norconex HTTP Collector

هذا الدليل مخصَّص لمشرفي المكوّنات الإضافية لأداة الفهرسة في Google Cloud Search Norconex HTTP، أي أي شخص مسؤول عن تنزيل المكوّن الإضافي للمفهرس ونشره وإعداده وصيانته وصيانته. يفترض الدليل أنك على دراية بأنظمة التشغيل Linux وأساسيات الزحف على الويب وXML وNorconex HTTP Collector.

يتضمّن هذا الدليل تعليمات حول تنفيذ المهام الرئيسية المتعلّقة بنشر المكوّن الإضافي للمفهرس:

  • تنزيل برنامج المكوّن الإضافي للمفهرس
  • إعداد Google Cloud Search
  • إعداد Norconex HTTP Collector والزحف على الويب
  • بدء الزحف على الويب وتحميل المحتوى

لا تظهر في هذا الدليل معلومات حول المهام التي يجب أن ينفّذها مشرف Google Workspace لربط Google Cloud Search بالمكوّن الإضافي Norconex HTTP Collector. للحصول على معلومات حول هذه المهام، يُرجى الاطّلاع على المقالة إدارة مصادر البيانات التابعة لجهات خارجية.

نظرة عامة على المكوّن الإضافي لأداة فهرسة Norconex HTTP في Cloud Search

يمكن لخدمة Cloud Search تلقائيًا اكتشاف المحتوى من منتجات Google Workspace وفهرسته وعرضه، مثل "مستندات Google" وGmail. يمكنك توسيع نطاق استخدام Google Cloud Search ليشمل عرض محتوى الويب للمستخدمين من خلال نشر المكوّن الإضافي للمفهرس Norconex HTTP Collector، وهو زاحف ويب مفتوح المصدر للمؤسسات.

ملفات خصائص الإعدادات

لتفعيل المكوّن الإضافي للفهرسة من أجل إجراء عمليات الزحف على الويب وتحميل المحتوى إلى واجهة برمجة التطبيقات للفهرسة، يمكنك بصفتك مشرف المكوّن الإضافي للفهرسة تقديم معلومات محددة أثناء خطوات الضبط الموضحة في هذا المستند في خطوات النشر.

لاستخدام المكوّن الإضافي للمفهرس، يجب ضبط الخصائص في ملفي إعداد:

  • يحتوي {gcs-crawl-config.xml}-- على إعدادات Norconex HTTP Collector.
  • يحتوي sdk-configuration.properties-- على إعدادات Google Cloud Search.

تفعِّل الخصائص في كل ملف المكوّن الإضافي لأداة فهرسة Google Cloud Search وأداة تجميع HTTP Norconex من أجل التواصل مع بعضها.

الزحف إلى الويب وتحميل المحتوى

بعد ملء ملفات الضبط، ستظهر لك الإعدادات اللازمة لبدء الزحف إلى الويب. يزحف Norconex HTTP Collector إلى الويب ويكتشف محتوى المستندات المرتبط بتهيئته ويحمِّل نُسخًا ثنائية (أو نصية) أصلية من محتوى المستند إلى واجهة برمجة تطبيقات الفهرسة في Cloud Search حيث تتم فهرستها وعرضها للمستخدمين في النهاية.

نظام التشغيل المتوافق

يجب تثبيت المكوّن الإضافي لمفهرس Google Cloud Search Norconex HTTP Collector على نظام التشغيل Linux.

إصدار Norconex HTTP Collector المتوافق

يتوافق المكوّن الإضافي لمفهرس Google Cloud Search Norconex HTTP Collector مع الإصدار 2.8.0.

دعم ACL

يتيح المكوّن الإضافي للمفهرس التحكّم في الوصول إلى المستندات في نطاق Google Workspace باستخدام قوائم التحكم بالوصول (ACLs).

إذا تم تفعيل قوائم التحكم بالوصول التلقائية في إعداد المكوّن الإضافي لخدمة Google Cloud Search (تم ضبط defaultAcl.mode على خيار آخر بخلاف none وتمت ضبطه باستخدام defaultAcl.*)، سيحاول المكوِّن الإضافي للفهرسة أولاً إنشاء قائمة تلقائية بالوصول إلى البيانات وتطبيقها.

إذا لم يتم تفعيل قوائم التحكم بالوصول التلقائية، يعود المكوّن الإضافي لمنح الإذن بالقراءة لنطاق Google Workspace بأكمله.

للحصول على أوصاف تفصيلية لمَعلمات ضبط قائمة التحكّم بالوصول (ACL)، يُرجى الاطّلاع على مَعلمات الموصِّل التي توفّرها Google.

المتطلّبات الأساسية

قبل نشر المكوّن الإضافي للمفهرس، تأكَّد من توفُّر المكونات المطلوبة التالية:

  • تم تثبيت Java JRE 1.8 على جهاز كمبيوتر يقوم بتشغيل المكون الإضافي للفهرسة
  • معلومات Google Workspace المطلوبة لإنشاء علاقات بين Cloud Search وNorconex HTTP Collector:

    يمكن عادةً لمشرف Google Workspace في النطاق أن يوفّر لك بيانات الاعتماد هذه.

خطوات النشر

لنشر المكوّن الإضافي للمفهرس، اتبع الخطوات التالية:

  1. تثبيت برنامج Norconex HTTP Collector وبرنامج المكوِّن الإضافي للفهرسة
  2. ضبط Google Cloud Search
  3. إعداد Norconex HTTP Collector
  4. إعداد الزحف إلى الويب
  5. بدء الزحف إلى الويب وتحميل المحتوى

الخطوة 1: تثبيت Norconex HTTP Collector وبرنامج المكونات الإضافية لأداة الفهرسة

  1. قم بتنزيل برنامج اعتماد Norconex من هذه الصفحة.
  2. عليك فكّ ضغط البرامج التي تم تنزيلها في مجلد "~/norconex/".
  3. استنسِخ المكوّن الإضافي للمكون من GitHub. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git ثم cd norconex-committer-plugin
  4. يمكنك الاطّلاع على الإصدار المطلوب من المكوّن الإضافي الملتزم وإنشاء ملف ZIP : git checkout tags/v1-0.0.3 وmvn package (لتخطّي الاختبارات أثناء إنشاء الموصِّل، استخدِم mvn package -DskipTests.)
  5. cd target
  6. انسخ ملف jar المكوّن الإضافي المُضمَّن إلى دليل norconex lib. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. يمكنك استخراج ملف ZIP الذي أنشأته للتو، ثم فك ضغط الملف: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip.
  8. نفِّذ النص البرمجي للتثبيت لنسخ ملف .jar للمكون الإضافي وجميع المكتبات المطلوبة إلى دليل جامع http:
    1. تغيير في المكون الإضافي المستخلص القائم على المشروع الذي تم فك ضغطه أعلاه: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. نفِّذ $ sh install.sh وقدِّم المسار الكامل إلى norconex/norconex-collector-http-{version}/lib كدليل مستهدف عندما يُطلب منك ذلك.
    3. إذا تم العثور على ملفات jar مكررة، حدِّد الخيار 1 (نسخ المصدر Jar فقط إذا كان الإصدار الأكبر أو نفسه كالإصدار المستهدف بعد إعادة تسمية Jar الهدف).

الخطوة 2: ضبط Google Cloud Search

لكي يتمكّن المكوِّن الإضافي للفهرسة من الاتصال بمجمع Norconex HTTP لفهرسة المحتوى ذي الصلة، يجب إنشاء ملف إعداد Cloud Search في دليل Norconex حيث تم تثبيت Norconex HTTP Collector. تنصح Google بتسمية ملف إعداد Cloud Search sdk-configuration.properties.

يجب أن يحتوي ملف الإعداد هذا على أزواج المفتاح/القيمة التي تحدد معلَمة. يجب أن يحدّد ملف الإعداد المَعلمات التالية على الأقل، وهي ضرورية للوصول إلى مصدر بيانات Cloud Search.

الإعدادات المَعلمة
رقم تعريف مصدر البيانات api.sourceId = 1234567890abcdef
مطلوبة معرّف مصدر Cloud Search الذي أعدّه مشرف Google Workspace.
حساب الخدمة api.serviceAccountPrivateKeyFile = ./PrivateKey.json
مطلوبة ملف مفتاح حساب خدمة Cloud Search الذي أنشأه مشرف Google Workspace لتسهيل استخدام المكوّن الإضافي لأداة الفهرسة

يعرض المثال التالي ملف sdk-configuration.properties.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

يمكن أن يحتوي ملف الإعداد أيضًا على مَعلمات الإعداد التي توفّرها Google. يمكن أن تؤثر هذه المعلمات في كيفية إرسال هذا المكوّن الإضافي للبيانات إلى واجهة برمجة تطبيقات Google Cloud Search. على سبيل المثال، تحدد مجموعة المعلمات batch.* كيفية دمج الموصل للطلبات.

إذا لم تحدِّد مَعلمة في ملف الإعداد، سيتم استخدام القيمة التلقائية، إن توفّرت. للحصول على وصف تفصيلي لكل مَعلمة، يُرجى الاطّلاع على مَعلمات الموصِّلات التي توفّرها Google.

يمكنك ضبط المكوّن الإضافي للمفهرس لتعبئة البيانات الوصفية والبيانات المنظَّمة للمحتوى الذي تتم فهرسته. يمكن استخراج القيم المطلوب ملؤها للبيانات الوصفية وحقول البيانات المنظَّمة من العلامات الوصفية في محتوى HTML الذي تتم فهرسته أو يمكن تحديد القيم التلقائية في ملف الإعدادات.

الإعداد المعلَمة
العنوان itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
يستخدم المكوِّن الإضافي HTML title بشكل تلقائي كعنوان للمستند الذي تتم فهرسته. في حالة عدم توفر عنوان، يمكنك إما الرجوع إلى سمة البيانات الوصفية التي تحتوي على القيمة المقابلة لعنوان المستند أو تعيين قيمة افتراضية.
الطابع الزمني الذي تمّ إنشاؤه itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
سمة البيانات الوصفية التي تحتوي على قيمة الطابع الزمني لإنشاء المستند
وقت آخر تعديل itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
سمة البيانات الوصفية التي تحتوي على قيمة الطابع الزمني لآخر تعديل للمستند
لغة المستند itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
لغة المحتوى للمستندات التي تتم فهرستها.
نوع كائن المخطط itemMetadata.objectType=movie
نوع العنصر الذي يستخدمه الموقع الإلكتروني، على النحو المحدّد في تعريفات عناصر مخطط مصدر البيانات. لن يفهرس الموصِّل أي بيانات منظَّمة ما لم يتم تحديد هذه السمة.

ملاحظة: تشير خاصية الإعداد هذه إلى قيمة بدلاً من سمة بيانات وصفية، ولا تتوفّر اللحقتان .field و.defaultValue.

تنسيقات التاريخ والوقت

تحدد تنسيقات التاريخ والوقت التنسيقات المتوقعة في سمات البيانات الوصفية. إذا لم يكن ملف الإعداد يحتوي على هذه المعلمة، سيتم استخدام القيم التلقائية. يعرض الجدول التالي هذه المَعلمة.

الإعداد

المعلَمة

أنماط إضافية للتاريخ والوقت

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

قائمة مفصولة بفواصل منقوطة لأنماط java.time.format.DateTimeFormatter الإضافية. يتم استخدام الأنماط عند تحليل قيم السلسلة لأي حقول تاريخ أو وقت في البيانات الوصفية أو المخطط. تكون القيمة التلقائية قائمة فارغة، إلا أنّ التنسيقَين RFC 3339 وRFC 1123 متاحان دائمًا.

الخطوة 3: إعداد Norconex HTTP Collector

يتضمن أرشيف zip norconex-committer-google-cloud-search-{version}.zip نموذجًا لملف الإعداد minimum-config.xml.

تنصح Google ببدء الإعداد من خلال نسخ نموذج الملف:

  1. التغيير إلى دليل Norconex HTTP Collector:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. انسخ ملف الإعداد:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. عدِّل الملف الذي تمّ إنشاؤه حديثًا (في هذا المثال، gcs-crawl-config.xml) وأضِف أو استبدال العُقد <committer> و<tagger> الحالية كما هو موضّح في الجدول التالي.
الإعدادات المَعلمة
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

مطلوبة. لتفعيل المكوّن الإضافي، عليك إضافة عُقدة <committer> كعنصر فرعي للعقدة <httpcollector> الجذرية.
<UploadFormat> <uploadFormat>raw</uploadFormat>
اختيارية يشير ذلك المصطلح إلى التنسيق الذي ينقل به المكوّن الإضافي للفهرسة محتوى المستند إلى واجهة برمجة تطبيقات فهرسة Google Cloud Search. القيم الصالحة هي:
  • raw: يطرح المكوِّن الإضافي للفهرسة محتوى المستند الأصلي الذي لم يتم تحويله.
  • text: يضع المكوّن الإضافي للفهرسة المحتوى النصي المستخرج.

القيمة التلقائية هي raw.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
مطلوبة إذا كانت قيمة <UploadFormat> هي raw. وفي هذه الحالة، يحتاج المكوّن الإضافي للمفهرس إلى إتاحة حقل المحتوى الثنائي للمستند.

عليك إضافة العقدة BinaryContentTagger <tagger> كعنصر ثانوي في العقدة <importer> / <preParseHandlers>.

يوضح المثال التالي التعديل المطلوب في gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

الخطوة 4: ضبط زحف الويب

قبل بدء عملية زحف على الويب، يجب ضبط إعدادات الزحف كي لا يتضمّن سوى المعلومات التي تريد مؤسستك إتاحتها ضمن نتائج البحث. تُعد أهم إعدادات الزحف إلى الويب جزءًا من <crawler> عُقدة ويمكن أن تتضمن:

  • عناوين URL للبدء
  • الحد الأقصى لعمق الزحف
  • عدد السلاسل

غيِّر قيم الضبط هذه وفقًا لاحتياجاتك. للحصول على معلومات أكثر تفصيلاً حول إعداد الزحف على الويب، بالإضافة إلى قائمة كاملة بمعلمات الإعداد المتاحة، يمكنك الاطّلاع على صفحة ضبط أداة تجميع HTTP.

الخطوة 5: بدء الزحف إلى الويب وتحميل المحتوى

بعد تثبيت المكوّن الإضافي للمفهرس وإعداده، يمكنك تشغيله بنفسه في الوضع المحلي.

يفترض المثال التالي أن المكونات المطلوبة موجودة في الدليل المحلي على نظام Linux. شغِّل الأمر التالي:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

مراقبة الزاحف باستخدام أداة JEF Monitor

Norconex JEF Monitor هي أداة رسومية لمراقبة تقدم عمليات ومهام Norconex Web Crawler (HTTP Collector). للحصول على برنامج تعليمي كامل حول كيفية إعداد هذه الأداة، يُرجى الانتقال إلى مراقبة تقدّم الزاحف باستخدام أداة JEF Monitor.