نشر المكوّن الإضافي لأداة Norconex HTTP Collector

هذا الدليل مخصّص لمشرفي المكوّن الإضافي لمُفهرس Google Cloud Search Norconex HTTP Collector، أي أي شخص مسؤول عن تنزيل المكوّن الإضافي للفهرس ونقله وضبطه وصيانته. يفترض الدليل أنّك على دراية بأنظمة التشغيل Linux وأساسيات الزحف إلى الويب وتنسيق XML وNorconex HTTP Collector.

يتضمّن هذا الدليل تعليمات لتنفيذ المهام الرئيسية المتعلّقة بنشر ملفّات علامة التبويب المكوّنات الإضافية لمحرّك الفهرسة:

  • تنزيل برنامج المكوّن الإضافي لفهرسة المحتوى
  • ضبط إعدادات Google Cloud Search
  • ضبط Norconex HTTP Collector والزحف إلى الويب
  • بدء الزحف إلى الويب وتحميل المحتوى

لا تظهر في هذا الدليل معلومات عن المهام التي يجب أن يؤديها مشرف Google Workspace لربط Google Cloud Search بإضافة Norconex HTTP Collector indexer plugin. للحصول على معلومات عن هذه المهام، يُرجى الاطّلاع على مقالة إدارة مصادر البيانات التابعة لجهات خارجية.

نظرة عامة على المكوّن الإضافي لفهرسة Cloud Search Norconex HTTP Collector

يمكن لخدمة Cloud Search تلقائيًا اكتشاف المحتوى من منتجات Google Workspace، مثل "مستندات Google" وGmail، وفهرسته وعرض بياناته. يمكنك توسيع نطاق وصول Google Cloud Search ليشمل عرض محتوى الويب للمستخدمين من خلال نشر المكوّن الإضافي للفهرسة في Norconex HTTP Collector، وهو زاحف ويب مفتوح المصدر للمؤسسات.

ملفات خصائص الضبط

لتفعيل المكوّن الإضافي لفهرسة الويب من أجل تنفيذ عمليات الزحف إلى الويب وتحميل المحتوى إلى واجهة برمجة التطبيقات لفهرسة الويب، عليك، بصفتك مشرف المكوّن الإضافي لفهرسة الويب، تقديم معلومات محدّدة أثناء خطوات الإعداد الموضّحة في هذا المستند ضمن خطوات النشر.

لاستخدام المكوّن الإضافي لفهرسة المحتوى، عليك ضبط الخصائص في ملفي إعدادات:

  • {gcs-crawl-config.xml}-- يحتوي على إعدادات لبرنامج Norconex HTTP Collector.
  • sdk-configuration.properties-- يحتوي على إعدادات Google Cloud Search.

تتيح السمات في كل ملف للمكوّن الإضافي لموسّع فهرس Google Cloud Search و Norconex HTTP Collector التواصل مع بعضهما.

الزحف إلى الويب وتحميل المحتوى

بعد تعبئة ملفات الإعدادات، ستحصل على الإعدادات اللازمة لبدء الزحف إلى الويب. يزحف Norconex HTTP Collector إلى الويب، ويرصد محتوى المستندات المرتبط بإعداداته وي upload الإصدارات الأصلية الثنائية (أو النصية) من محتوى المستندات إلى واجهة برمجة التطبيقات للفهرسة في Cloud Search حيث تتم فهرستها وعرضها في النهاية للمستخدمين.

نظام التشغيل المتوافق

يجب تثبيت المكوّن الإضافي لمفهرس Google Cloud Search Norconex HTTP Collector على نظام التشغيل Linux.

إصدار Norconex HTTP Collector المتوافق

يتوافق المكوّن الإضافي لموسّع فهرس Norconex HTTP Collector في Google Cloud Search مع الإصدار 2.8.0.

إتاحة قوائم التحكّم في الوصول

يتيح المكوّن الإضافي لفهرسة المحتوى التحكّم في الوصول إلى المستندات في ملف شخصي على Google Workspace باستخدام قوائم التحكّم بالوصول (ACL).

في حال تفعيل قوائم التحكّم في الوصول التلقائية في إعدادات المكوّن الإضافي لمحرك بحث Google Cloud (defaultAcl.mode تم ضبطه على قيمة غير none وتم ضبطه باستخدام defaultAcl.*)، يحاول المكوّن الإضافي للفهرسة أولاً إنشاء قائمة تحكّم في الوصول تلقائية وتطبيقها.

في حال عدم تفعيل قوائم التحكّم في الوصول التلقائية، يعود المكوّن الإضافي إلى منح إذن القراءة لنطاق Google Workspace بأكمله.

للحصول على أوصاف تفصيلية لمَعلمات ضبط قائمة التحكّم بالوصول، يُرجى الاطّلاع على مَعلمات الموصِّل المقدَّمة من Google.

المتطلبات الأساسية

قبل نشر المكوّن الإضافي لفهرسة المحتوى، تأكَّد من توفّر المكونات التالية المطلوبة:

  • تثبيت Java JRE 1.8 على جهاز كمبيوتر يعمل بالإصدار الإضافي لموسّع الفهرس
  • معلومات Google Workspace المطلوبة لإنشاء علاقات بين Cloud Search وNorconex HTTP Collector:

    عادةً ما يقدّم مشرف Google Workspace للنطاق هذه بيانات الاعتماد نيابةً عنك.

خطوات النشر

لنشر المكوّن الإضافي لبرنامج الفهرسة، اتّبِع الخطوات التالية:

  1. تثبيت برنامج Norconex HTTP Collector وبرنامج المكوّن الإضافي للفهرسة
  2. ضبط Google Cloud Search
  3. ضبط Norconex HTTP Collector
  4. ضبط الزحف إلى الويب
  5. بدء الزحف إلى الويب وتحميل المحتوى

الخطوة 1: تثبيت برنامج Norconex HTTP Collector وبرنامج المكوّن الإضافي للفهرسة

  1. نزِّل برنامج Norconex commiter من هذه الصفحة.
  2. فك ضغط البرنامج الذي تم تنزيله إلى مجلد ~/norconex/
  3. استنسِخ المكوّن الإضافي "المُعدّل" من GitHub. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git ثم cd norconex-committer-plugin
  4. يمكنك الاطّلاع على الإصدار المطلوب من المكوّن الإضافي "أداة الربط" وإنشاء ملف ZIP: git checkout tags/v1-0.0.3 وmvn package (لتخطّي الاختبارات عند إنشاء الموصِّل، استخدِم mvn package -DskipTests).
  5. cd target
  6. انسخ ملف jar المكوّن للإضافة إلى دليل norconex lib. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. استخرِج ملف ZIP الذي أنشأته للتو، ثم فك ضغط الملف: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. نفِّذ النص البرمجي للتثبيت لنسخ ملف ‎ .jar الخاص بالإضافة وجميع المكتبات المطلوبة إلى دليل "مجمع بيانات HTTP":
    1. عليك إجراء تغيير على المكوّن الإضافي المُستخرَج الذي تم فك ضغطه أعلاه: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. نفِّذ $ sh install.sh وقدِّم المسار الكامل إلى norconex/norconex-collector-http-{version}/lib كدليل الوجهة عند طلب ذلك.
    3. في حال العثور على ملفات jar مكرّرة، اختَر الخيار 1 (نسخ ملف jar المصدر فقط إذا كان الإصدار أكبر أو مطابقًا لملف jar المستهدَف بعد إعادة تسمية ملف jar المستهدَف).

الخطوة 2: ضبط Google Cloud Search

لكي يتمكّن المكوّن الإضافي للفهرسة من الاتصال بخادم Norconex HTTP Collector وفهرسة المحتوى ذي الصلة، يجب إنشاء ملف إعدادات Cloud Search في directory Norconex حيث تم تثبيت Norconex HTTP Collector. تنصح Google بأن تسمي ملف إعدادات Cloud Search باسم sdk-configuration.properties.

يجب أن يحتوي ملف الإعدادات هذا على أزواج مفتاح/قيمة تحدّد مَعلمة. يجب أن يحدِّد ملف الإعداد على الأقل المَعلمات التالية التي هي ضرورية للوصول إلى مصدر بيانات Cloud Search.

الإعدادات المَعلمة
معرّف مصدر البيانات api.sourceId = 1234567890abcdef
مطلوبة. رقم تعريف مصدر Cloud Search الذي أعدّه مشرف Google Workspace
حساب الخدمة api.serviceAccountPrivateKeyFile = ./PrivateKey.json
مطلوبة. ملف مفتاح حساب خدمة Cloud Search الذي أنشأه مشرف Google Workspace لإتاحة استخدام المكوّن الإضافي للفهرسة

يعرض المثال التالي sdk-configuration.propertiesملفًا.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

يمكن أن يحتوي ملف الضبط أيضًا على مَعلمات ضبط تقدّمها Google. يمكن أن تؤثّر هذه المَعلمات في كيفية دفع هذا المكوّن الإضافي للبيانات إلى Google Cloud Search API. على سبيل المثال، تحدِّد مجموعة المَعلمات batch.* طريقة دمج المُوصِّل للطلبات.

في حال عدم تحديد مَعلمة في ملف الإعدادات، يتم استخدام القيمة التلقائية، إذا كانت متاحة. للحصول على أوصاف تفصيلية لكل مَعلمة، اطّلِع على مَعلمات الموصّل المقدَّمة من Google.

يمكنك ضبط المكوّن الإضافي لبرنامج الفهرسة لملء البيانات الوصفية والبيانات المنظَّمة للمحتوى الذي تتم فهرسته. يمكن استخراج القيم التي سيتمّ ملؤها لحقول البيانات الوصفية والبيانات المنظَّمة من علامات HTML في محتوى HTML الذي تتم فهرسته، أو يمكن تحديد القيم التلقائية في ملف الضبط.

الإعداد المعلَمة
العنوان itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
بشكلٍ تلقائي، يستخدم المكوّن الإضافي HTML title كعنوان للمستند الذي تتم فهرسته. في حال عدم توفّر عنوان، يمكنك الرجوع إلىسمة البيانات الوصفية التي تحتوي على القيمة المقابلة لعنوان المستند أو ضبط قيمة تلقائية.
الطابع الزمني للإنشاء itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
سمة البيانات الوصفية التي تحتوي على قيمة الطابع الزمني لإنشاء المستند.
وقت آخر تعديل itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
سمة البيانات الوصفية التي تحتوي على قيمة الطابع الزمني لآخر تعديل للمستند.
لغة المستند itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
لغة محتوى المستندات التي تتم فهرستها.
نوع عنصر المخطّط itemMetadata.objectType=movie
نوع العنصر المستخدَم في الموقع الإلكتروني، كما هو محدّد في تعريفات عناصر مخطّط مصدر البيانات. لن يُفهرس الموصّل أي بيانات منظَّمة في حال عدم تحديد هذا الموقع.

ملاحظة: تشير خاصية الإعداد هذه إلى قيمة بدلاً من سمة بيانات وصفية، ولا يُسمح باستخدام اللاحقتَين .field و.defaultValue.

تنسيقات التاريخ والوقت

تحدّد تنسيقات التاريخ والوقت التنسيقات المتوقّعة في سمات البيانات الوصفية. إذا لم يحتوي ملف الإعدادات على هذه المَعلمة، يتم استخدام القيم التلقائية. يعرض الجدول التالي هذه المَعلمة.

الإعداد

المعلَمة

أنماط إضافية للتاريخ والوقت

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

قائمة مفصولة بفواصل منقوطة بأنماط java.time.format.DateTimeFormatter الإضافية تُستخدَم الأنماط عند تحليل قيم السلاسل لأي حقول تاريخ أو تاريخ ووقت في البيانات الوصفية أو المخطّط. القيمة التلقائية هي قائمة فارغة، ولكن تنسيقَي RFC 3339 وRFC 1123 متاحان دائمًا.

الخطوة 3: ضبط Norconex HTTP Collector

يتضمّن أرشيف zip‏ norconex-committer-google-cloud-search-{version}.zipملف إعداد minimum-config.xml.

تنصح Google ببدء عملية الإعداد من خلال نسخ نموذج الملف:

  1. انتقِل إلى دليل Norconex HTTP Collector:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. انسخ ملف الضبط:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. عدِّل الملف الذي تم إنشاؤه حديثًا (gcs-crawl-config.xml في هذا المثال) وأضِف أو استبدِل عقد <committer> و<tagger> الحالية كما هو موضّح في الجدول التالي.
الإعدادات المَعلمة
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

مطلوبة. لتفعيل المكوّن الإضافي، يجب إضافة عقدة <committer> كعنصر ثانوي لعقدة <httpcollector> الجذر.
<UploadFormat> <uploadFormat>raw</uploadFormat>
اختياري. التنسيق الذي يُرسِل به المكوّن الإضافي للفهرسة محتوى المستند إلى واجهة برمجة التطبيقات الخاصة بفهرسة Google Cloud Search. في ما يلي القيم الصالحة:
  • raw: تُرسِل المكوّنة الإضافية لفهرسة المحتوى محتوى المستند الأصلي غير المحوَّل.
  • text: يُرسِل المكوّن الإضافي لفهرسة المحتوى المحتوى النصي المستخرَج.

القيمة التلقائية هي raw.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
مطلوبة إذا كانت قيمة <UploadFormat> هي raw. في هذه الحالة، يحتاج المكوّن الإضافي للفهرسة إلى توفّر حقل المحتوى الثنائي للمستند.

يجب إضافة عقدة BinaryContentTagger <tagger> كعنصر فرعي لعقدة <importer> / <preParseHandlers>.

يوضّح المثال التالي تعديل المطلوب gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

الخطوة 4: ضبط الزحف إلى الويب

قبل بدء عملية الزحف إلى الويب، عليك ضبط عملية الزحف بحيث لا تشمل سوى المعلومات التي تريد مؤسستك إتاحتها في نتائج البحث. إنّ أهمّ الإعدادات لميزة الزحف إلى الويب هي جزء من <crawler> العقد ويمكن أن تتضمّن ما يلي:

  • عناوين URL للبدء
  • الحد الأقصى لعمق الزحف
  • عدد سلاسل المحادثات

يمكنك تغيير قيم الإعدادات هذه وفقًا لاحتياجاتك. للحصول على معلومات أكثر تفصيلاً حول إعداد الزحف إلى الويب، بالإضافة إلى قائمة كاملة بالمَعلمات المتاحة لضبط الإعدادات، يُرجى الاطّلاع على صفحة الإعداد لـ "أداة جمع بيانات HTTP".

الخطوة 5: بدء الزحف إلى الويب وتحميل المحتوى

بعد تثبيت المكوّن الإضافي لفهرسة المحتوى وإعداده، يمكنك تشغيله بنفسه في الوضع المحلي.

يفترض المثال التالي أنّ المكونات المطلوبة متوفّرة في الدليل المحلي على نظام Linux. نفِّذ الأمر التالي:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

مراقبة الزاحف باستخدام JEF Monitor

أداة Norconex JEF (إطار عمل تنفيذ المهام) هي أداة رسومية لمراقبة مستوى تقدّم عمليات Norconex Web Crawler (جامع HTTP) ومهام التنقّل على الويب. للحصول على دليل تعليمي كامل حول كيفية إعداد هذه الأداة، يُرجى الانتقال إلى مقالة مراقبة مستوى تقدّم الزاحف باستخدام JEF Monitor.