نشر المكوّن الإضافي لأداة Norconex HTTP Collector

هذا الدليل مخصَّص لمشرفي الإضافة الخاصة بأداة الفهرسة في Google Cloud Search Norconex HTTP Collector، أي أي شخص مسؤول عن تنزيل المكوّن الإضافي لأداة الفهرسة ونشره وإعداده وصيانته. يفترض الدليل أنك على دراية بأنظمة تشغيل Linux وأساسيات الزحف على الويب وXML وNorconex HTTP Collector.

يتضمّن هذا الدليل تعليمات لتنفيذ المهام الرئيسية ذات الصلة بنشر المكوّن الإضافي لأداة الفهرسة:

  • تنزيل برنامج المكوّن الإضافي لأداة الفهرسة
  • إعداد Google Cloud Search
  • تهيئة Norconex HTTP Collector والزحف على الويب
  • بدء زحف الويب وتحميل المحتوى

لا تظهر في هذا الدليل معلومات حول المهام التي على مشرف Google Workspace تنفيذها لربط Google Cloud Search بالمكوّن الإضافي لأداة فهرسة Norconex HTTP Collector. وللحصول على معلومات عن هذه المهام، يُرجى الاطّلاع على إدارة مصادر البيانات التابعة لجهات خارجية.

نظرة عامة على المكوّن الإضافي لأداة فهرسة Cloud Search Norconex HTTP Collector

يمكن لخدمة Cloud Search تلقائيًا استكشاف المحتوى من منتجات Google Workspace وفهرستها وعرضه، مثل "مستندات Google" وGmail. يمكنك توسيع نطاق وصول Google Cloud Search ليشمل عرض محتوى الويب للمستخدمين من خلال نشر المكوّن الإضافي لأداة الفهرسة Norconex HTTP Collector، وهو برنامج مفتوح المصدر تابع للمؤسسات.

ملفات خصائص الضبط

لتفعيل المكوّن الإضافي لأداة الفهرسة من إجراء عمليات زحف على الويب وتحميل المحتوى إلى واجهة برمجة تطبيقات الفهرسة، بصفتك مشرف المكوّن الإضافي لأداة الفهرسة، عليك تقديم معلومات محدّدة خلال خطوات الإعداد الموضّحة في هذا المستند في خطوات النشر.

لاستخدام المكوّن الإضافي لأداة الفهرسة، يجب ضبط الخصائص في ملفَّي إعداد:

  • {gcs-crawl-config.xml}-- يحتوي على إعدادات Norconex HTTP Collector.
  • sdk-configuration.properties: يحتوي على إعدادات Google Cloud Search.

تفعِّل المواقع في كل ملف المكوّن الإضافي لأداة فهرسة Google Cloud Search وNorconex HTTP Collector من التواصل مع بعضهما بعضًا.

الزحف إلى الويب وتحميل المحتوى

بعد ملء ملفات الضبط، تتوفّر لك الإعدادات اللازمة لبدء الزحف على الويب. يزحف Norconex HTTP Collector إلى الويب ويكتشف محتوى المستندات المتعلق بالإعداد ويحمّل النسخ الثنائية (أو النصية) الأصلية لمحتوى المستند إلى واجهة برمجة تطبيقات الفهرسة في Cloud Search حيث تتم فهرسته وعرضه للمستخدمين في النهاية.

نظام التشغيل المتوافق

يجب تثبيت المكوّن الإضافي لأداة فهرسة Google Cloud Search Norconex HTTP Collector على نظام التشغيل Linux.

إصدار Norconex HTTP Collector المتوافق

يتوافق المكوّن الإضافي لأداة فهرسة Google Cloud Search Norconex HTTP Collector مع الإصدار 2.8.0.

دعم ACL

يتيح المكوّن الإضافي لأداة الفهرسة التحكّم في الوصول إلى المستندات في نطاق Google Workspace باستخدام قوائم التحكّم بالوصول (ACLs).

في حال تفعيل قوائم التحكم بالوصول التلقائية في إعدادات المكوّن الإضافي لخدمة Google Cloud Search (تم ضبط defaultAcl.mode على خيار بخلاف none وضبطه باستخدام defaultAcl.*)، سيحاول المكوّن الإضافي لأداة الفهرسة أولاً إنشاء قائمة تحكُّم تلقائية وتطبيقها.

في حال لم يتم تفعيل قوائم التحكم بالوصول التلقائية، يعود المكوّن الإضافي لمنح إذن القراءة لنطاق Google Workspace بأكمله.

للحصول على أوصاف تفصيلية لمَعلمات ضبط قائمة التحكم بالوصول، يُرجى الاطّلاع على مَعلمات الموصِّلات التي توفّرها Google.

المتطلبات الأساسية

قبل نشر المكوّن الإضافي لأداة الفهرسة، تأكَّد من توفُّر المكوّنات المطلوبة التالية:

  • تم تثبيت Java JRE 1.8 على كمبيوتر يشغل المكون الإضافي لأداة الفهرسة
  • معلومات Google Workspace المطلوبة لإنشاء العلاقات بين Cloud Search وNorconex HTTP Collector:

    يمكن عادةً لمشرف Google Workspace للنطاق توفير بيانات الاعتماد هذه نيابةً عنك.

خطوات النشر

لنشر المكوّن الإضافي لأداة الفهرسة، اتّبِع الخطوات التالية:

  1. تثبيت Norconex HTTP Collector وبرنامج المكوِّن الإضافي لأداة الفهرسة
  2. ضبط Google Cloud Search
  3. ضبط أداة Norconex HTTP Collector
  4. ضبط الزحف إلى الويب
  5. بدء زحف الويب وتحميل المحتوى

الخطوة 1: تثبيت Norconex HTTP Collector وبرنامج المكوّن الإضافي لأداة الفهرسة

  1. يمكنك تنزيل برنامج Norconex الفوري من هذه الصفحة.
  2. يُرجى فك ضغط البرنامج الذي تم تنزيله إلى المجلد ~/norconex/.
  3. استنسِخ المكوّن الإضافي المُنفّذ من GitHub. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git، ثم cd norconex-committer-plugin
  4. تحقق من الإصدار المطلوب من المكوّن الإضافي المُحوِّل وأنشئ ملف ZIP: git checkout tags/v1-0.0.3 وmvn package (لتخطي الاختبارات عند إنشاء الموصل، استخدم mvn package -DskipTests.)
  5. cd target
  6. انسخ ملف jar الذي تم إنشاؤه من خلال المكوّن الإضافي في دليل Northconex lib. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. استخرِج ملف ZIP الذي أنشأته للتو، ثم فك ضغط الملف: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip.
  8. نفِّذ النص البرمجي للتثبيت لنسخ ملف .jar الخاص بالمكوّن الإضافي وجميع المكتبات المطلوبة في دليل أداة الجمع http:
    1. التغيير إلى المكوّن الإضافي المساعد المُستخرَج الذي تم فك ضغطه أعلاه: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. نفِّذ $ sh install.sh وقدِّم المسار الكامل إلى norconex/norconex-collector-http-{version}/lib كدليل مستهدَف عندما يُطلب منك ذلك.
    3. إذا تم العثور على ملفات Jar مكرّرة، حدِّد الخيار 1 (نسخ المصدر Jar فقط إذا كان إصدار Jar المستهدف أكبر أو مطابقًا له بعد إعادة تسمية الهدف Jar).

الخطوة 2: ضبط Google Cloud Search

لربط المكوّن الإضافي لأداة الفهرسة بأداة Norconex HTTP Collector وفهرسة المحتوى ذي الصلة، عليك إنشاء ملف إعداد Cloud Search في دليل Norconex الذي تم تثبيت أداة Norconex HTTP Collector فيه. تنصح Google بتسمية ملف إعداد Cloud Search sdk-configuration.properties.

يجب أن يحتوي ملف الإعداد هذا على أزواج المفتاح/القيمة التي تُحدِّد مَعلمة. يجب أن يحدد ملف الإعداد المَعلمات التالية على الأقل، وهي ضرورية للوصول إلى مصدر بيانات Cloud Search.

الإعدادات المَعلمة
رقم تعريف مصدر البيانات api.sourceId = 1234567890abcdef
مطلوبة. رقم تعريف مصدر Cloud Search الذي أعدّه مشرف Google Workspace.
حساب الخدمة api.serviceAccountPrivateKeyFile = ./PrivateKey.json
مطلوبة. ملف مفتاح حساب خدمة Cloud Search الذي أنشأه مشرف Google Workspace لتسهيل استخدام المكوِّن الإضافي لأداة الفهرسة.

يعرض المثال التالي ملف sdk-configuration.properties.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

ويمكن أن يحتوي ملف الإعداد أيضًا على مَعلمات الإعداد التي توفّرها Google. يمكن أن تؤثر هذه المَعلمات في كيفية إرسال هذا المكوّن الإضافي للبيانات إلى واجهة Google Cloud Search API. على سبيل المثال، تُحدِّد مجموعة المَعلمات batch.* كيفية دمج الموصِّل للطلبات.

إذا لم تحدد معلَمة في ملف الإعداد، سيتم استخدام القيمة التلقائية، إن وُجدت. للحصول على أوصاف تفصيلية لكل مَعلمة، اطّلِع على مَعلمات الموصِّلات التي توفّرها Google.

يمكنك ضبط المكوّن الإضافي لأداة الفهرسة لتعبئة البيانات الوصفية والبيانات المنظَّمة للمحتوى الذي تتم فهرسته. يمكن استخراج القيم المطلوب تعبئتها لحقول البيانات الوصفية والبيانات المنظَّمة من العلامات الوصفية في محتوى HTML الذي تتم فهرسته أو تحديد القيم التلقائية في ملف الإعداد.

الإعداد المعلَمة
العنوان itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
يستخدم المكوّن الإضافي تلقائيًا HTML title كعنوان للمستند الذي تتم فهرسته. في حالة عدم توفر العنوان، يمكنك إما الرجوع إلى سمة البيانات الوصفية التي تحتوي على القيمة المقابلة لعنوان المستند أو تعيين قيمة افتراضية.
الطابع الزمني الذي تم إنشاؤه itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
سمة البيانات الوصفية التي تحتوي على قيمة الطابع الزمني لإنشاء المستند.
وقت آخر تعديل itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
سمة البيانات الوصفية التي تحتوي على قيمة الطابع الزمني لآخر تعديل للمستند.
لغة المستند itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
لغة المحتوى للمستندات التي تتم فهرستها.
نوع كائن المخطط itemMetadata.objectType=movie
نوع العنصر الذي يستخدمه الموقع الإلكتروني، كما هو محدّد في تعريفات عناصر مخطط مصدر البيانات. لن يفهرس الموصِّل أي بيانات منظَّمة إذا لم يتم تحديد هذه السمة.

ملاحظة: تشير خاصية الضبط هذه إلى قيمة بدلاً من سمة بيانات وصفية، ولا يمكن استخدام اللاحقتَين .field و.defaultValue.

تنسيقات التاريخ والوقت

تحدد تنسيقات التاريخ والوقت التنسيقات المتوقعة في سمات البيانات الوصفية. إذا كان ملف الإعداد لا يحتوي على هذه المعلمة، سيتم استخدام القيم التلقائية. يعرض الجدول التالي هذه المَعلمة.

الإعداد

المعلَمة

أنماط إضافية للتاريخ والوقت

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

قائمة مفصولة بفواصل منقوطة لأنماط java.time.format.DateTimeFormatter الإضافية. يتم استخدام الأنماط عند تحليل قيم السلسلة لأي حقول تاريخ أو وقت في البيانات الوصفية أو المخطط. القيمة الافتراضية هي قائمة فارغة، ولكن يتم دعم تنسيقي RFC 3339 وRFC 1123 دائمًا.

الخطوة 3: ضبط أداة Norconex HTTP Collector

يشتمل أرشيف zip norconex-committer-google-cloud-search-{version}.zipعلى نموذج ملف إعداد، minimum-config.xml.

تنصح Google ببدء عملية الضبط من خلال نسخ نموذج الملف:

  1. التغيير إلى دليل Norconex HTTP Collector:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. انسخ ملف الإعداد:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. عدِّل الملف الذي تم إنشاؤه حديثًا (في هذا المثال، gcs-crawl-config.xml) وأضِف عُقد <committer> و<tagger> الحالية أو استبدلها كما هو موضّح في الجدول التالي.
الإعدادات المَعلمة
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

مطلوبة. لتفعيل المكوّن الإضافي، يجب إضافة عقدة <committer> كعنصر ثانوي لعقدة <httpcollector> الجذر.
<UploadFormat> <uploadFormat>raw</uploadFormat>
اختيارية التنسيق الذي يوجّه به المكوّن الإضافي لأداة الفهرسة محتوى المستند إلى واجهة برمجة تطبيقات أداة الفهرسة في Google Cloud Search. في ما يلي القيم الصالحة:
  • raw: يعمل المكوّن الإضافي لأداة الفهرسة على إرسال محتوى المستند الأصلي الذي لم يتم تحويله.
  • text: يعمل المكوّن الإضافي لأداة الفهرسة على إرسال المحتوى النصي المُستخرَج.

القيمة التلقائية هي raw.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
مطلوبة إذا كانت قيمة <UploadFormat> هي raw. في هذه الحالة، يحتاج المكوّن الإضافي لأداة الفهرسة إلى إتاحة حقل المحتوى الثنائي للمستند.

يجب إضافة العقدة BinaryContentTagger <tagger> كعنصر ثانوي للعقدة <importer> / <preParseHandlers>.

يوضح المثال التالي التعديل المطلوب على gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

الخطوة 4: ضبط زحف الويب

قبل بدء عملية زحف على الويب، يجب ضبط الزحف ليتضمّن فقط المعلومات التي تريد مؤسستك إتاحتها في نتائج البحث. تُعدّ أهم إعدادات زحف الويب جزءًا من عُقد <crawler> ويمكن أن تتضمّن ما يلي:

  • عناوين URL للبدء
  • الحد الأقصى لعمق الزحف
  • عدد السلاسل

غيِّر قيم الضبط هذه وفقًا لاحتياجاتك. للحصول على معلومات أكثر تفصيلاً حول إعداد زحف الويب، فضلاً عن قائمة كاملة بمعلمات الضبط المتاحة، راجع صفحة ضبط HTTP Collector.

الخطوة 5: بدء زحف الويب وتحميل المحتوى

بعد تثبيت المكوّن الإضافي لأداة الفهرسة وإعداده، يمكنك تشغيله بأنفسه في الوضع المحلي.

يفترض المثال التالي وجود المكونات المطلوبة في الدليل المحلي على نظام Linux. نفِّذ الأمر التالي:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

مراقبة الزاحف باستخدام شاشة JEF

أداة Norconex JEF (إطار تنفيذ المهام) هي أداة رسومية لمراقبة تقدم عمليات ومهام برنامج زحف الويب Norconex (مجمّع HTTP) . للاطّلاع على برنامج تعليمي كامل حول كيفية إعداد هذه الأداة، يمكنك الانتقال إلى مراقبة تقدّم الزاحف باستخدام أداة JEF Monitor.