פריסת פלאגין של Norconex HTTP Collector Indexer

המדריך הזה מיועד לאדמינים של הפלאגין לאינדקס Norconex HTTP Collector ב-Google Cloud Search, כלומר לכל מי שאחראי על ההורדה, הפריסה, ההגדרה והתחזוק של הפלאגין לאינדקס. המדריך מתבסס על ההנחה שאתם מכירים את מערכות ההפעלה של Linux, את העקרונות הבסיסיים של סריקה באינטרנט, את ה-XML ואת Norconex HTTP Collector.

המדריך הזה כולל הוראות לביצוע משימות מרכזיות שקשורות לפריסה של הפלאגין של ה-Indexer:

  • הורדת התוכנה של הפלאגין למאגר
  • הגדרת Google Cloud Search
  • הגדרת Norconex HTTP Collector וסריקה של האינטרנט
  • התחלת הסריקה של האינטרנט והעלאת תוכן

המידע על המשימות שהאדמין של Google Workspace צריך לבצע כדי למפות את Google Cloud Search לתוסף ה-indexer של Norconex HTTP Collector לא מופיע במדריך הזה. מידע על המשימות האלה זמין במאמר ניהול מקורות נתונים של צד שלישי.

סקירה כללית על הפלאגין של Cloud Search Norconex HTTP Collector לאינדקס

כברירת מחדל, חיפוש בענן יכול לזהות תוכן ממוצרים של Google Workspace, כמו Google Docs ו-Gmail, להוסיף אותו לאינדקס ולהציג אותו. כדי להרחיב את פוטנציאל החשיפה של Google Cloud Search כך שיכלול הצגת תוכן אינטרנט למשתמשים, אפשר לפרוס את הפלאגין של האינדקס של Norconex HTTP Collector, סורק אינטרנט ארגונומי בקוד פתוח.

קבצים של מאפייני תצורה

כדי לאפשר לתוסף ה-Indexer לבצע סריקות אינטרנט ולהעלות תוכן ל-Indexing API, אתם, כאדמינים של תוסף ה-Indexer, צריכים לספק מידע ספציפי במהלך שלבי ההגדרה שמפורטים במסמך הזה בקטע שלבי הפריסה.

כדי להשתמש בפלאגין של ה-indexer, צריך להגדיר מאפיינים בשני קובצי תצורה:

  • {gcs-crawl-config.xml} – מכיל הגדרות ל-Norconex HTTP Collector.
  • sdk-configuration.properties – מכיל הגדרות ל-Google Cloud Search.

המאפיינים בכל קובץ מאפשרים לפלאגין של ה-indexer של Google Cloud Search ול-Norconex HTTP Collector לתקשר ביניהם.

סריקה של האינטרנט והעלאת תוכן

אחרי שתמלאו את קובצי התצורה, תוכלו להשתמש בהגדרות הנדרשות כדי להתחיל את הסריקה של האינטרנט. Norconex HTTP Collector סורק את האינטרנט, מגלה תוכן של מסמכים שקשור להגדרות שלו ומעלה גרסאות בינאריות (או טקסט) מקוריות של תוכן המסמכים ל-Cloud Search indexing API, שם הוא מתווסף לאינדקס ובסופו של דבר מוצג למשתמשים.

מערכת הפעלה נתמכת

צריך להתקין את הפלאגין של האינדיקציה של Norconex HTTP Collector ב-Google Cloud Search ב-Linux.

הגרסה הנתמכת של Norconex HTTP Collector

הפלאגין של ה-Norconex HTTP Collector לאינדקס של Google Cloud Search תומך בגרסה 2.8.0.

תמיכה ב-ACL

הפלאגין של ה-indexer תומך בשליטה בגישה למסמכים בדומיין של Google Workspace באמצעות רשימות של בקרת גישה (ACL).

אם רשימות ACL שמוגדרות כברירת מחדל מופעלות בהגדרות הפלאגין של חיפוש Google Cloud (defaultAcl.mode מוגדר כערך שאינו none ומוגדר באמצעות defaultAcl.*), הפלאגין של ה-indexer מנסה קודם ליצור רשימת ACL שמוגדרת כברירת מחדל ולהחיל אותה.

אם רשימות ה-ACL שמוגדרות כברירת מחדל לא מופעלות, הפלאגין יעניק הרשאת קריאה לכל הדומיין של Google Workspace.

לתיאור מפורט של פרמטרים של הגדרת ACL, ראו פרמטרים של מחברים שסופקו על ידי Google.

דרישות מוקדמות

לפני שתפרסו את הפלאגין של ה-Indexer, עליכם לוודא שיש לכם את הרכיבים הנדרשים הבאים:

  • Java JRE 1.8 מותקנת במחשב שבו פועל הפלאגין של ה-indexer
  • המידע הנדרש מ-Google Workspace כדי ליצור קשרים בין Cloud Search לבין Norconex HTTP Collector:

    בדרך כלל, האדמין ב-Google Workspace של הדומיין יכול לספק לכם את פרטי הכניסה האלה.

שלבי הפריסה

כדי לפרוס את הפלאגין של ה-indexer:

  1. התקנה של Norconex HTTP Collector ותוכנת הפלאגין של ה-indexer
  2. הגדרת Google Cloud Search
  3. הגדרת Norconex HTTP Collector
  4. הגדרת סריקה של אתרים
  5. התחלת סריקה של האינטרנט והעלאת תוכן

שלב 1: מתקינים את Norconex HTTP Collector ואת תוכנת הפלאגין של ה-indexer

  1. מורידים את תוכנת ה-commiter של Norconex מהדף הזה.
  2. מבטלים את הדחיסה של התוכנה שהורדתם בתיקייה ~/norconex/
  3. משכפלים את הפלאגין של commiter מ-GitHub. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git ואז cd norconex-committer-plugin
  4. מעדכנים את הגרסה הרצויה של הפלאגין ל-commiter ויוצרים את קובץ ה-ZIP: git checkout tags/v1-0.0.3 ו-mvn package (כדי לדלג על הבדיקות בזמן היצירה של המחבר, משתמשים ב-mvn package -DskipTests).
  5. cd target
  6. מעתיקים את קובץ ה-jar של הפלאגין שנוצר לתיקיית ה-lib של norconex. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. מחלצים את קובץ ה-ZIP שיצרתם ומבטלים את הדחיסה שלו: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. מריצים את סקריפט ההתקנה כדי להעתיק את קובץ ה-jar של הפלאגין ואת כל הספריות הנדרשות לספרייה של האוסף של הבקשות ב-HTTP:
    1. עוברים לפלאגין של ה-commiter שחולץ ופורק למעלה: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. מריצים את $ sh install.sh ומספקים את הנתיב המלא ל-norconex/norconex-collector-http-{version}/lib בתור ספריית היעד כשמתבקשים לעשות זאת.
    3. אם יימצאו קובצי jar כפולים, בוחרים באפשרות 1 (Copy source Jar only if greater or same version as target Jar after renaming target Jar).

שלב 2: הגדרת Google Cloud Search

כדי שפלאגין הוספת התוכן לאינדקס יוכל להתחבר ל-Norconex HTTP Collector ולהוסיף לאינדקס את התוכן הרלוונטי, צריך ליצור את קובץ התצורה של Cloud Search בתיקייה Norconex שבה מותקן Norconex HTTP Collector. Google ממליצה לתת לקובץ התצורה של Cloud Search את השם sdk-configuration.properties.

קובץ התצורה הזה חייב להכיל צמדי מפתח/ערך שמגדירים פרמטר. קובץ התצורה חייב לציין לפחות את הפרמטרים הבאים, שנדרשים כדי לגשת למקור הנתונים של Cloud Search.

הגדרה פרמטר
מזהה מקור הנתונים api.sourceId = 1234567890abcdef
חובה. מזהה המקור ב-Cloud Search שהוגדר על ידי האדמין ב-Google Workspace.
חשבון שירות api.serviceAccountPrivateKeyFile = ./PrivateKey.json
חובה. קובץ המפתח של חשבון השירות של Cloud Search שנוצר על ידי האדמין של Google Workspace לצורך גישה של הפלאגין למאגר.

בדוגמה הבאה מוצג קובץ sdk-configuration.properties.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

קובץ התצורה יכול להכיל גם פרמטרים של הגדרה שסופקו על ידי Google. הפרמטרים האלה יכולים להשפיע על האופן שבו הפלאגין הזה מעביר נתונים ל-Google Cloud Search API. לדוגמה, קבוצת הפרמטרים batch.* מזהה את האופן שבו המחבר משללב בקשות.

אם לא מגדירים פרמטר בקובץ התצורה, המערכת משתמשת בערך ברירת המחדל, אם הוא זמין. תיאורים מפורטים של כל פרמטר זמינים במאמר פרמטרים של מחברים שסופקו על ידי Google.

אפשר להגדיר את הפלאגין של הכלי להוספה לאינדקס כך שיאכלס מטא-נתונים ונתונים מובְנים של התוכן שנוסף לאינדקס. אפשר לחלץ ערכים שיאוכלסו בשדות של מטא-נתונים ונתונים מובְנים מתגי מטא בתוכן HTML שנוסף לאינדקס, או לציין ערכי ברירת מחדל בקובץ התצורה.

הגדרה פרמטר
כותרת itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
כברירת מחדל, הפלאגין משתמש ב-HTML title בתור שם המסמך שנוסף לאינדקס. אם הכותרת חסרה, אפשר להפנות למאפיין המטא-נתונים שמכיל את הערך התואם לכותרת המסמך או להגדיר ערך ברירת מחדל.
חותמת הזמן של היצירה itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
מאפיין המטא-נתונים שמכיל את הערך של חותמת הזמן של יצירת המסמך.
זמן השינוי האחרון itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
מאפיין המטא-נתונים שמכיל את הערך של חותמת הזמן של השינוי האחרון במסמך.
שפת המסמך itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
שפת התוכן של המסמכים שנוספו לאינדקס.
סוג אובייקט של סכימה itemMetadata.objectType=movie
סוג האובייקט שבו האתר משתמש, כפי שמוגדר ב הגדרות של אובייקטים בסכמה של מקור הנתונים. אם לא מציינים את המאפיין הזה, המחבר לא יאנדקס נתונים מובְנים.

הערה: מאפיין התצורה הזה מפנה לערך ולא למאפיין מטא-נתונים, והסיומת .field והסיומת .defaultValue לא נתמכות.

פורמטים של תאריך ושעה

פורמטים של תאריך ושעה מציינים את הפורמטים הצפויים במאפייני המטא-נתונים. אם קובץ התצורה לא מכיל את הפרמטר הזה, המערכת תשתמש בערכי ברירת המחדל. הפרמטר הזה מוצג בטבלה הבאה.

הגדרה

פרמטר

דפוסי תאריך ושעה נוספים

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

רשימה של תבניות נוספות של java.time.format.DateTimeFormatter, מופרדות בנקודה-פסיק. הדפוסים משמשים לניתוח ערכים של מחרוזות בשדות תאריך או תאריך-שעה במטא-נתונים או בסכימה. ערך ברירת המחדל הוא רשימה ריקה, אבל תמיד יש תמיכה בפורמטים RFC 3339 ו-RFC 1123.

שלב 3: הגדרת Norconex HTTP Collector

ארכיון ה-ZIP norconex-committer-google-cloud-search-{version}.zipכולל קובץ תצורה לדוגמה, minimum-config.xml.

Google ממליצה להתחיל את ההגדרה על ידי העתקת הקובץ לדוגמה:

  1. עוברים לספרייה של Norconex HTTP Collector:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. מעתיקים את קובץ התצורה:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. עורכים את הקובץ החדש שנוצר (בדוגמאות האלה, gcs-crawl-config.xml) ומוסיפים או מחליפים צמתים קיימים מסוג <committer> ו-<tagger>, כפי שמתואר בטבלה הבאה.
הגדרה פרמטר
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

חובה. כדי להפעיל את הפלאגין, צריך להוסיף צומת <committer> כצאצא של צומת השורש <httpcollector>.
<UploadFormat> <uploadFormat>raw</uploadFormat>
אופציונלי. הפורמט שבו הפלאגין של הכלי להוספה לאינדקס דוחף את תוכן המסמך ל-Google Cloud Search indexer API. הערכים החוקיים הם:
  • raw: הפלאגין של ה-indexer דוחף תוכן מסמך מקורי שלא הומר.
  • text: הפלאגין של ה-indexer דוחף תוכן טקסטואלי שחולץ.

הערך שמוגדר כברירת מחדל הוא raw.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
חובה אם הערך של <UploadFormat> הוא raw. במקרה כזה, כדי שאפשר יהיה להשתמש בפלאגין של ה-Indexer, שדה התוכן הבינארי של המסמך צריך להיות זמין.

צריך להוסיף את הצומת BinaryContentTagger <tagger> כרכיב צאצא של הצומת <importer> / <preParseHandlers>.

הדוגמה הבאה מראה את השינוי הנדרש ב- gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

שלב 4: הגדרת סריקה של האינטרנט

לפני שמתחילים סריקה של האינטרנט, צריך להגדיר את הסריקה כך שתכלול רק מידע שהארגון רוצה להציג בתוצאות החיפוש. ההגדרות החשובות ביותר לסריקה של האינטרנט הן חלק מהצומתים של <crawler>, ויכולות לכלול:

  • כתובות URL להתחלה
  • העומק המקסימלי של הסריקה
  • מספר השרשור

משנים את ערכי ההגדרה האלה בהתאם לצרכים שלכם. מידע מפורט יותר על הגדרת סריקה של האינטרנט, וגם רשימה מלאה של פרמטרים זמינים להגדרה, זמינים בדף הגדרה של HTTP Collector.

שלב 5: מתחילים סריקה של האינטרנט והעלאת תוכן

אחרי שמתקינים ומגדירים את הפלאגין של ה-indexer, אפשר להריץ אותו בעצמו במצב מקומי.

בדוגמה הבאה נניח שהרכיבים הנדרשים נמצאים בספרייה המקומית במערכת Linux. מריצים את הפקודה הבאה:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

מעקב אחר הסריקה באמצעות JEF Monitor

Norconex JEF (Job Execution Framework) Monitor הוא כלי גרפי למעקב אחרי התקדמות התהליכים והמשימות של Norconex Web Crawler‏ (HTTP Collector). במדריך המלא בנושא הגדרת הכלי הזה מוסבר איך לעקוב אחרי ההתקדמות של הסריקה באמצעות JEF Monitor.