פריסת פלאגין של Norconex HTTP Collector Indexer

המדריך הזה מיועד לאדמינים של תוסף האינדקס של Norconex HTTP Collector ל-Google Cloud Search, כלומר לכל מי שאחראי על הורדה, פריסה, הגדרה ותחזוקה של תוסף האינדקס. המדריך מתבסס על ההנחה שאתם מכירים את מערכות ההפעלה של Linux, את היסודות של סריקת אתרים, XML ו-Norconex HTTP Collector.

במדריך הזה מפורטות הוראות לביצוע משימות מרכזיות שקשורות לפריסת תוסף של כלי ליצירת אינדקסים:

הורדת תוכנת הפלאגין של כלי יצירת האינדקס
הגדרת Google Cloud Search
הגדרת Norconex HTTP Collector וסריקת אתרים
התחלת הסריקה של האינטרנט והעלאת התוכן

המדריך הזה לא כולל מידע על המשימות שמנהל Google Workspace צריך לבצע כדי למפות את Google Cloud Search לתוסף Norconex HTTP Collector indexer. מידע על המשימות האלה זמין במאמר בנושא ניהול מקורות נתונים של צד שלישי.

סקירה כללית על הפלאגין של Cloud Search Norconex HTTP Collector indexer

כברירת מחדל, Cloud Search יכול לגלות, ליצור אינדקס ולהציג תוכן ממוצרי Google Workspace, כמו Google Docs ו-Gmail. כדי להרחיב את טווח ההגעה של Google Cloud Search כך שיכלול הצגת תוכן אינטרנט למשתמשים, אפשר לפרוס את תוסף יצירת האינדקס עבור Norconex HTTP Collector, סורק אינטרנט ארגוני בקוד פתוח.

קבצים של מאפייני הגדרה

כדי לאפשר לפלאגין של הכלי ליצירת אינדקסים לבצע סריקות באינטרנט ולהעלות תוכן ל-Indexing API, אתם, כאדמינים של הפלאגין, צריכים לספק מידע ספציפי במהלך שלבי ההגדרה שמתוארים במסמך הזה בקטע שלבי הפריסה.

כדי להשתמש בתוסף ליצירת אינדקס, צריך להגדיר מאפיינים בשני קובצי תצורה:

‫{gcs-crawl-config.xml}-- מכיל הגדרות של Norconex HTTP Collector.
‫sdk-configuration.properties-- מכיל הגדרות ל-Google Cloud Search.

המאפיינים בכל קובץ מאפשרים לתוסף של Google Cloud Search ליצירת אינדקס ול-Norconex HTTP Collector לתקשר זה עם זה.

סריקת אינטרנט והעלאת תוכן

אחרי שממלאים את קובצי ההגדרות, יש את ההגדרות הדרושות כדי להתחיל בסריקת האינטרנט. הכלי Norconex HTTP Collector סורק את האינטרנט, מאתר תוכן מסמכים שקשור להגדרה שלו ומעלה גרסאות בינאריות (או טקסטואליות) מקוריות של תוכן המסמכים ל-Cloud Search indexing API, שבו הוא עובר אינדוקס ובסופו של דבר מוצג למשתמשים.

מערכת הפעלה נתמכת

צריך להתקין את הפלאגין של Google Cloud Search Norconex HTTP Collector indexer ב-Linux.

גרסה נתמכת של Norconex HTTP Collector

התוסף של Google Cloud Search Norconex HTTP Collector ליצירת אינדקס תומך בגרסה 2.8.0.

תמיכה ב-ACL

התוסף של כלי יצירת האינדקס תומך בשליטה בגישה למסמכים בדומיין Google Workspace באמצעות רשימות של בקרת גישה (ACL).

אם רשימות ACL שמשמשות כברירת מחדל מופעלות בהגדרת הפלאגין Google Cloud Search (defaultAcl.mode מוגדרות לערך שונה מ-none ומוגדרות עם defaultAcl.*), הפלאגין ליצירת אינדקסים מנסה קודם ליצור ולהחיל רשימת ACL שמשמשת כברירת מחדל.

אם רשימות ה-ACL שמשמשות כברירת מחדל לא מופעלות, התוסף יחזור להענקת הרשאת קריאה לכל דומיין Google Workspace.

תיאורים מפורטים של פרמטרים להגדרת ACL זמינים במאמר בנושא פרמטרים של מחברים שסופקו על ידי Google.

דרישות מוקדמות

לפני שמפעילים את תוסף יצירת האינדקס, צריך לוודא שיש לכם את הרכיבים הנדרשים הבאים:

‫Java JRE 1.8 מותקן במחשב שבו פועל פלאגין יצירת האינדקס
מידע מ-Google Workspace שנדרש כדי ליצור קשרים בין Cloud Search לבין Norconex HTTP Collector:
- מפתח פרטי של Google Workspace (שכולל את מזהה חשבון השירות)
- מזהה מקור נתונים של Google Workspace
בדרך כלל, האדמין ב-Google Workspace של הדומיין יכול לספק לכם את פרטי הכניסה האלה.

שלבי הפריסה

כדי לפרוס את פלאגין יצירת האינדקס:

התקנה של Norconex HTTP Collector ותוכנת הפלאגין ליצירת אינדקס
הגדרת Google Cloud Search
הגדרת Norconex HTTP Collector
הגדרת סריקת אתרים
התחלת סריקת אינטרנט והעלאת תוכן

שלב 1: התקנה של Norconex HTTP Collector ותוכנת הפלאגין של indexer

מורידים את תוכנת Norconex commiter מהדף הזה.
ביטול הדחיסה של התוכנה שהורדה לתיקייה ~/norconex/
משכפלים את הפלאגין commiter מ-GitHub. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git ו- cd norconex-committer-plugin
בודקים את הגרסה הרצויה של פלאגין ה-commiter ויוצרים את קובץ ה-ZIP: git checkout tags/v1-0.0.3 ו-mvn package (כדי לדלג על הבדיקות כשיוצרים את המחבר, משתמשים ב-mvn package -DskipTests).
cd target
מעתיקים את קובץ ה-jar של הפלאגין שנבנה לספריית lib של norconex. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
מחלצים את קובץ ה-ZIP שיצרתם ומבטלים את הדחיסה שלו: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
מריצים את סקריפט ההתקנה כדי להעתיק את קובץ ה-JAR של הפלאגין ואת כל הספריות הנדרשות לספרייה של כלי האיסוף http:
1. עוברים לפלאגין של ה-commiter שחולץ למעלה: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
2. מריצים את הפקודה $ sh install.sh ומזינים את הנתיב המלא אל norconex/norconex-collector-http-{version}/lib בתור ספריית היעד כשמתבקשים.
3. אם נמצאים קובצי jar כפולים, בוחרים באפשרות 1 (Copy source Jar only if greater or same version as target Jar after renaming target Jar).

שלב 2: הגדרת Google Cloud Search

כדי שהפלאגין של הכלי ליצירת אינדקס יתחבר ל-Norconex HTTP Collector וייצור אינדקס של התוכן הרלוונטי, צריך ליצור את קובץ ההגדרות של Cloud Search בספריית Norconex שבה מותקן Norconex HTTP Collector. ‫Google ממליצה לתת לקובץ ההגדרות של Cloud Search את השם sdk-configuration.properties.

קובץ התצורה הזה חייב להכיל צמדי מפתח/ערך שמגדירים פרמטר. בקובץ ההגדרה צריך לציין לפחות את הפרמטרים הבאים, שנדרשים כדי לגשת למקור הנתונים של Cloud Search.

הגדרה	פרמטר
מזהה מקור הנתונים	‫`api.sourceId = 1234567890abcdef` חובה. מזהה המקור ב-Cloud Search שהוגדר על ידי האדמין ב-Google Workspace.
חשבון שירות	‫`api.serviceAccountPrivateKeyFile = ./PrivateKey.json` חובה. קובץ מפתח של חשבון שירות ב-Cloud Search שנוצר על ידי האדמין ב-Google Workspace לצורך נגישות לתוסף של כלי ליצירת אינדקסים.

בדוגמה הבאה מוצג קובץ sdk-configuration.properties.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

קובץ ההגדרות יכול להכיל גם פרמטרים של הגדרות שסופקו על ידי Google. הפרמטרים האלה יכולים להשפיע על האופן שבו התוסף הזה דוחף נתונים אל Google Cloud Search API. לדוגמה, קבוצת הפרמטרים batch.* מציינת איך המחבר משלב בקשות.

אם לא מגדירים פרמטר בקובץ ההגדרות, המערכת משתמשת בערך ברירת המחדל, אם הוא זמין. תיאורים מפורטים של כל פרמטר מופיעים במאמר פרמטרים של מחברים שסופקו על ידי Google.

אתם יכולים להגדיר את התוסף של כלי יצירת האינדקס כדי לאכלס מטא-נתונים ונתונים מוּבְנִים עבור תוכן שנמצא בתהליך יצירת אינדקס. אפשר לחלץ ערכים לשדות של מטא-נתונים ונתונים מובְנים מתגי מטא בתוכן HTML שמתווסף לאינדקס, או לציין ערכי ברירת מחדל בקובץ ההגדרות.

הגדרה	פרמטר
כותרת	`itemMetadata.title.field=movieTitle` `itemMetadata.title.defaultValue=Gone with the Wind` כברירת מחדל, הפלאגין משתמש ב-`HTML title` כשם המסמך שמתווסף לאינדקס. אם חסרה כותרת, אפשר להפנות למאפיין המטא-נתונים שמכיל את הערך שמתאים לכותרת המסמך או להגדיר ערך ברירת מחדל.
חותמת הזמן של היצירה	‫`itemMetadata.createTime.field=releaseDate` `itemMetadata.createTime.defaultValue=1940-01-17` מאפיין המטא-נתונים שמכיל את הערך של חותמת הזמן של יצירת המסמך.
זמן השינוי האחרון	`itemMetadata.updateTime.field=releaseDate` `itemMetadata.updateTime.defaultValue=1940-01-17` מאפיין המטא-נתונים שמכיל את הערך של חותמת הזמן של השינוי האחרון במסמך.
שפת המסמך	`itemMetadata.contentLanguage.field=languageCode` `itemMetadata.contentLanguage.defaultValue=en-US` השפה של התוכן במסמכים שנוספים לאינדקס.
סוג אובייקט של סכימה	‫`itemMetadata.objectType=movie` סוג האובייקט שבו האתר משתמש, כפי שמוגדר ב הגדרות האובייקט של סכימת מקור הנתונים. אם לא מציינים את המאפיין הזה, המחבר לא יוסיף לאינדקס נתונים מובְנים. הערה: מאפיין ההגדרה הזה מצביע על ערך ולא על מאפיין מטא-נתונים, ואין תמיכה בסיומות `.field` ו-`.defaultValue`.

פורמטים של תאריך ושעה

פורמטים של תאריך ושעה מציינים את הפורמטים שצפויים במאפייני המטא-נתונים. אם קובץ ההגדרות לא מכיל את הפרמטר הזה, המערכת תשתמש בערכי ברירת המחדל. הטבלה הבאה מציגה את הפרמטר הזה.

הגדרה

פרמטר

דפוסי תאריך ושעה נוספים

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

רשימה מופרדת בנקודה-ופסיק של דפוסי java.time.format.DateTimeFormatter נוספים. הדפוסים האלה משמשים לניתוח של ערכי מחרוזות בשדות של תאריך או תאריך ושעה במטא-נתונים או בסכימה. ערך ברירת המחדל הוא רשימה ריקה, אבל תמיד יש תמיכה בפורמטים RFC 3339 ו-RFC 1123.

שלב 3: הגדרה של Norconex HTTP Collector

ארכיון ה-ZIP norconex-committer-google-cloud-search-{version}.zipכולל קובץ תצורה לדוגמה, minimum-config.xml.

‫Google ממליצה להתחיל את ההגדרה בהעתקה של קובץ לדוגמה:

עוברים לספרייה של Norconex HTTP Collector: ‏
$ cd ~/norconex/norconex-collector-http-{version}/
מעתיקים את קובץ התצורה:
$ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
עורכים את הקובץ החדש שנוצר (בדוגמה הזו, gcs-crawl-config.xml) ומוסיפים או מחליפים את הצמתים הקיימים <committer> ו-<tagger> כמו שמתואר בטבלה הבאה.

הגדרה	פרמטר
`<committer> node`	‫`<committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">` שדה חובה. כדי להפעיל את הפלאגין, צריך להוסיף צומת `<committer>` כצומת צאצא של צומת הבסיס `<httpcollector>`.
`<UploadFormat>`	`<uploadFormat>raw</uploadFormat>` אופציונלי. הפורמט שבו התוכן של המסמך מועבר על ידי תוסף ההוספה לאינדקס אל Google Cloud Search Indexer API. הערכים התקינים הם: ‫`raw`: התוסף של כלי היצירה של האינדקסים דוחף תוכן מקורי של מסמכים שלא עבר המרה. ‫`text`: התוסף של הכלי ליצירת אינדקס מעביר תוכן טקסטואלי שחולץ. ערך ברירת המחדל הוא `raw`.
`BinaryContent Tagger <tagger> node`	‫`<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>` חובה אם הערך של `<UploadFormat>` הוא `raw`. במקרה כזה, התוסף ליצירת אינדקס צריך את שדה התוכן הבינארי של המסמך כדי להיות זמין. צריך להוסיף את הצומת `BinaryContentTagger <tagger>` כרכיב צאצא של הצומת `<importer> / <preParseHandlers>`.

בדוגמה הבאה מוצג השינוי הנדרש ב- gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

שלב 4: הגדרת סריקת אתרים

לפני שמתחילים בסריקת אינטרנט, צריך להגדיר את הסריקה כך שהיא תכלול רק מידע שהארגון רוצה שיהיה זמין בתוצאות החיפוש. ההגדרות החשובות ביותר לסריקת אתרים הן חלק מ<crawler>node(s) ויכולות לכלול:

כתובות URL להתחלה
עומק הסריקה המקסימלי
מספר השרשורים

משנים את ערכי ההגדרות האלה לפי הצורך. מידע מפורט יותר על הגדרת סריקת אתרים ורשימה מלאה של פרמטרים זמינים להגדרה מופיעים בדף הגדרות של הכלי לאיסוף נתונים מ-HTTP.

שלב 5: מתחילים סריקת אינטרנט והעלאת תוכן

אחרי שמתקינים ומגדירים את פלאגין יצירת האינדקס, אפשר להפעיל אותו במצב מקומי.

בדוגמה הבאה מניחים שהרכיבים הנדרשים נמצאים בספרייה המקומית במערכת Linux. מריצים את הפקודה הבאה:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

מעקב אחרי הסורק באמצעות JEF Monitor

‫Norconex JEF (Job Execution Framework) Monitor הוא כלי גרפי למעקב אחר ההתקדמות של תהליכים ומשימות של Norconex Web Crawler (HTTP Collector). מדריך מלא להגדרת כלי השירות הזה זמין במאמר מעקב אחר ההתקדמות של הסורק באמצעות JEF Monitor.

פריסת פלאגין של Norconex HTTP Collector Indexer קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.