אתם יכולים להגדיר את Google Cloud Search כך שיציג תוצאות מהשיתופים של הארגון ב-Microsoft Windows, בנוסף לתוכן שלכם ב-Google Workspace. משתמשים במחבר של מערכות הקבצים של Google Cloud Search ומגדירים אותו לגשת לשיתופי Windows ספציפיים. מכונה אחת של המחבר יכולה לתמוך בכמה שיתופי Microsoft Windows.
שיקולים חשובים
עדכונים אוטומטיים רציפים
כברירת מחדל, המחבר עוקב באופן רציף אחרי נתיבי ההתחלה (ערכים מ-fs.src
בקובץ התצורה של המחבר) כשהמחבר מופעל. כשמערכת הקבצים מדווחת על שינויים בתוכן או באמצעי בקרת הגישה, המחבר מופעל כדי לסרוק מחדש את מערכת הקבצים. הסריקה מחדש עשויה להיות צורכת משאבים רבים. כדי להשבית את המעקב אחרי מערכת הקבצים, מגדירים את fs.monitorForUpdates
לערך false
. הפעולה הזו מפחיתה באופן משמעותי את השימוש במשאבים של המחבר, אבל היא גורמת לעיכוב בהצגת השינויים במחבר. מידע נוסף
בקרת גישה ב-DFS
מערכת ה-DFS מחילה בקרת גישה על הקישורים שלה, ובדרך כלל לכל קישור DFS יש רשימת ACL משלו. אחד המנגנונים שבהם נעשה שימוש ב-DFS הוא Access-based Enumeration (ABE), שיכול להגביל את הקישורים של DFS שמוחזרים למשתמש. יכול להיות שמשתמשים יקבלו רק קבוצת משנה של קישורי ה-DFS, או אפילו רק קישור אחד כש-ABE מבודד ספריות בית מתארחות. כשהמחבר חוצה מערכת DFS, הוא מתייחס לרשימת ה-ACL של הקישור ב-DFS ולרשימת ה-ACL של השיתוף ביעד, ורשימת ה-ACL של השיתוף עוברת בירושה מרשימת ה-ACL של DFS.
מגבלות ידועות
- מערכת קבצים: המחבר של מערכת הקבצים לא תומך בכוננים ממופה ובכוננים מקומיים.
- Distributed File System: כונן ממופה ל-UNC DFS לא פועל כמו שצריך. חלק מרשימות ACL לא נקראו בצורה נכונה.
- המחבר של מערכות הקבצים תומך במרחבי שמות ובקישורים של מערכת קבצים מבוזרת (DFS). עם זאת, המחבר תומך בקישורי DFS רק במרחב שמות של DFS, ולא בתיקיות הרגילות במרחב השמות של DFS.
- אי אפשר ללחוץ על קישורי הקבצים שמוחזרים בכתובת cloudsearch.google.com. גם הקישורים לקובצים שמוחזרים על ידי Query API לא ניתנים ללחיצה ברוב הדפדפנים.
דרישות מערכת
דרישות מערכת | |
---|---|
מערכת הפעלה |
|
תוכנה |
|
פרוטוקולים של מערכת קבצים |
לא נתמכות: מערכות קבצים מקומיות של Windows, Sun Network File System (NFS) 2.0, Sun Network File System (NFS) 3.0 או מערכת קבצים מקומית של Linux. |
פריסה של המחבר
דרישות מוקדמות
לפני שתפרסו את המחבר של Cloud Search File Systems, עליכם לוודא שבסביבתכם יש את כל הרכיבים הנדרשים הבאים:
המידע מ-Google Workspace שנדרש כדי ליצור קשרים בין Google Cloud Search לבין מקור הנתונים:
- מפתח פרטי של Google Workspace (שמכיל את מזהה חשבון השירות). למידע נוסף על קבלת מפתח פרטי, קראו את המאמר הגדרת גישה ל-Google Cloud Search REST API.
- מזהה מקור הנתונים ב-Google Workspace. במאמר הוספת מקור נתונים לחיפוש מוסבר איך לקבל מזהה של מקור נתונים.
- מזהה של מקור זהויות. במאמר יצירת מקור זהויות מוסבר איך לקבל מזהה של מקור זהויות. אם אתם מסנכרנים את ספריית Google Workspace עם Active Directory, מגדירים את מקור הזהויות באמצעות GCDS.
בדרך כלל האדמין ב-Google Workspace של הארגון יכול לספק לכם את פרטי הכניסה האלה.
מוודאים שלחשבון Windows יש מספיק הרשאות, כפי שמתואר בקטע הבא.
ההרשאות הנדרשות לחשבון Microsoft Windows
לחשבון Microsoft Windows שבו המחבר פועל צריכות להיות הרשאות מספיקות לביצוע הפעולות הבאות:
- הצגת רשימת התכנים של תיקיות
- קריאת התוכן של מסמכים
- קריאת מאפיינים של קבצים ותיקיות
- הרשאות קריאה (רשימות ACL) גם לקבצים וגם לתיקיות
- הרשאות כתיבה למאפיינים בסיסיים
חברות באחת מהקבוצות הבאות מעניקה לחשבון Windows את ההרשאות הנדרשות למחבר:
- מנהלי מערכת
- משתמשים מתקדמים
- מפעילי הדפסה
- אופרטורים של שרתים
שלב 1. התקנת המחבר של מערכות הקבצים של Google Cloud Search
מקבלים את מאגר המחבר מ-GitHub ומפתחים אותו.
כדי להשתמש ב-git בשרת Windows:
משכפלים את המאגר:
> git clone https://github.com/google-cloudsearch/windows-filesystems-connector.git > cd windows-filesystems-connector
בודקים את הגרסה הרצויה של המחבר:
> git checkout tags/v1-0.0.3
כדי להוריד ישירות מ-GitHub:
- עוברים לכתובת https://github.com/google-cloudsearch/windows-filesystems-connector.
- לוחצים על שכפול או הורדה הורדת קובץ zip.
- מבטלים את דחיסת החבילה.
- עוברים לספרייה החדשה:
> cd windows-filesystems-connector
יוצרים את המחבר. אם צריך, מתקינים את Apache Maven.
> mvn package
כדי לדלג על הבדיקות בזמן היצירה של המחבר, מריצים את הפקודה
mvn package -DskipTests
במקוםmvn package
.מעתיקים את קובץ ה-zip של המחבר לספריית ההתקנה המקומית:
> cp target/google-cloudsearch-windows-filesystems-connector-v1-0.0.3.zip installation-dir > cd installation-dir > unzip google-cloudsearch-windows-filesystems-connector-v1-0.0.3.zip > cd google-cloudsearch-windows-filesystems-connector-v1-0.0.3
שלב 2. יצירת קובץ התצורה של המחבר
באותה ספרייה שבה מותקן המחבר, יוצרים קובץ ומעניקים לו את השם
connector-config.properties
.מוסיפים פרמטרים כצמדי מפתח/ערך לתוכן הקובץ, כמו בדוגמה הבאה:
### File system connector configuration ### # Required parameters for Cloud Search data source and identity source access api.serviceAccountPrivateKeyFile=/path/to/file.json api.sourceId=0123456789abcde api.identitySourceId=a1b1c1234567 # Required parameters for file system access fs.src=\\\\host\\share;\\\\dfshost\\dfsnamespace;\\\\dfshost\\dfsnamespace\\link # Optional parameters for file system monitoring traverse.abortAfterExceptions=500 fs.monitorForUpdates = true fs.preserveLastAccessTime = IF_ALLOWED
תיאורים מפורטים של כל פרמטר זמינים במאמר בנושא פרמטרים של הגדרות.
(אופציונלי) מגדירים פרמטרים אחרים של המחבר לפי הצורך. פרטים נוספים זמינים במאמר פרמטרים של מחברים שסופקו על ידי Google.
שלב 3. הפעלת רישום
- יוצרים תיקייה בשם
logs
בספרייה שמכילה את הקובץ הבינארי של המחבר. יוצרים קובץ ASCII או UTF-8 בשם
logging.properties
בתיקייה שמכילה את הקובץ הבינארי של המחבר, ומוסיפים את התוכן הבא:handlers = java.util.logging.ConsoleHandler,java.util.logging.FileHandler # Default log level .level = WARNING com.google.enterprise.cloudsearch.level = INFO com.google.enterprise.cloudsearch.fs.level = INFO # uncomment line below to increase logging level to enable API trace #com.google.api.client.http.level = FINE java.util.logging.ConsoleHandler.level = INFO java.util.logging.FileHandler.pattern=logs/connector-fs.%g.log java.util.logging.FileHandler.limit=10485760 java.util.logging.FileHandler.count=10 java.util.logging.FileHandler.formatter=java.util.logging.SimpleFormatter
שלב 4. (אופציונלי) הגדרת סוגי מדיה
כברירת מחדל, המחבר מנסה לזהות את סוג המדיה של כל קובץ באמצעות זיהוי סוג המדיה של JDK. ב-Microsoft Windows, JDK מסתמך על הרישום של Windows כדי לקבוע את סוגי המדיה של קבצים. רשומת רישום חסרה עשויה לגרום לסוג מדיה null בקובצים מסוימים.
במקרה הצורך, אפשר לציין סוג מדיה שיכפה על קישורים קיימים או ימנע סוג מדיה null.
- בספריית המחבר, יוצרים קובץ בשם
mime-type.properties
עם הצפנה מסוג Latin-1. מזינים את סיומת הקובץ ואת סוגי המדיה המתאימים, כמו בדוגמאות הבאות:
xlsx=application/vnd.openxmlformats-officedocument.spreadsheetml.sheet one=application/msonenote txt=text/plain pdf=application/pdf
שלב 5: מריצים את המחבר של File Systems
אחרי שמתקינים ומגדירים את המחבר של File Systems, כדי להפעיל אותו במכונה המארחת מריצים פקודה כמו הדוגמה הבאה:
> java -jar google-cloudsearch-windows-filesystems-connector-v1-0.0.3.jar -Djava.util.logging.config.file=logging.properties[ -Dconfig=my.config]
מציינים את הנתיב לקובץ התצורה אם הוא שונה מברירת המחדל (באותה ספרייה שבה נמצא הקובץ הבינארי בשם connector-config.properties
).
מסמך עזר בנושא פרמטרים של הגדרות אישיות
גישה למקור הנתונים
הגדרה | פרמטר |
מזהה מקור הנתונים | api.sourceId=1234567890abcdef
חובה. מזהה המקור ב-Google Cloud Search שהוגדר על ידי האדמין של Google Workspace. |
הנתיב לקובץ המפתח הפרטי של חשבון השירות | api.serviceAccountPrivateKeyFile=./PrivateKey.json
חובה. קובץ המפתח של חשבון השירות של Google Cloud Search, שנועד לנגישות של המחבר של מערכות הקבצים של Google Cloud Search. |
המזהה של מקור הזהות | api.identitySourceId=x0987654321
חובה. מזהה מקור הזהויות ב-Cloud Search שהאדמין של Google Workspace הגדיר לסנכרון זהויות של Active Directory באמצעות GCDS. |
גישה למערכת קבצים
הגדרה | פרמטר |
מערכות קבצים של מקור | fs.src=path1[,path2, ...]
חובה. מציינים את מערכות קובצי המקור כמקור UNC אחד או יותר שמופרדים באמצעות המפריד שהוגדר על ידי |
תו המפריד של הנתיב
הגדרה | פרמטר |
תו המפריד של הנתיב | fs.src.separator=separator-character
התו המפריד שמוגדר כברירת מחדל הוא ';'. אם נתיבי המקור מכילים נקודה-פסיק, אפשר להגדיר תו מפריד אחר, כמו פסיק (","), שלא יוצר התנגשויות עם תווים בנתיבים ולא שמור לסינטקס של קובץ המאפיינים עצמו. אם הערך של |
התנהגות המחבר
הגדרה | פרמטר |
דומיין של Windows | fs.supportedDomain=domain
נדרשת כדי לאפשר למשתמשים שהוגדרו באמצעות GCDS לגשת למסמכים דרך Cloud Search. מציינים שם דומיין NetBIOS יחיד של Active Directory. |
הכללת חשבונות ברשימות ACL | fs.supportedAccounts=account-1[, account-2,...]
רשימה של חשבונות, מופרדים בפסיקים, שרוצים לכלול ברשימות ACL, גם אם הם חשבונות מובנים. ערך ברירת המחדל הוא |
החרגת חשבונות מובנים מרשימות ACL | fs.builtinGroupPrefix=prefix
מציינים את הקידומת של חשבונות מובנים. חשבון שמתחיל בתחילית הזו נחשב לחשבון מובנה, והוא לא ייכלל ברשימות ACL. ערך ברירת המחדל הוא |
הוספת קבצים ותיקיות מוסתרים לאינדקס | fs.crawlHiddenFiles=boolean
מגדירים את הערך |
מתן הרשאה להוספה לאינדקס של כרטיסיות תיקיות שסורקו ושל ספירת רשומות של מרחב שמות DFS | fs.indexFolders=boolean
כשהערך מוגדר כ- |
הפעלת מעקב אחר שינויים במערכת הקבצים | fs.monitorForUpdates=boolean
כשהערך מוגדר כ- |
הגדרת הגודל המקסימלי של המטמון של הספריות | fs.directoryCacheSize=number-of-entries
הגודל המקסימלי של מטמון הספריות. המחבר משתמש במטמון כדי לזהות תיקיות מוסתרות, כדי למנוע הוספה של קבצים ותיקיות בתיקיות מוסתרות לאינדקס. ברירת המחדל היא 50,000 רשומות, שבדרך כלל צורכות 10-15 מגה-בייט של זיכרון RAM. |
שמירת חותמות זמן ובקרת סריקה
הגדרה | פרמטר |
שמירה של חותמת הזמן של הגישה האחרונה | fs.preserveLastAccessTime=value
כשהמחבר סרוק קבצים ותיקיות, הוא יכול לשנות את חותמת הזמן של הגישה האחרונה לקבצים ולתיקיות לשעת הסריקה. אם זמני הגישה האחרונים לא נשמרים, יכול להיות שמערכת הגיבוי והארכיון לא תעביר קבצים ותיקיות מתאימים לאחסון משני בגלל הביקור של המחבר. כברירת מחדל, המחבר מנסה לשמר את זמן הגישה האחרון ( ערכים אפשריים:
|
סריקה של קבצים שרק לאחר תאריך מסוים הייתה אליהם גישה | fs.lastAccessedDate=YYYY-MM-DD
סריקה של תוכן רק אם שעת הגישה האחרונה היא אחרי התאריך שצוין. ערך ברירת המחדל הוא מציינים את התאריך בפורמט ISO8601: YYYY-MM-DD. לדוגמה, אם הערך הוא 2010-01-01, המחבר סרוק רק תוכן שאליו ניגשו אחרי תחילת שנת 2010. אם מציינים את הערך |
סריקה של קבצים שרק ניגשת אליהם במספר הימים האחרונים | fs.lastAccessedDays=number-of-days
סריקה של תוכן רק אם זמן הגישה האחרון הוא בתוך מספר הימים לפני היום הנוכחי. ערך ברירת המחדל הוא אפשר להשתמש במאפיין הזה כדי לקבוע תאריך תפוגה לתוכן שנוסף בעבר לאינדקס ולא ניגשו אליו במשך זמן מה. לדוגמה, אפשר להגדיר את הערך 365 כדי לסרוק תוכן רק אם ניגשת אליו בשנה האחרונה. אם מציינים את הערך |
סריקה של קבצים ששונו רק אחרי תאריך מסוים | fs.lastModifiedDate=YYYY-MM-DD
סריקה של תוכן רק אם מועד השינוי האחרון הוא אחרי התאריך שצוין. ערך ברירת המחדל הוא מציינים את התאריך בפורמט ISO8601: YYYY-MM-DD. לדוגמה, אם הערך הוא 2010-01-01, המחבר סרוק רק תוכן ששונה אחרי תחילת שנת 2010. אם מציינים את הערך |
סריקה של קבצים ששונו במספר הימים האחרונים בלבד | fs.lastModifiedDays=number-of-days
סריקה של תוכן רק אם זמן השינוי האחרון הוא בתוך מספר הימים לפני היום הנוכחי. ערך ברירת המחדל הוא אפשר להשתמש במאפיין הזה כדי להסיר תוכן שנוסף בעבר לאינדקס ולא השתנה במשך זמן מה. לדוגמה, אפשר להגדיר את הערך 365 כדי לסרוק תוכן רק אם הוא השתנה בשנה האחרונה. אם מציינים את הערך |
דילוג על בקרת הגישה לשיתוף קבצים
כברירת מחדל, המחבר שומר על תקינות בקרת הגישה כשהוא שולח רשימות של בקרת גישה (ACL) ל-API להוספה לאינדקס, כולל רשימות ה-ACL בספריית הקבצים המשותפת. עם זאת, בהגדרות מסוימות יכול להיות למחבר אין מספיק הרשאות לקרוא את רשימת ה-ACL של השיתוף. במקרים כאלה, המחבר לא מחזיר קבצים שנשמרים באותו שיתוף קבצים בתוצאות החיפוש.
אפשר להגדיר את המחבר כך שיתעלם מ-ACL השיתוף, כדי שהתוכן תמיד יופיע בתוצאות החיפוש. במקרה כזה, ה-API להוספה לאינדקס מקבל רשימת ACL של שיתוף עם הרשאות גישה רחבות במיוחד, במקום רשימת ה-ACL בפועל של השיתוף.
הגדרה | פרמטר |
דילוג על בקרת הגישה לשיתוף קבצים | fs.skipShareAccessControl=boolean
מגדירים את הערך ל- |