คุณจะตั้งค่า Google Cloud Search ให้แสดงผลลัพธ์จาก Microsoft Windows จะแชร์นอกเหนือจากเนื้อหา Google Workspace ของคุณ คุณ ใช้เครื่องมือเชื่อมต่อระบบไฟล์ของ Google Cloud Search และกำหนดค่าให้เข้าถึง Windows ที่ระบุ อินสแตนซ์ของเครื่องมือเชื่อมต่อรายการเดียวสามารถรองรับหลายรายการ แชร์กับ Microsoft Windows
สิ่งสำคัญที่ควรพิจารณา
การอัปเดตอัตโนมัติอย่างต่อเนื่อง
โดยค่าเริ่มต้น เครื่องมือเชื่อมต่อจะตรวจสอบเส้นทางเริ่มต้นอย่างต่อเนื่อง (ค่าจาก fs.src
ในไฟล์การกำหนดค่าเครื่องมือเชื่อมต่อ) เมื่อเครื่องมือเชื่อมต่อเริ่มทำงาน เมื่อระบบรายงานมีการเปลี่ยนแปลงเกี่ยวกับเนื้อหาหรือการควบคุมการเข้าถึง เครื่องมือเชื่อมต่อจะถูกเรียกใช้เพื่อรวบรวมข้อมูลระบบไฟล์อีกครั้ง การรวบรวมข้อมูลอีกครั้งนี้อาจต้องใช้ทรัพยากรจำนวนมาก หากต้องการปิดการตรวจสอบระบบไฟล์ ให้ตั้งค่า fs.monitorForUpdates
เป็น false
คุณลดการใช้ทรัพยากรของเครื่องมือเชื่อมต่ออย่างมาก แต่จะล่าช้าเมื่อเครื่องมือเชื่อมต่อแสดงการเปลี่ยนแปลง ดูข้อมูลเพิ่มเติม
การควบคุมการเข้าถึง DFS
ระบบ DFS จะใช้การควบคุมการเข้าถึงกับลิงก์ และโดยปกติแล้วลิงก์ DFS แต่ละลิงก์จะมี ACL ของตัวเอง กลไกหนึ่งที่ DFS ใช้คือ Access-based Enumeration (ABE) ซึ่งจะจำกัดลิงก์ DFS ที่แสดงต่อผู้ใช้ได้ ผู้ใช้อาจได้รับเพียงชุดย่อยของลิงก์ DFS หรืออาจแค่ลิงก์เดียวเมื่อ ABE แยกไดเรกทอรีหน้าแรกที่โฮสต์ไว้ เมื่อเครื่องมือเชื่อมต่อข้ามผ่านระบบ DFS เครื่องมือเชื่อมต่อจะดำเนินการตาม ACL ของลิงก์ DFS และ ACL สำหรับแชร์ของเป้าหมาย และ ACL สำหรับการแชร์จะรับมาจาก ACL ของ DFS
ข้อจำกัดที่ทราบ
- ระบบไฟล์: เครื่องมือเชื่อมต่อระบบไฟล์ไม่รองรับไดรฟ์ที่แมปและไดรฟ์ในเครื่อง
- ระบบไฟล์แบบกระจาย: ไดรฟ์ที่แมปไปยัง UNC DFS ทำงานไม่ถูกต้อง ACL บางรายการอ่านไม่ถูกต้อง
- เครื่องมือเชื่อมต่อระบบไฟล์รองรับเนมสเปซและลิงก์ของระบบไฟล์แบบกระจาย (DFS) อย่างไรก็ตาม เครื่องมือเชื่อมต่อรองรับลิงก์ DFS เฉพาะในเนมสเปซ DFS ไม่ใช่โฟลเดอร์ปกติในเนมสเปซ DFS
- ลิงก์ไฟล์ที่แสดงผลใน cloudsearch.google.com จะคลิกไม่ได้ ลิงก์ไฟล์ที่แสดงผลโดย Query API นั้นจะไม่สามารถคลิกได้ในเบราว์เซอร์ส่วนใหญ่เช่นกัน
ข้อกำหนดของระบบ
ข้อกำหนดของระบบ | |
---|---|
ระบบปฏิบัติการ |
|
ซอฟต์แวร์ |
|
โปรโตคอลระบบไฟล์ |
ไม่รองรับ: ระบบไฟล์ Windows ในเครื่อง, Sun Network File System (NFS) 2.0, ระบบไฟล์ Sun Network File System (NFS) 3.0 หรือระบบไฟล์ Linux ในเครื่อง |
ทำให้เครื่องมือเชื่อมต่อใช้งานได้
ข้อกำหนดเบื้องต้น
ก่อนทำให้เครื่องมือเชื่อมต่อ Cloud Search File Systems ใช้งานได้ โปรดตรวจสอบว่า มีองค์ประกอบที่ต้องมีเบื้องต้นทั้งหมดดังต่อไปนี้
ข้อมูล Google Workspace ที่จำเป็นต่อการสร้างความสัมพันธ์ระหว่าง Google Cloud Search กับแหล่งข้อมูล
- คีย์ส่วนตัวของ Google Workspace (ซึ่งมีรหัสบัญชีบริการ) สำหรับ เกี่ยวกับการรับคีย์ส่วนตัว ให้ไปที่ กำหนดค่าการเข้าถึง REST API ของ Google Cloud Search
- รหัสแหล่งข้อมูล Google Workspace สำหรับข้อมูลเกี่ยวกับการรับรหัสแหล่งข้อมูล ไปที่ เพิ่มแหล่งข้อมูลเพื่อค้นหา
- รหัสแหล่งที่มาของข้อมูลประจำตัว สําหรับข้อมูลเกี่ยวกับวิธีรับแหล่งที่มาของข้อมูลประจำตัว รหัส ให้ไปที่ สร้างแหล่งที่มาของข้อมูลประจำตัว หากคุณซิงค์ไดเรกทอรี Google Workspace กับ Active Directory ให้ตั้งค่าแหล่งที่มาของข้อมูลประจำตัวด้วย GCDS
โดยปกติแล้ว ผู้ดูแลระบบ Google Workspace ขององค์กรจะได้รับข้อมูลเข้าสู่ระบบเหล่านี้ให้คุณ
ตรวจสอบว่าบัญชี Windows มีสิทธิ์เพียงพอตามที่อธิบายไว้ใน หัวข้อต่อไปนี้
สิทธิ์ที่จำเป็นของบัญชี Microsoft Windows
บัญชี Microsoft Windows ที่เครื่องมือเชื่อมต่อทำงานอยู่จะต้องมี มีสิทธิ์เพียงพอในการดำเนินการต่อไปนี้
- ระบุเนื้อหาของโฟลเดอร์
- อ่านเนื้อหาของเอกสาร
- อ่านแอตทริบิวต์ของไฟล์และโฟลเดอร์
- สิทธิ์อ่าน (ACL) สำหรับทั้งไฟล์และโฟลเดอร์
- เขียนสิทธิ์ของแอตทริบิวต์พื้นฐาน
การเป็นสมาชิกในกลุ่มใดกลุ่มหนึ่งต่อไปนี้จะให้สิทธิ์เพียงพอที่เครื่องมือเชื่อมต่อต้องการแก่บัญชี Windows
- ผู้ดูแลระบบ
- ผู้ใช้ขั้นสูง
- โอเปอเรเตอร์การพิมพ์
- ผู้ให้บริการเซิร์ฟเวอร์
ขั้นตอนที่ 1 ติดตั้งเครื่องมือเชื่อมต่อ Google Cloud Search File Systems
รับที่เก็บเครื่องมือเชื่อมต่อจาก GitHub และสร้างที่เก็บดังกล่าว
วิธีใช้ git ในเซิร์ฟเวอร์ Windows
โคลนที่เก็บด้วยคำสั่งต่อไปนี้
> git clone https://github.com/google-cloudsearch/windows-filesystems-connector.git > cd windows-filesystems-connector
ตรวจสอบเวอร์ชันเครื่องมือเชื่อมต่อที่ต้องการ
> git checkout tags/v1-0.0.3
วิธีดาวน์โหลดจาก GitHub โดยตรง
- ไปที่ https://github.com/google-cloudsearch/windows-filesystems-connector
- คลิกโคลนหรือดาวน์โหลด ดาวน์โหลดไฟล์ ZIP
- คลายการบีบอัดแพ็กเกจ
- หากต้องการย้ายไปยังไดเรกทอรีใหม่ ให้ทำดังนี้
> cd windows-filesystems-connector
สร้างเครื่องมือเชื่อมต่อ หากจำเป็น ให้ติดตั้ง Apache Maven
> mvn package
หากต้องการข้ามการทดสอบเมื่อสร้างเครื่องมือเชื่อมต่อ ให้เรียกใช้
mvn package -DskipTests
แทนmvn package
คัดลอกไฟล์ ZIP ของเครื่องมือเชื่อมต่อไปยังไดเรกทอรีการติดตั้งภายในเครื่อง:
> cp target/google-cloudsearch-windows-filesystems-connector-v1-0.0.3.zip installation-dir > cd installation-dir > unzip google-cloudsearch-windows-filesystems-connector-v1-0.0.3.zip > cd google-cloudsearch-windows-filesystems-connector-v1-0.0.3
ขั้นตอนที่ 2 สร้างไฟล์การกำหนดค่าเครื่องมือเชื่อมต่อ
ในไดเรกทอรีเดียวกับการติดตั้งเครื่องมือเชื่อมต่อ ให้สร้างไฟล์และตั้งชื่อว่า
connector-config.properties
เพิ่มพารามิเตอร์เป็นคู่คีย์/ค่าในเนื้อหาไฟล์ ดังตัวอย่างต่อไปนี้
### File system connector configuration ### # Required parameters for Cloud Search data source and identity source access api.serviceAccountPrivateKeyFile=/path/to/file.json api.sourceId=0123456789abcde api.identitySourceId=a1b1c1234567 # Required parameters for file system access fs.src=\\\\host\\share;\\\\dfshost\\dfsnamespace;\\\\dfshost\\dfsnamespace\\link # Optional parameters for file system monitoring traverse.abortAfterExceptions=500 fs.monitorForUpdates = true fs.preserveLastAccessTime = IF_ALLOWED
โปรดดูคำอธิบายโดยละเอียดของแต่ละพารามิเตอร์ได้ที่ ข้อมูลอ้างอิงเกี่ยวกับพารามิเตอร์การกำหนดค่า
(ไม่บังคับ) กำหนดค่าพารามิเตอร์เครื่องมือเชื่อมต่ออื่นๆ ตามต้องการ โปรดดูรายละเอียดที่หัวข้อ พารามิเตอร์เครื่องมือเชื่อมต่อที่ Google มีให้
ขั้นตอนที่ 3 เปิดใช้การบันทึก
- สร้างโฟลเดอร์ชื่อ
logs
ในไดเรกทอรีที่มีเครื่องมือเชื่อมต่อ 2. สร้างไฟล์ ASCII หรือ UTF-8 ชื่อ
logging.properties
ใน ที่มีไบนารีของเครื่องมือเชื่อมต่อ และเพิ่มเนื้อหาต่อไปนี้handlers = java.util.logging.ConsoleHandler,java.util.logging.FileHandler # Default log level .level = WARNING com.google.enterprise.cloudsearch.level = INFO com.google.enterprise.cloudsearch.fs.level = INFO # uncomment line below to increase logging level to enable API trace #com.google.api.client.http.level = FINE java.util.logging.ConsoleHandler.level = INFO java.util.logging.FileHandler.pattern=logs/connector-fs.%g.log java.util.logging.FileHandler.limit=10485760 java.util.logging.FileHandler.count=10 java.util.logging.FileHandler.formatter=java.util.logging.SimpleFormatter
ขั้นตอนที่ 4 (ไม่บังคับ) กำหนดค่าประเภทสื่อ
โดยค่าเริ่มต้น เครื่องมือเชื่อมต่อจะพยายามตรวจหาประเภทสื่อสำหรับแต่ละไฟล์ที่มี มาจาก JDK การตรวจหาประเภทสื่อ ใน Microsoft Windows นั้น JDK ใช้รีจิสทรีของ Windows เพื่อ กำหนดประเภทสื่อสำหรับไฟล์ รายการรีจิสทรีที่ขาดหายไปอาจทำให้ค่าเป็นค่าว่าง สำหรับประเภทสื่อสำหรับไฟล์บางประเภท
หากจำเป็น คุณสามารถระบุประเภทสื่อที่เขียนทับการเชื่อมโยงที่มีอยู่หรือป้องกันสื่อประเภท Null
- ในไดเรกทอรีเครื่องมือเชื่อมต่อ ให้สร้างไฟล์ที่เข้ารหัสด้วยภาษาละติน1 ชื่อ
mime-type.properties
ป้อนนามสกุลไฟล์และประเภทสื่อที่เกี่ยวข้องตามตัวอย่างต่อไปนี้
xlsx=application/vnd.openxmlformats-officedocument.spreadsheetml.sheet one=application/msonenote txt=text/plain pdf=application/pdf
ขั้นตอนที่ 5: เรียกใช้เครื่องมือเชื่อมต่อระบบไฟล์
หลังจากที่คุณติดตั้งและกำหนดค่าเครื่องมือเชื่อมต่อระบบไฟล์ ให้เปิดใช้งานใน เครื่องโฮสต์ ให้เรียกใช้คำสั่งเหมือนตัวอย่างต่อไปนี้
> java -jar google-cloudsearch-windows-filesystems-connector-v1-0.0.3.jar -Djava.util.logging.config.file=logging.properties[ -Dconfig=my.config]
ระบุเส้นทางของไฟล์การกำหนดค่าถ้าแตกต่างจากค่าเริ่มต้น (ในไดเรกทอรีเดียวกับไบนารีชื่อ connector-config.properties
)
ข้อมูลอ้างอิงพารามิเตอร์การกำหนดค่า
การเข้าถึงแหล่งข้อมูล
การตั้งค่า | พารามิเตอร์ |
รหัสแหล่งข้อมูล | api.sourceId=1234567890abcdef
ต้องระบุ รหัสแหล่งที่มาของ Google Cloud Search ที่ผู้ดูแลระบบ Google Workspace เป็นผู้ตั้งค่า |
เส้นทางไปยังไฟล์คีย์ส่วนตัวของบัญชีบริการ | api.serviceAccountPrivateKeyFile=./PrivateKey.json
ต้องระบุ ไฟล์คีย์บัญชีบริการ Google Cloud Search สำหรับการช่วยเหลือพิเศษของเครื่องมือเชื่อมต่อระบบไฟล์ Google Cloud Search |
รหัสแหล่งที่มาของข้อมูลประจำตัว | api.identitySourceId=x0987654321
ต้องระบุ รหัสแหล่งที่มาของข้อมูลประจำตัว Cloud Search ที่ผู้ดูแลระบบ Google Workspace ตั้งค่าไว้เพื่อซิงค์ข้อมูลประจำตัวของไดเรกทอรีที่ใช้งานอยู่โดยใช้ GCDS |
การเข้าถึงระบบไฟล์
การตั้งค่า | พารามิเตอร์ |
ระบบไฟล์ต้นฉบับ | fs.src=path1[,path2, ...]
ต้องระบุ ระบุระบบไฟล์ต้นฉบับเป็นแหล่งที่มา UNC อย่างน้อย 1 รายการซึ่งคั่นด้วยตัวคั่นที่กำหนดค่าโดย |
อักขระตัวแบ่งเส้นทาง
การตั้งค่า | พารามิเตอร์ |
อักขระตัวแบ่งเส้นทาง | fs.src.separator=separator-character
ตัวคั่นเริ่มต้นคือ ";" หากเส้นทางแหล่งที่มามีเครื่องหมายเซมิโคลอน คุณจะตั้งค่าตัวคั่นอื่นได้ เช่น คอมมา (",") ซึ่งไม่ขัดแย้งกับอักขระในเส้นทางของคุณ และไม่ได้สงวนไว้โดยไวยากรณ์ของไฟล์พร็อพเพอร์ตี้ หากค่า |
ลักษณะการทำงานของเครื่องมือเชื่อมต่อ
การตั้งค่า | พารามิเตอร์ |
โดเมน Windows | fs.supportedDomain=domain
จำเป็นต้องอนุญาตให้ผู้ใช้ที่ตั้งค่าด้วย GCDS เข้าถึงเอกสารผ่าน Cloud Search ได้ ระบุเป็นชื่อโดเมน NetBIOS เดียวของ Active Directory |
รวมบัญชีใน ACLS | fs.supportedAccounts=account-1[, account-2,...]
รายการบัญชีที่คั่นด้วยคอมมาเพื่อรวมไว้ใน ACL ไม่ว่าบัญชีเหล่านั้นจะเป็นบัญชีในตัวหรือไม่ก็ตาม ค่าเริ่มต้นคือ |
ยกเว้นบัญชีในตัวจาก ACL | fs.builtinGroupPrefix=prefix
ระบุคำนำหน้าของบัญชีในตัว บัญชีที่ขึ้นต้นด้วยคำนำหน้านี้จะถือว่าเป็นบัญชีแบบบิวท์อินและจะไม่รวมอยู่ใน ACL ค่าเริ่มต้นคือ |
อนุญาตให้จัดทำดัชนีไฟล์และโฟลเดอร์ที่ซ่อนอยู่ | fs.crawlHiddenFiles=boolean
ตั้งค่าเป็น |
อนุญาตให้จัดทำดัชนีรายการโฟลเดอร์ที่ทำการ Crawl และการแจกแจงเนมสเปซ DFS | fs.indexFolders=boolean
เมื่อตั้งค่าเป็น |
เปิดใช้การตรวจสอบการเปลี่ยนแปลงระบบไฟล์ | fs.monitorForUpdates=boolean
เมื่อตั้งค่าเป็น |
กำหนดขนาดสูงสุดของแคชของไดเรกทอรี | fs.directoryCacheSize=number-of-entries
ขนาดสูงสุดของแคชไดเรกทอรี เครื่องมือเชื่อมต่อจะใช้แคชเพื่อระบุโฟลเดอร์ที่ซ่อนไว้เพื่อหลีกเลี่ยงการจัดทำดัชนีไฟล์และโฟลเดอร์ในโฟลเดอร์ที่ซ่อนอยู่ ค่าเริ่มต้นคือ 50,000 รายการ ซึ่งโดยปกติจะใช้ RAM 10-15 เมกะไบต์ |
การเก็บรักษาการประทับเวลาและการควบคุมการรวบรวมข้อมูล
การตั้งค่า | พารามิเตอร์ |
คงการประทับเวลาการเข้าถึงล่าสุดไว้ | fs.preserveLastAccessTime=value
เมื่อเครื่องมือเชื่อมต่อรวบรวมข้อมูลไฟล์และโฟลเดอร์ เครื่องมือเชื่อมต่อจะเปลี่ยนการประทับเวลาการเข้าถึงล่าสุดของไฟล์และโฟลเดอร์เป็นเวลาของการรวบรวมข้อมูลได้ เมื่อไม่มีการเก็บรักษาเวลาเข้าถึงครั้งล่าสุดไว้ ระบบสำรองข้อมูลและเก็บถาวรอาจไม่ย้ายไฟล์และโฟลเดอร์ที่เหมาะสมไปยังพื้นที่เก็บข้อมูลสำรองเนื่องจากการเข้าชมของเครื่องมือเชื่อมต่อ โดยค่าเริ่มต้น เครื่องมือเชื่อมต่อจะพยายามรักษาเวลาการเข้าถึงล่าสุดไว้ (ตั้งค่า ค่าที่เป็นไปได้มีดังนี้
|
ทำการ Crawl เฉพาะไฟล์ที่มีการเข้าถึงหลังจากวันที่กำหนด | fs.lastAccessedDate=YYYY-MM-DD
ทำการ Crawl เนื้อหาเฉพาะเมื่อเวลาเข้าถึงล่าสุดอยู่หลังจากวันที่ที่ระบุ ค่าเริ่มต้นคือ ระบุวันที่ในรูปแบบวันที่ ISO8601 ดังนี้ YYYY-MM-DD ตัวอย่างเช่น ถ้าค่าคือ 2010-01-01 เครื่องมือเชื่อมต่อจะรวบรวมข้อมูลเฉพาะเนื้อหาที่มีการเข้าถึงหลังจากต้นปี 2010 เท่านั้น หากคุณระบุ |
ทำการ Crawl เฉพาะไฟล์ที่มีการเข้าถึงภายในจำนวนวันที่ผ่านมา | fs.lastAccessedDays=number-of-days
ทำการ Crawl เนื้อหาเฉพาะเมื่อเวลาเข้าถึงล่าสุดอยู่ภายในจำนวนวันก่อนถึงเวลาปัจจุบัน ค่าเริ่มต้นคือ ใช้พร็อพเพอร์ตี้นี้เพื่อกำหนดให้เนื้อหาที่จัดทำดัชนีไว้ก่อนหน้านี้หมดอายุและไม่มีการเข้าถึงมาระยะหนึ่งแล้ว ตัวอย่างเช่น ตั้งค่าเป็น 365 เพื่อรวบรวมข้อมูลเนื้อหาเฉพาะในกรณีที่มีการเข้าถึงในปีที่ผ่านมา หากคุณระบุ |
ทำการ Crawl เฉพาะไฟล์ที่มีการแก้ไขหลังจากวันที่ที่ระบุ | fs.lastModifiedDate=YYYY-MM-DD
ทำการ Crawl เนื้อหาเฉพาะในกรณีที่เวลาที่แก้ไขล่าสุดอยู่หลังจากวันที่ที่ระบุ ค่าเริ่มต้นคือ ระบุวันที่ในรูปแบบวันที่ ISO8601 ดังนี้ YYYY-MM-DD ตัวอย่างเช่น ถ้าค่าคือ 2010-01-01 เครื่องมือเชื่อมต่อจะรวบรวมข้อมูลเฉพาะเนื้อหาที่มีการแก้ไขหลังจากต้นปี 2010 หากคุณระบุ |
ทำการ Crawl เฉพาะไฟล์ที่มีการแก้ไขภายในจำนวนวันที่ผ่านมา | fs.lastModifiedDays=number-of-days
ทำการ Crawl เนื้อหาเฉพาะเมื่อเวลาที่แก้ไขล่าสุดอยู่ภายในจำนวนวันก่อนปัจจุบัน ค่าเริ่มต้นคือ ใช้พร็อพเพอร์ตี้นี้เพื่อกำหนดให้เนื้อหาที่จัดทำดัชนีไว้ก่อนหน้านี้หมดอายุและไม่มีการแก้ไขมาระยะหนึ่งแล้ว เช่น ตั้งค่าเป็น 365 เพื่อรวบรวมข้อมูลเนื้อหาเฉพาะในกรณีที่มีการแก้ไขในปีที่ผ่านมา หากคุณระบุ |
ข้ามการควบคุมสิทธิ์เข้าถึงพื้นที่แชร์ไฟล์
โดยค่าเริ่มต้น เครื่องมือเชื่อมต่อจะรักษาความสมบูรณ์ในการควบคุมการเข้าถึงไว้เมื่อเครื่องมือส่งรายการควบคุมการเข้าถึง (ACL) ไปยัง API การจัดทำดัชนี รวมถึง ACL ในการแชร์ไฟล์ แต่ในการกำหนดค่าบางอย่าง เครื่องมือเชื่อมต่ออาจมีสิทธิ์ไม่เพียงพอที่จะอ่าน ACL การแชร์ ในกรณีดังกล่าว เครื่องมือเชื่อมต่อจะไม่แสดงไฟล์ใดๆ ที่เก็บรักษาไว้ในพื้นที่แชร์ไฟล์นั้นในผลการค้นหา
คุณสามารถตั้งค่าเครื่องมือเชื่อมต่อให้ละเว้น ACL การแชร์เพื่อให้เนื้อหาปรากฏในผลการค้นหาเสมอ ในกรณีนี้ API การจัดทำดัชนีจะได้รับ ACL สำหรับการแชร์ที่มีสิทธิ์ทั้งหมด แทนที่จะเป็น ACL ของการแชร์จริง
การตั้งค่า | พารามิเตอร์ |
ข้ามการควบคุมสิทธิ์เข้าถึงพื้นที่แชร์ไฟล์ | fs.skipShareAccessControl=boolean
ตั้งค่าเป็น |