Вы можете настроить Google Cloud Search так, чтобы он возвращал результаты из общих ресурсов Microsoft Windows вашей организации в дополнение к содержимому Google Workspace. Вы используете соединитель файловых систем Google Cloud Search и настраиваете его для доступа к указанным общим ресурсам Windows. Один экземпляр соединителя может поддерживать несколько общих ресурсов Microsoft Windows.
Важные соображения
Непрерывные автоматические обновления
По умолчанию соединитель постоянно отслеживает пути запуска (значения из fs.src
в файле конфигурации соединителя) при запуске соединителя. Когда файловая система сообщает об изменениях в содержимом или элементах управления доступом, соединитель срабатывает для повторного сканирования файловой системы. Такое повторное сканирование может оказаться ресурсоемким. Чтобы отключить мониторинг файловой системы, установите для fs.monitorForUpdates
значение false
. Вы значительно сокращаете использование ресурсов соединителя, но задерживаетесь, когда соединитель отражает изменения. Узнать больше
Контроль доступа DFS
Система DFS применяет контроль доступа к своим каналам, и обычно каждое соединение DFS имеет собственный список управления доступом. Одним из механизмов, который использует DFS, является перечисление на основе доступа (ABE), которое может ограничивать ссылки DFS, возвращаемые пользователю. Пользователи могут получить только часть ссылок DFS или даже только одну ссылку, когда ABE изолирует размещенные домашние каталоги. Когда соединитель проходит через систему DFS, он учитывает ACL канала DFS и общий ACL целевого ресурса, а общий ACL наследует от ACL DFS.
Известные ограничения
- Файловая система : соединитель файловых систем не поддерживает подключенные и локальные диски.
- Распределенная файловая система : подключенный к UNC DFS диск работает неправильно. Некоторые списки ACL читаются неправильно.
- Соединитель файловых систем поддерживает пространства имен и ссылки распределенной файловой системы (DFS). Однако соединитель поддерживает ссылки DFS только в пространстве имен DFS, а не обычные папки в пространстве имен DFS.
- Ссылки на файлы, возвращаемые в Cloudsearch.google.com, не доступны для кликов. Ссылки на файлы, возвращаемые API запросов, также недоступны для кликов в большинстве браузеров.
Системные требования
Системные требования | |
---|---|
Операционная система |
|
Программное обеспечение |
|
Протоколы файловой системы |
Не поддерживаются: локальные файловые системы Windows, сетевая файловая система Sun (NFS) 2.0, сетевая файловая система Sun (NFS) 3.0 или локальная файловая система Linux. |
Развертывание соединителя
Предварительные условия
Прежде чем развертывать коннектор файловых систем Cloud Search, убедитесь, что в вашей среде есть все следующие необходимые компоненты:
Информация Google Workspace, необходимая для установления связи между Google Cloud Search и источником данных:
- Закрытый ключ Google Workspace (который содержит идентификатор сервисного аккаунта). Информацию о получении закрытого ключа можно найти в разделе Настройка доступа к REST API Google Cloud Search .
- Идентификатор источника данных Google Workspace. Информацию о получении идентификатора источника данных см. в разделе Добавление источника данных для поиска .
- Идентификатор источника идентификации. Сведения о том, как получить идентификатор источника удостоверений, см. в разделе Создание источника удостоверений . Если вы синхронизируете каталог Google Workspace с Active Directory, настройте источник удостоверений с помощью GCDS .
Администратор Google Workspace вашей организации обычно может предоставить вам эти учетные данные.
Убедитесь, что учетная запись Windows имеет достаточные разрешения, как описано в следующем разделе.
Необходимые разрешения учетной записи Microsoft Windows
Учетная запись Microsoft Windows, под которой работает соединитель, должна иметь достаточные разрешения для выполнения следующих действий:
- Перечислить содержимое папок
- Ознакомьтесь с содержанием документов
- Чтение атрибутов файлов и папок
- Разрешения на чтение (ACL) как для файлов, так и для папок.
- Разрешения на запись основных атрибутов
Членство в одной из следующих групп предоставляет учетной записи Windows достаточные разрешения, необходимые для соединителя:
- Администраторы
- Опытные пользователи
- Операторы печати
- Операторы сервера
Шаг 1. Установите коннектор файловых систем Google Cloud Search.
Получите репозиторий соединителя с GitHub и создайте его.
Чтобы использовать git на сервере Windows:
Клонируем репозиторий:
> git clone https://github.com/google-cloudsearch/windows-filesystems-connector.git > cd windows-filesystems-connector
Ознакомьтесь с желаемой версией разъема:
> git checkout tags/v1-0.0.3
Чтобы загрузить напрямую с GitHub:
- Перейдите по адресу https://github.com/google-cloudsearch/windows-filesystems-connector .
- Нажмите «Клонировать» или загрузите Загрузите zip-архив .
- Разархивируйте пакет.
- Перейдите в новый каталог:
> cd windows-filesystems-connector
Создайте соединитель. При необходимости установите Apache Maven .
> mvn package
Чтобы пропустить тесты при сборке соединителя, запустите
mvn package -DskipTests
вместоmvn package
.Скопируйте zip-файл соединителя в локальный каталог установки:
> cp target/google-cloudsearch-windows-filesystems-connector-v1-0.0.3.zip installation-dir > cd installation-dir > unzip google-cloudsearch-windows-filesystems-connector-v1-0.0.3.zip > cd google-cloudsearch-windows-filesystems-connector-v1-0.0.3
Шаг 2. Создайте файл конфигурации коннектора.
В том же каталоге, где установлен коннектор, создайте файл и назовите его
connector-config.properties
.Добавьте к содержимому файла параметры в виде пар ключ/значение, как показано в следующем примере:
### File system connector configuration ### # Required parameters for Cloud Search data source and identity source access api.serviceAccountPrivateKeyFile=/path/to/file.json api.sourceId=0123456789abcde api.identitySourceId=a1b1c1234567 # Required parameters for file system access fs.src=\\\\host\\share;\\\\dfshost\\dfsnamespace;\\\\dfshost\\dfsnamespace\\link # Optional parameters for file system monitoring traverse.abortAfterExceptions=500 fs.monitorForUpdates = true fs.preserveLastAccessTime = IF_ALLOWED
Подробное описание каждого параметра можно найти в справочнике по параметрам конфигурации .
(Необязательно) При необходимости настройте другие параметры соединителя. Подробную информацию см. в разделе «Параметры соединителя, предоставленные Google» .
Шаг 3. Включите ведение журнала
- Создайте папку с именем
logs
в каталоге, содержащем двоичный файл соединителя. Создайте файл ASCII или UTF-8 с именем
logging.properties
в каталоге, содержащем двоичный файл соединителя, и добавьте следующее содержимое:handlers = java.util.logging.ConsoleHandler,java.util.logging.FileHandler # Default log level .level = WARNING com.google.enterprise.cloudsearch.level = INFO com.google.enterprise.cloudsearch.fs.level = INFO # uncomment line below to increase logging level to enable API trace #com.google.api.client.http.level = FINE java.util.logging.ConsoleHandler.level = INFO java.util.logging.FileHandler.pattern=logs/connector-fs.%g.log java.util.logging.FileHandler.limit=10485760 java.util.logging.FileHandler.count=10 java.util.logging.FileHandler.formatter=java.util.logging.SimpleFormatter
Шаг 4. (Необязательно) Настройте типы мультимедиа
По умолчанию соединитель пытается определить тип носителя для каждого файла с помощью определения типа носителя , предоставляемого JDK . В Microsoft Windows JDK использует реестр Windows для определения типов носителей для файлов. Отсутствие записи в реестре может привести к тому, что для некоторых файлов будет указан нулевой тип носителя.
При необходимости вы можете указать тип носителя, который перезаписывает любые существующие привязки или предотвращает использование нулевого типа носителя.
- В каталоге соединителя создайте файл, зашифрованный Latin-1, с именем
mime-type.properties
. Введите расширения файлов и соответствующие им типы мультимедиа, как показано в следующих примерах:
xlsx=application/vnd.openxmlformats-officedocument.spreadsheetml.sheet one=application/msonenote txt=text/plain pdf=application/pdf
Шаг 5. Запустите соединитель файловых систем.
После установки и настройки соединителя файловых систем, чтобы запустить его на хост-компьютере, выполните команду, подобную следующему примеру:
> java -jar google-cloudsearch-windows-filesystems-connector-v1-0.0.3.jar -Djava.util.logging.config.file=logging.properties[ -Dconfig=my.config]
Укажите путь к файлу конфигурации, если он отличается от пути по умолчанию (в том же каталоге, что и двоичный файл с именем connector-config.properties
).
Справочник параметров конфигурации
Доступ к источнику данных
Параметр | Параметр |
Идентификатор источника данных | api.sourceId= 1234567890abcdef Необходимый. Идентификатор источника Google Cloud Search, установленный администратором Google Workspace. |
Путь к файлу закрытого ключа сервисного аккаунта | api.serviceAccountPrivateKeyFile= ./PrivateKey.json Необходимый. Ключевой файл учетной записи службы Google Cloud Search, обеспечивающий доступность коннектора файловых систем Google Cloud Search. |
Идентификатор источника идентификационной информации | api.identitySourceId= x0987654321 Необходимый. Идентификатор источника удостоверений Cloud Search, настроенный администратором Google Workspace для синхронизации удостоверений Active Directory с помощью GCDS . |
Доступ к файловой системе
Параметр | Параметр |
Исходные файловые системы | fs.src= path1 [, path2 , ...] Необходимый. Укажите исходные файловые системы как один или несколько источников UNC, разделенных разделителем, настроенным |
Символ-разделитель пути
Параметр | Параметр |
Символ-разделитель пути | fs.src.separator= separator-character Разделитель по умолчанию — «;». Если исходные пути содержат точки с запятой, вы можете установить другой разделитель, например запятую («,»), который не будет конфликтовать с символами в ваших путях и не зарезервирован самим синтаксисом файла свойств. Если значение |
Поведение соединителя
Параметр | Параметр |
Домен Windows | fs.supportedDomain= domain Требуется, чтобы пользователи, настроенные с помощью GCDS, могли получать доступ к документам через Cloud Search. Укажите одно доменное имя NetBIOS Active Directory. |
Включить учетные записи в ACLS | fs.supportedAccounts= account-1[, account-2,...] Список учетных записей, разделенных запятыми, которые необходимо включить в списки ACL, независимо от того, являются ли они встроенными учетными записями. Значение по умолчанию: |
Исключить встроенные учетные записи из списков управления доступом | fs.builtinGroupPrefix= prefix Укажите префикс встроенных учетных записей. Учетная запись, имя которой начинается с этого префикса, считается встроенной и будет исключена из списков управления доступом. Значение по умолчанию — |
Разрешить индексирование скрытых файлов и папок | fs.crawlHiddenFiles= boolean Установите значение |
Разрешить индексирование списков папок для обхода и перечислений пространства имен DFS. | fs.indexFolders= boolean Если установлено |
Включить мониторинг изменений файловой системы | fs.monitorForUpdates= boolean Если установлено |
Установить максимальный размер кэша каталогов | fs.directoryCacheSize= number-of-entries Максимальный размер кэша каталога. Соединитель использует кэш для определения скрытых папок, чтобы избежать индексации файлов и папок в скрытых папках. По умолчанию установлено 50 000 записей, которые обычно занимают 10–15 мегабайт ОЗУ. |
Сохранение временных меток и контроль сканирования
Параметр | Параметр |
Сохранять временную метку последнего доступа | fs.preserveLastAccessTime= value Когда соединитель выполняет обход файлов и папок, он может изменить метку времени последнего доступа к файлам и папкам на время обхода. Если время последнего доступа не сохраняется, системы резервного копирования и архивирования могут не переместить соответствующие файлы и папки во вторичное хранилище из-за посещения соединителя. По умолчанию соединитель пытается сохранить время последнего доступа (для Возможные значения:
|
Сканировать только те файлы, к которым был осуществлен доступ после определенной даты. | fs.lastAccessedDate= YYYY-MM-DD Сканировать контент только в том случае, если время последнего доступа было после указанной даты. Значение по умолчанию Укажите дату в формате даты ISO8601 : ГГГГ-ММ-ДД. Например, если значение равно 01.01.2010, соединитель сканирует только контент, доступ к которому осуществлялся после начала 2010 года. Если вы укажете |
Сканировать только те файлы, к которым обращались в течение последних дней. | fs.lastAccessedDays= number-of-days Сканировать контент только в том случае, если время последнего доступа находится в пределах количества дней, предшествующих текущему. Значение по умолчанию Используйте это свойство, чтобы истечь срок действия ранее проиндексированного контента, к которому давно не было доступа. Например, установите значение 365, чтобы сканировать контент только в том случае, если к нему обращались в прошлом году. Если вы укажете |
Сканировать только файлы, которые были изменены после определенной даты. | fs.lastModifiedDate= YYYY-MM-DD Сканировать контент только в том случае, если время последнего изменения произошло после указанной даты. Значение по умолчанию Укажите дату в формате даты ISO8601 : ГГГГ-ММ-ДД. Например, если значение — 01.01.2010, соединитель сканирует только контент, измененный после начала 2010 года. Если вы укажете |
Сканировать только те файлы, которые были изменены за последние несколько дней. | fs.lastModifiedDays= number-of-days Сканировать контент только в том случае, если время последнего изменения находится в пределах количества дней, предшествующих текущему. Значение по умолчанию Используйте это свойство, чтобы истечь срок действия ранее проиндексированного содержимого, которое не менялось в течение некоторого времени. Например, установите значение 365 для сканирования контента, только если он был изменен за последний год. Если вы укажете |
Пропустить контроль доступа к общему файловому ресурсу
По умолчанию соединитель сохраняет целостность управления доступом при отправке списков управления доступом (ACL) в API индексирования, включая списки ACL в общем файловом ресурсе. Однако в некоторых конфигурациях соединитель может не иметь достаточных разрешений для чтения общего списка управления доступом. В этих случаях соединитель не возвращает в результатах поиска файлы, хранящиеся в этом файловом ресурсе.
Вы можете настроить соединитель на игнорирование общего списка управления доступом, чтобы содержимое всегда возвращалось в результатах поиска. В этом случае API индексирования получает полностью разрешающий общий список управления доступом, а не фактический общий список управления доступом.
Параметр | Параметр |
Пропустить контроль доступа к общему файловому ресурсу | fs.skipShareAccessControl= boolean Установите значение |