Wdrażanie oprogramowania sprzęgającego CSV

Ten przewodnik jest przeznaczony dla administratorów oprogramowania sprzęgającego Google Cloud Search CSV (wartości rozdzielanych przecinkami), czyli wszystkich osób odpowiedzialnych za pobieranie, konfigurowanie, uruchamianie i monitorowanie oprogramowania sprzęgającego.

Ten przewodnik zawiera instrukcje wykonywania najważniejszych zadań związanych z wdrażaniem oprogramowania sprzęgającego CSV:

  • Pobierz oprogramowanie sprzęgające narzędzia Google Cloud Search CSV
  • Skonfiguruj oprogramowanie sprzęgające do użycia z określonym źródłem danych CSV
  • Wdróż i uruchom oprogramowanie sprzęgające

Aby zrozumieć pojęcia omówione w tym dokumencie, musisz znać podstawy Google Workspace oraz pliki CSV i listy kontroli dostępu (ACL).

Omówienie oprogramowania sprzęgającego Google Cloud Search CSV

Oprogramowanie sprzęgające Cloud Search CSV obsługuje wszystkie pliki tekstowe CSV z wartościami rozdzielanymi przecinkami. Plik CSV zawiera dane tabelaryczne, a każdy wiersz pliku to rekord danych.

Oprogramowanie sprzęgające Google Cloud Search CSV wyodrębnia poszczególne wiersze z pliku CSV i indeksuje je w Cloud Search za pomocą interfejsu API indeksowania tej usługi. Po zindeksowaniu poszczególne wiersze z plików CSV można przeszukiwać za pomocą klientów Cloud Search lub interfejsu Query API Cloud Search. Oprogramowanie sprzęgające CSV umożliwia również kontrolowanie dostępu użytkowników do treści w wynikach wyszukiwania za pomocą list kontroli dostępu.

Oprogramowanie sprzęgające Google Cloud Search CSV można zainstalować w systemie Linux lub Windows. Zanim wdrożysz oprogramowanie sprzęgające Google Cloud Search CSV, sprawdź, czy masz te wymagane komponenty:

  • Środowisko Java JRE 1.8 zainstalowane na komputerze z oprogramowaniem sprzęgającym Google Cloud Search CSV
  • Informacje z Google Workspace wymagane do nawiązania relacji między Google Cloud Search a źródłem danych:

    Zwykle te dane logowania może podać administrator Google Workspace w domenie.

Etapy wdrażania

Aby wdrożyć oprogramowanie sprzęgające Google Cloud Search CSV, wykonaj te czynności:

  1. Instalowanie oprogramowania sprzęgającego Google Cloud Search CSV
  2. Określanie konfiguracji oprogramowania sprzęgającego CSV
  3. Konfigurowanie dostępu do źródła danych Google Cloud Search
  4. Konfigurowanie dostępu do pliku CSV
  5. Określanie nazw kolumn do indeksowania, unikalnych kolumn kluczy i kolumn daty i godziny
  6. Określanie kolumn, które mają być używane w klikalnych adresach URL wyników wyszukiwania
  7. Określanie informacji o metadanych i formatów kolumn
  8. Planowanie przemierzania danych
  9. Określanie opcji listy kontroli dostępu (ACL)

1. Zainstaluj pakiet SDK

Zainstaluj pakiet SDK w lokalnym repozytorium Maven.

  1. Sklonuj repozytorium SDK z GitHuba.

    $ git clone https://github.com/google-cloudsearch/connector-sdk.git
    $ cd connector-sdk/csv
  2. Sprawdź odpowiednią wersję pakietu SDK:

    $ git checkout tags/v1-0.0.3
  3. Utwórz oprogramowanie sprzęgające:

    $ mvn package
  4. Skopiuj plik ZIP oprogramowania sprzęgającego do lokalnego katalogu instalacji:

    $ cp target/google-cloudsearch-csv-connector-v1-0.0.3.zip installation-dir
    $ cd installation-dir
    $ unzip google-cloudsearch-csv-connector-v1-0.0.3.zip
    $ cd google-cloudsearch-csv-connector-v1-0.0.3

2. Określ konfigurację oprogramowania sprzęgającego CSV

Jako administrator oprogramowania sprzęgającego masz kontrolę nad działaniem oprogramowania sprzęgającego CSV oraz atrybutami definiującymi parametry w pliku konfiguracji oprogramowania sprzęgającego. Konfigurowalne parametry obejmują:

  • Dostęp do źródła danych
  • Lokalizacja pliku CSV
  • Definicje kolumn CSV
  • Kolumny definiujące unikalny identyfikator
  • Opcje przemierzania
  • Opcje list kontroli dostępu (ACL) do ograniczania dostępu do danych

Aby oprogramowanie sprzęgające mogło prawidłowo uzyskać dostęp do pliku CSV i zindeksować odpowiednią treść, musisz najpierw utworzyć jego plik konfiguracji.

Aby utworzyć plik konfiguracji:

  1. Otwórz wybrany edytor tekstu i nazwij plik konfiguracji.
    Dodaj do zawartości pliku pary klucz=wartość zgodnie z opisem w sekcjach poniżej.
  2. Zapisz plik konfiguracji i nadaj mu nazwę.
    Google zaleca nazwę pliku konfiguracji connector-config.properties, dzięki czemu do uruchomienia oprogramowania sprzęgającego nie są wymagane dodatkowe parametry wiersza poleceń.

W wierszu poleceń można podać ścieżkę pliku konfiguracji, więc standardowa lokalizacja pliku nie jest wymagana. Plik konfiguracji należy jednak umieścić w tym samym katalogu, w którym znajduje się oprogramowanie sprzęgające, aby uprościć śledzenie i uruchamianie oprogramowania sprzęgającego.

Aby oprogramowanie sprzęgające rozpoznawało plik konfiguracji, podaj jego ścieżkę w wierszu poleceń. W przeciwnym razie oprogramowanie sprzęgające będzie używać connector-config.properties z katalogu lokalnego jako domyślnej nazwy pliku. Informacje o określaniu ścieżki konfiguracji w wierszu poleceń znajdziesz w artykule Uruchamianie oprogramowania sprzęgającego Cloud Search CSV.

3. Skonfiguruj dostęp do źródła danych Google Cloud Search

Pierwsze parametry, które musi określać każdy plik konfiguracji, to parametry niezbędne do uzyskania dostępu do źródła danych Cloud Search, jak pokazano w tabeli poniżej. Zwykle do skonfigurowania dostępu oprogramowania sprzęgającego do Cloud Search są potrzebne identyfikator źródła danych, identyfikator konta usługi i ścieżka do pliku klucza prywatnego konta usługi. Czynności wymagane do skonfigurowania źródła danych opisano w artykule Zarządzanie zewnętrznymi źródłami danych.

Ustawienie Parametr
Identyfikator źródła danych api.sourceId=1234567890abcdef

Wymagane. Identyfikator źródła Google Cloud Search skonfigurowany przez administratora Google Workspace zgodnie z opisem w artykule Zarządzanie zewnętrznymi źródłami danych.

Ścieżka do pliku klucza prywatnego konta usługi api.serviceAccountPrivateKeyFile=./PrivateKey.json

Wymagane. Plik klucza konta usługi Google Cloud Search na potrzeby ułatwień dostępu w oprogramowaniu sprzęgającym Google Cloud Search CSV.

Identyfikator źródła tożsamości api.identitySourceId=x0987654321

Wymagane, jeśli korzystasz z zewnętrznych użytkowników i grup. Identyfikator źródła tożsamości Google Cloud Search skonfigurowany przez administratora Google Workspace.

4. Skonfiguruj parametry pliku CSV

Zanim oprogramowanie sprzęgające będzie mogło przeszukiwać plik CSV i wyodrębniać z niego dane do indeksowania, musisz określić ścieżkę do pliku. Możesz też określić format pliku i typ kodowania. Dodaj te parametry, aby określić właściwości pliku CSV w pliku konfiguracji.

Ustawienie Parametr
Ścieżka do pliku CSV csv.filePath=./movie_content.csv

Wymagane. Ścieżka do pliku CSV, do którego chcesz uzyskać dostęp i wyodrębnić treść do zindeksowania.

Format pliku csv.format=DEFAULT

Format pliku. Możliwe wartości pochodzą z klasy CSVFormat pliku Apache Commons.

Wartości formatu obejmują: DEFAULT, EXCEL, INFORMIX_UNLOAD, INFORMIX_UNLOAD_CSV, MYSQL, RFC4180, ORACLE, POSTGRESQL_CSV, POSTGRESQL_TEXT i TDF. Jeśli nie określono inaczej, Cloud Search używa DEFAULT.

Modyfikator formatu pliku csv.format.withMethod=value

Modyfikacja sposobu obsługi pliku przez Cloud Search. Możliwe metody pochodzą z klasy Apache Commons CSV CSVFormat i obejmują te, które wykorzystują pojedynczy znak, ciąg lub wartość logiczną.

Aby na przykład określić średnik jako separator, użyj csv.format.withDelimiter=;. Aby zignorować puste wiersze, użyj csv.format.withIgnoreEmptyLines=true.

Typ kodowania pliku csv.fileEncoding=UTF-8

Zestaw znaków Java, który ma być używany, gdy Cloud Search odczytuje plik. Jeśli nie określono inaczej, Cloud Search używa domyślnego zestawu znaków platformy.

5. Określ nazwy kolumn do indeksowania i unikalne kolumny kluczy

Aby oprogramowanie sprzęgające mogło uzyskiwać dostęp do plików CSV i je indeksować, w pliku konfiguracji musisz podać informacje o definicjach kolumn. Jeśli plik konfiguracji nie zawiera parametrów określających nazwy kolumn do indeksowania i unikalnych kolumn kluczy, używane są wartości domyślne.

Ustawienie Parametr
Kolumny do zindeksowania csv.csvColumns=movieId,movieTitle,description,actors,releaseDate,year,userratings...

Nazwy kolumn do zindeksowania z pliku CSV. Jeśli zasada csv.csvColumns nie jest skonfigurowana, za nagłówek jest używany pierwszy wiersz pliku CSV. Jeśli jest ustawiona wartość csv.csvColumns, ma pierwszeństwo przed pierwszym wierszem pliku CSV. Jeśli ustawiono csv.csvColumns, a pierwszy wiersz w pliku CSV jest listą nazw kolumn, musisz ustawić csv.skipHeaderRecord=true, aby uniknąć próby zindeksowania pierwszego wiersza jako danych. Wartości domyślne to kolumny w wierszu nagłówka pliku.

Unikalne kolumny kluczy csv.uniqueKeyColumns=movieId

Kolumny w pliku CSV, których wartości zostaną wykorzystane do wygenerowania unikalnego identyfikatora każdego rekordu. Jeśli rekord CSV nie zostanie określony, jako jego unikalnego klucza należy użyć skrótu rekordu CSV. Wartość domyślna to kod skrótu rekordu.

6. Określ kolumny do użycia w klikalnych adresach URL wyników wyszukiwania

Gdy użytkownik przeprowadza wyszukiwanie w Google Cloud Search, w odpowiedzi wyświetla się strona wyników, która zawiera klikalne adresy URL każdego z nich. Aby włączyć tę funkcję, musisz dodać do pliku konfiguracji parametr pokazany w tej tabeli.

Ustawienie Parametr
Format adresu URL wyniku wyszukiwania url.format=https://mymoviesite.com/movies/{0}

Wymagane. Format do utworzenia adresu URL widoku treści CSV.

Parametry adresu URL wyników wyszukiwania. url.columns=movieId

Wymagane. Nazwy kolumn w pliku CSV, których wartości zostaną wykorzystane do wygenerowania adresu URL widoku rekordu.

Parametry adresu URL z wynikami wyszukiwania do zmiany znaczenia url.columnsToEscape=movieId

Opcjonalnie. Nazwy kolumn w pliku CSV, których wartości zostaną zmienione po zmianie znaczenia adresu URL w celu wygenerowania prawidłowego adresu URL widoku.

7. Określanie metadanych, formatów kolumn i jakości wyszukiwania

Do pliku konfiguracji możesz dodać parametry określające:

Parametry konfiguracji metadanych

Parametry konfiguracji metadanych opisują kolumny CSV używane do wypełniania metadanych produktu. Jeśli plik konfiguracji nie zawiera tych parametrów, używane są wartości domyślne. Te parametry znajdziesz w tabeli poniżej.

Ustawienie Parametr
Tytuł itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind

Atrybut metadanych zawierający wartość odpowiadającą tytułowi dokumentu. Wartością domyślną jest pusty ciąg znaków.

URL itemMetadata.sourceRepositoryUrl.field=url
itemMetadata.sourceRepositoryUrl.defaultValue=https://www.imdb.com/title/tt0031381/
Atrybut metadanych, który zawiera wartość adresu URL dokumentu na potrzeby wyników wyszukiwania.
Sygnatura czasowa utworzenia itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17

Atrybut metadanych zawierający wartość sygnatury czasowej utworzenia dokumentu.

Czas ostatniej modyfikacji itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17

Atrybut metadanych zawierający wartość sygnatury czasowej ostatniej modyfikacji dokumentu.

Język dokumentów itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US

Język treści indeksowanych dokumentów.

Typ obiektu schematu itemMetadata.objectType.field=type
itemMetadata.objectType.defaultValue=movie

Typ obiektu używany przez oprogramowanie sprzęgające, jak określono w schemacie. Jeśli ta właściwość nie jest określona, oprogramowanie sprzęgające nie zindeksuje żadnych uporządkowanych danych.

Formaty daty i godziny

Formaty daty i godziny określają formaty, które powinny być stosowane w atrybutach metadanych. Jeśli plik konfiguracji nie zawiera tego parametru, używane są wartości domyślne. Ten parametr znajduje się w tabeli poniżej.

Ustawienie Parametr
Dodatkowe formaty daty i godziny structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
Lista rozdzielonych średnikami dodatkowych wzorców java.time.format.DateTimeFormatter. Wzorce są używane podczas analizowania wartości ciągów dla dowolnych pól daty lub daty i godziny w metadanych lub schemacie. Wartość domyślna to pusta lista, ale formaty RFC 3339 i RFC 1123 są zawsze obsługiwane.

Formaty kolumn

Formaty kolumn określają informacje o kolumnach, które powinny być częścią możliwej do wyszukiwania treści. Jeśli plik konfiguracji nie zawiera tych parametrów, używane są wartości domyślne. Te parametry znajdziesz w tabeli poniżej.

Ustawienie Parametr
Pomiń nagłówek csv.skipHeaderRecord=true

Wartość logiczna. Zignoruj rekord nagłówka (pierwszy wiersz) w pliku CSV. Jeśli masz ustawiony wiersz csv.csvColumns, a plik CSV ma wiersz nagłówka, musisz ustawić skipHeaderRecord=true. Uniemożliwia to indeksowanie pierwszego wiersza w pliku jako danych. Jeśli plik CSV nie ma wiersza nagłówka, ustaw skipHeaderRecord=false. Wartość domyślna to false (fałsz).

Kolumny z wieloma wartościami csv.multiValueColumns=genre,actors

Nazwy kolumn w pliku CSV, które zawierają wiele wartości. Wartością domyślną jest pusty ciąg znaków.

Separator kolumn z wieloma wartościami csv.multiValue.genre=;

Separator kolumn z wieloma wartościami. Domyślnym separatorem jest przecinek.

Jakość wyszukiwania

Oprogramowanie sprzęgające CSV w Cloud Search umożliwia automatyczne formatowanie HTML pól danych. Oprogramowanie sprzęgające definiuje pola danych na początku wykonywania oprogramowania sprzęgającego, a następnie używa szablonu treści do sformatowania każdego rekordu danych przed przesłaniem go do Cloud Search.

Szablon treści określa znaczenie każdej wartości pola w kontekście wyszukiwania. Pole tytułu jest wymagane i ma najwyższy priorytet. W przypadku pozostałych pól treści możesz oznaczyć poziomy ważności dotyczące jakości wyszukiwania: wysoka, średnia lub niska. Wszystkie pola treści, które nie są zdefiniowane w konkretnej kategorii, mają domyślnie niski priorytet. Te parametry znajdziesz w tabeli poniżej.

Ustawienie Parametr
Tytuł treści contentTemplate.csv.title=movieTitle

Tytuł treści to pole o najwyższej jakości wyszukiwania.

Wysoka jakość wyszukiwania w polach treści contentTemplate.csv.quality.high=actors

Pola treści o wysokiej wartości jakości wyszukiwania. Wartość domyślna to pusty ciąg znaków.

Niska jakość wyszukiwania w polach treści contentTemplate.csv.quality.low=genre

Pola treści o niskiej wartości jakości wyszukiwania. Wartość domyślna to pusty ciąg znaków.

Średnia jakość wyszukiwania w przypadku pól treści contentTemplate.csv.quality.medium=description

Pola treści o średniej wartości jakości wyszukiwania. Wartość domyślna to pusty ciąg znaków.

Nieokreślone pola treści contentTemplate.csv.unmappedColumnsMode=IGNORE

Jak oprogramowanie sprzęgające obsługuje nieokreślone pola treści. Prawidłowe wartości to:

  • APPEND – do szablonu możesz dołączyć nieokreślone pola treści.
  • IGNORE – ignoruj nieokreślone pola treści.

    Wartość domyślna to APPEND.

8. Zaplanuj przemierzanie danych

Traversal to proces wykrywania treści ze źródła danych, w tym przypadku w pliku CSV. Podczas działania oprogramowania sprzęgającego CSV sprawdzi wiersze w pliku CSV i zindeksuje każdy wiersz w Cloud Search za pomocą interfejsu Indexing API.

Przemierzanie pełnego powoduje indeksowanie wszystkich kolumn w pliku. Przemierzanie przyrostowe indeksuje tylko te kolumny, które zostały dodane lub zmodyfikowane od poprzedniego przemierzania. Oprogramowanie sprzęgające CSV wykonuje tylko pełne przemierzanie. Nie wykonuje ona stopniowej przemierzania.

Parametry planowania określają, jak często oprogramowanie sprzęgające oczekuje między przemierzaniami. Jeśli plik konfiguracji nie zawiera parametrów harmonogramu, używane są wartości domyślne. Te parametry znajdziesz w tabeli poniżej.

Ustawienie Parametr
Pełne przemierzanie po interwale schedule.traversalIntervalSecs=7200

Oprogramowanie sprzęgające wykonuje pełne przemierzenie po określonym czasie. Określ interwał między przemierzaniami w sekundach. Wartość domyślna to 86400 (liczba sekund w ciągu jednego dnia).

Pełne przemierzanie podczas uruchamiania oprogramowania sprzęgającego schedule.performTraversalOnStart=false

Oprogramowanie sprzęgające wykonuje pełny przemierzanie podczas uruchamiania oprogramowania sprzęgającego, zamiast czekać na zakończenie pierwszego interwału. Wartość domyślna to true.

9. Określ opcje listy kontroli dostępu (ACL)

Oprogramowanie sprzęgające CSV Google Cloud Search obsługuje uprawnienia na podstawie list kontroli dostępu, aby kontrolować dostęp do zawartości pliku CSV w wynikach wyszukiwania. Dostępnych jest wiele opcji kontroli dostępu (ACL), które umożliwiają ochronę użytkowników dostępu do zindeksowanych rekordów.

Jeśli Twoje repozytorium zawiera osobne informacje ACL powiązane z każdym dokumentem, prześlij wszystkie takie informacje, aby kontrolować dostęp do dokumentów w Cloud Search. Jeśli repozytorium zawiera częściowe informacje o kontroli dostępu (ACL) lub nie zawiera ich wcale, możesz podać domyślne informacje o liście kontroli dostępu (ACL) w poniższych parametrach, które pakiet SDK dostarczy łącznikowi.

Oprogramowanie sprzęgające korzysta z domyślnych list kontroli dostępu (ACL) włączonych w pliku konfiguracji. Aby włączyć domyślne listy kontroli dostępu, ustaw defaultAcl.mode na dowolny tryb inny niż none i skonfiguruj go za pomocą ustawienia defaultAcl.*

Ustawienie Parametr
Tryb listy kontroli dostępu (ACL) defaultAcl.mode=wartość zastępcza

Wymagane. Oprogramowanie sprzęgające CSV korzysta z funkcji domyślnej listy kontroli dostępu (ACL). Oprogramowanie sprzęgające obsługuje tylko tryb awaryjny.

Nazwa domyślnej listy kontroli dostępu defaultAcl.name=VIRTUAL_CONTAINER_FOR_CONNECTOR_1

Opcjonalnie. Umożliwia zastąpienie nazwy kontenera wirtualnego używanej przez oprogramowanie sprzęgające do konfigurowania domyślnych list kontroli dostępu. Wartość domyślna to „DEFAULT_ACL_VIRTUAL_CONTAINER”. Możesz zastąpić tę wartość, jeśli wiele oprogramowania sprzęgającego indeksuje treści z tego samego źródła danych.

Domyślna publiczna lista kontroli dostępu (ACL) defaultAcl.public=true

Domyślna lista kontroli dostępu używana dla całego repozytorium jest ustawiona na dostęp z domeny publicznej. Wartość domyślna to false (fałsz).

Popularni czytelnicy grup ACL defaultAcl.readers.groups=google:group1, group2
Popularni czytelnicy listy ACL defaultAcl.readers.users=user1, user2, google:user3
Często odmawiani czytelnicy grup na liście kontroli dostępu (ACL) defaultAcl.denied.groups=group3
Często odmawiani czytelnicy z listy ACL defaultAcl.denied.users=user4, user5
Dostęp do całej domeny Aby każdy indeksowany rekord był publicznie dostępny dla każdego użytkownika w domenie, ustaw wartości w obu tych opcjach:
  • defaultAcl.mode=wartość zastępcza
  • defaultAcl.public=true
Wspólna zdefiniowana lista kontroli dostępu (ACL) Aby określić jedną listę kontroli dostępu dla każdego rekordu repozytorium danych, ustaw wszystkie następujące wartości parametrów:
  • defaultAcl.mode=wartość zastępcza
  • defaultAcl.public=false
  • defaultAcl.readers.groups=google:group1, group2
  • defaultAcl.readers.users=user1, user2, google:user3
  • defaultAcl.denied.groups=group3
  • defaultAcl.denied.users=user4, user5

    Każdy określony użytkownik i grupa jest zakładany jako użytkownik/grupa zdefiniowana w domenie lokalnej, chyba że ma prefiks „google:” (stała dosłowna).

    Domyślny użytkownik lub domyślna grupa to pusty ciąg znaków. Podaj opcje użytkownika i grupy tylko wtedy, gdy defaultAcl.public ma wartość false. Aby wymienić wiele grup i użytkowników, użyj listy rozdzielanej przecinkami.

    Jeśli zasada defaultAcl.mode ma wartość none, rekordy nie można przeszukiwać bez zdefiniowanych indywidualnych list kontroli dostępu.

Definicja schematu

Cloud Search umożliwia indeksowanie i wyświetlanie treści uporządkowanych i nieuporządkowanych. Aby obsługiwać zapytania dotyczące uporządkowanych danych, musisz skonfigurować schemat dla źródła danych.

Po zdefiniowaniu oprogramowania sprzęgającego CSV może odwoływać się do zdefiniowanego schematu, aby tworzyć żądania indeksowania. Aby to zilustrować, pokażemy plik CSV z informacjami o filmach.

Załóżmy, że wejściowy plik CSV zawiera następującą treść.

  1. movieId
  2. movieTitle
  3. opis
  4. rok
  5. releaseDate
  6. aktorów (wiele wartości rozdzielonych przecinkami (,)),
  7. genre (wiele wartości)
  8. oceny

Korzystając z powyższej struktury danych, możesz zdefiniować schemat źródła danych, w ramach którego chcesz indeksować dane z pliku CSV.

{
  "objectDefinitions": [
    {
      "name": "movie",
      "propertyDefinitions": [
        {
          "name": "actors",
          "isReturnable": true,
          "isRepeatable": true,
          "isFacetable": true,
          "textPropertyOptions": {
            "operatorOptions": {
              "operatorName": "actor"
            }
          }
        },
        {
          "name": "releaseDate",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": false,
          "datePropertyOptions": {
            "operatorOptions": {
              "operatorName": "released",
              "lessThanOperatorName": "releasedbefore",
              "greaterThanOperatorName": "releasedafter"
            }
          }
        },
        {
          "name": "movieTitle",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": false,
          "textPropertyOptions": {
            "retrievalImportance": {
              "importance": "HIGHEST"
            },
            "operatorOptions": {
              "operatorName": "title"
            }
          }
        },
        {
          "name": "genre",
          "isReturnable": true,
          "isRepeatable": true,
          "isFacetable": true,
          "enumPropertyOptions": {
            "operatorOptions": {
              "operatorName": "genre"
            },
            "possibleValues": [
              {
                "stringValue": "Action"
              },
              {
                "stringValue": "Documentary"
              },
              {
                "stringValue": "Drama"
              },
              {
                "stringValue": "Crime"
              },
              {
                "stringValue": "Sci-fi"
              }
            ]
          }
        },
        {
          "name": "userRating",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": true,
          "integerPropertyOptions": {
            "orderedRanking": "ASCENDING",
            "maximumValue": "10",
            "operatorOptions": {
              "operatorName": "score",
              "lessThanOperatorName": "scorebelow",
              "greaterThanOperatorName": "scoreabove"
            }
          }
        }
      ]
    }
  ]
}

Przykładowy plik konfiguracji

Poniższy przykładowy plik konfiguracji zawiera pary parametrów key=value, które definiują działanie przykładowego oprogramowania sprzęgającego.

# data source access
api.sourceId=1234567890abcd
api.serviceAccountPrivateKeyFile=./PrivateKey.json

# CSV data structure
csv.filePath=./movie_content.csv
csv.csvColumns=movieId,movieTitle,description,releaseYear,genre,actors,ratings,releaseDate
csv.skipHeaderRecord=true
url.format=https://mymoviesite.com/movies/{0}
url.columns=movieId
csv.datetimeFormat.releaseDate=yyyy-mm-dd
csv.multiValueColumns=genre,actors
csv.multiValue.genre=;
contentTemplate.csv.title=movieTitle

# metadata structured data and content
itemMetadata.title.field=movieTitle
itemMetadata.createTime.field=releaseDate
itemMetadata.contentLanguage.defaultValue=en-US
itemMetadata.objectType.defaultValue=movie
contentTemplate.csv.quality.medium=description
contentTemplate.csv.unmappedColumnsMode=IGNORE

#ACLs
defaultAcl.mode=fallback
defaultAcl.public=true

Szczegółowy opis poszczególnych parametrów znajdziesz w dokumentacji parametrów konfiguracji.

Uruchom oprogramowanie sprzęgające Cloud Search CSV

Aby uruchomić oprogramowanie sprzęgające z wiersza poleceń, wpisz następujące polecenie:

$ java -jar google-cloudsearch-csv-connector-v1-0.0.3.jar -Dconfig=my.config

Domyślnie logi oprogramowania sprzęgającego są dostępne na standardowym wyjściu. Aby logować się do plików, podaj logging.properties.