Wdrażanie oprogramowania sprzęgającego CSV

Ten przewodnik dotyczy plików CSV w Google Cloud Search (wartości rozdzielone przecinkami) administratorów oprogramowania sprzęgającego, czyli wszystkich osób odpowiedzialnych za pobieranie, konfigurowania, uruchamiania i monitorowania oprogramowania sprzęgającego.

Ten przewodnik zawiera instrukcje wykonywania kluczowych zadań związanych z plikiem CSV wdrożenie oprogramowania sprzęgającego:

  • Pobierz oprogramowanie sprzęgające narzędzia Google Cloud Search CSV
  • Skonfiguruj oprogramowanie sprzęgające do użycia z określonym źródłem danych CSV
  • Wdróż i uruchom oprogramowanie sprzęgające

Aby zrozumieć pojęcia omówione w tym dokumencie, musisz znać podstaw Google Workspace, plików CSV i list kontroli dostępu (ACL).

Omówienie oprogramowania sprzęgającego Google Cloud Search CSV

Oprogramowanie sprzęgające Cloud Search CSV obsługuje każdy tekst CSV . Plik CSV zawiera dane tabelaryczne, a każdy wiersz pliku to dane, rekord.

Oprogramowanie sprzęgające CSV Google Cloud Search wyodrębnia poszczególne wiersze z pliku CSV i indeksuje je w Cloud Search za pomocą interfejsu indeksowania interfejsu Cloud Search. Jednorazowo udało się zindeksować, poszczególne wiersze z plików CSV można przeszukiwać Klienty Cloud Search lub interfejs Query API w Cloud Search. Oprogramowanie sprzęgające CSV zawiera także obsługuje kontrolowanie dostępu do treści w wynikach wyszukiwania za pomocą funkcji Listy kontroli dostępu (ACL).

Oprogramowanie sprzęgające Google Cloud Search CSV można zainstalować w systemie Linux lub Windows. Przed wdrożysz oprogramowanie sprzęgające Google Cloud Search CSV, sprawdź, czy masz tych wymaganych komponentów:

  • Środowisko Java JRE 1.8 zainstalowane na komputerze z plikiem CSV Google Cloud Search oprogramowanie sprzęgające
  • Informacje Google Workspace wymagane do nawiązania relacji między Google Cloud Search i źródło danych:

    Zwykle administrator Google Workspace w domenie może udostępnić te dane logowania.

Etapy wdrażania

Aby wdrożyć oprogramowanie sprzęgające Google Cloud Search CSV, wykonaj te czynności:

  1. Instalowanie oprogramowania sprzęgającego Google Cloud Search CSV
  2. Określanie konfiguracji oprogramowania sprzęgającego CSV
  3. Konfigurowanie dostępu do źródła danych Google Cloud Search
  4. Konfigurowanie dostępu do pliku CSV
  5. Określanie nazw kolumn do indeksowania, unikalnych kolumn kluczy i kolumn daty i godziny
  6. Określanie kolumn, które mają być używane w klikalnych adresach URL wyników wyszukiwania
  7. Określanie informacji o metadanych i formatów kolumn
  8. Planowanie przemierzania danych
  9. Określanie opcji listy kontroli dostępu (ACL)

1. Zainstaluj pakiet SDK

Zainstaluj pakiet SDK w lokalnym repozytorium Maven.

  1. Sklonuj repozytorium SDK z GitHuba.

    $ git clone https://github.com/google-cloudsearch/connector-sdk.git
    $ cd connector-sdk/csv
  2. Sprawdź odpowiednią wersję pakietu SDK:

    $ git checkout tags/v1-0.0.3
  3. Utwórz oprogramowanie sprzęgające:

    $ mvn package
  4. Skopiuj plik ZIP oprogramowania sprzęgającego do lokalnego katalogu instalacji:

    $ cp target/google-cloudsearch-csv-connector-v1-0.0.3.zip installation-dir
    $ cd installation-dir
    $ unzip google-cloudsearch-csv-connector-v1-0.0.3.zip
    $ cd google-cloudsearch-csv-connector-v1-0.0.3

2. Określ konfigurację oprogramowania sprzęgającego CSV

Jako administrator oprogramowania sprzęgającego możesz kontrolować działanie tego oprogramowania atrybutów definiujących parametry w pliku konfiguracji oprogramowania sprzęgającego. Konfigurowalne parametry obejmują:

  • Dostęp do źródła danych
  • Lokalizacja pliku CSV
  • Definicje kolumn CSV
  • Kolumny definiujące unikalny identyfikator
  • Opcje przemierzania
  • Opcje list kontroli dostępu (ACL) do ograniczania dostępu do danych

Aby oprogramowanie sprzęgające mogło prawidłowo uzyskać dostęp do pliku CSV i zindeksować odpowiednią treść, musisz najpierw utworzyć jego plik konfiguracji.

Aby utworzyć plik konfiguracji:

  1. Otwórz wybrany edytor tekstu i nazwij plik konfiguracji.
    Dodaj pary klucz=wartość do zawartości pliku w sposób opisany w tym artykule. sekcji.
  2. Zapisz plik konfiguracji i nadaj mu nazwę.
    Google zaleca nazwanie pliku konfiguracji connector-config.properties, więc żadne dodatkowe parametry wiersza poleceń nie są wymagane do uruchomienia oprogramowania sprzęgającego.

W wierszu poleceń można podać ścieżkę pliku konfiguracji, nie jest wymagana standardowa lokalizacja pliku. Plik konfiguracji należy jednak zostawić w w tym samym katalogu co oprogramowanie sprzęgające, aby uprościć śledzenie i uruchamianie .

Aby oprogramowanie sprzęgające rozpoznawało plik konfiguracji, podaj jego ścieżkę w wierszu poleceń. W przeciwnym razie oprogramowanie sprzęgające korzysta z funkcji connector-config.properties w katalogu lokalnym jako jako domyślną nazwę pliku. Informacje o określaniu ścieżki konfiguracji wiersza poleceń. Więcej informacji znajdziesz w artykule Uruchamianie oprogramowania sprzęgającego Cloud Search CSV.

3. Skonfiguruj dostęp do źródła danych Google Cloud Search

Każdy plik konfiguracji musi określić pierwsze parametry, niezbędnych do uzyskania dostępu do źródła danych Cloud Search, jak pokazano poniżej. tabeli. Zazwyczaj potrzebny jest identyfikator źródła danych, identyfikator konta usługi i identyfikator ścieżki do pliku klucza prywatnego konta usługi, aby skonfigurować dostęp oprogramowania sprzęgającego do Cloud Search. Czynności wymagane do skonfigurowania źródła danych są opisane tutaj: Zarządzanie źródłami danych innych firm

Ustawienie Parametr
Identyfikator źródła danych api.sourceId=1234567890abcdef

Wymagane. Identyfikator źródła Google Cloud Search skonfigurowany przez administratora Google Workspace zgodnie z opisem w artykule Zarządzanie zewnętrznymi źródłami danych.

Ścieżka do pliku klucza prywatnego konta usługi api.serviceAccountPrivateKeyFile=./PrivateKey.json

Wymagane. Plik klucza konta usługi Google Cloud Search na potrzeby ułatwień dostępu w oprogramowaniu sprzęgającym Google Cloud Search CSV.

Identyfikator źródła tożsamości api.identitySourceId=x0987654321

Wymagane, jeśli korzystasz z zewnętrznych użytkowników i grup. Identyfikator źródła tożsamości Google Cloud Search skonfigurowany przez administratora Google Workspace.

4. Skonfiguruj parametry pliku CSV

Zanim oprogramowanie sprzęgające będzie mogło przeszukiwać plik CSV i wyodrębniać z niego dane w celu indeksowania, musisz podać ścieżkę do pliku. Możesz też określić format pliku i typ kodowania. Dodaj te parametry, aby określić właściwości pliku CSV w pliku konfiguracji.

Ustawienie Parametr
Ścieżka do pliku CSV csv.filePath=./movie_content.csv

Wymagane. Ścieżka do pliku CSV, do którego chcesz uzyskać dostęp i wyodrębnić treść do zindeksowania.

Format pliku csv.format=DEFAULT

Format pliku. Możliwe wartości pochodzą z klasy CSVFormat pliku Apache Commons.

Wartości formatu obejmują: DEFAULT, EXCEL, INFORMIX_UNLOAD, INFORMIX_UNLOAD_CSV, MYSQL, RFC4180, ORACLE, POSTGRESQL_CSV, POSTGRESQL_TEXT i TDF. Jeśli nie określono inaczej, Cloud Search używa DEFAULT.

Modyfikator formatu pliku csv.format.withMethod=value

Modyfikacja sposobu obsługi pliku przez Cloud Search. Możliwe metody pochodzą z klasy Apache Commons CSV CSVFormat i obejmują te, które wykorzystują pojedynczy znak, ciąg lub wartość logiczną.

Aby na przykład określić średnik jako separator, użyj csv.format.withDelimiter=;. Aby zignorować puste wiersze, użyj csv.format.withIgnoreEmptyLines=true.

Typ kodowania pliku csv.fileEncoding=UTF-8

Zestaw znaków Java, który ma być używany, gdy Cloud Search odczytuje plik. Jeśli nie określono inaczej, Cloud Search używa domyślnego zestawu znaków platformy.

5. Określ nazwy kolumn do indeksowania i unikalne kolumny kluczy

Aby oprogramowanie sprzęgające mogło uzyskiwać dostęp do plików CSV i je indeksować, musisz podać informacje o definicjach kolumn w pliku konfiguracji. Jeśli plik konfiguracji nie zawiera parametrów określających nazwy kolumn do indeksowania i unikalnych kolumn kluczy, używane są wartości domyślne.

Ustawienie Parametr
Kolumny do zindeksowania csv.csvColumns=movieId,movieTitle,description,actors,releaseDate,year,userratings...

Nazwy kolumn do zindeksowania z pliku CSV. Jeśli zasada csv.csvColumns nie jest skonfigurowana, za nagłówek jest używany pierwszy wiersz pliku CSV. Jeśli jest ustawiona wartość csv.csvColumns, ma pierwszeństwo przed pierwszym wierszem pliku CSV. Jeśli ustawiono csv.csvColumns, a pierwszy wiersz w pliku CSV jest listą nazw kolumn, musisz ustawić csv.skipHeaderRecord=true, aby uniknąć próby zindeksowania pierwszego wiersza jako danych. Wartości domyślne to kolumny w wierszu nagłówka pliku.

Unikalne kolumny kluczy csv.uniqueKeyColumns=movieId

Kolumny w pliku CSV, których wartości zostaną wykorzystane do wygenerowania unikalnego identyfikatora każdego rekordu. Jeśli rekord CSV nie zostanie określony, jako jego unikalnego klucza należy użyć skrótu rekordu CSV. Wartość domyślna to kod skrótu rekordu.

6. Określ kolumny do użycia w klikalnych adresach URL wyników wyszukiwania

Gdy użytkownik przeprowadza wyszukiwanie w Google Cloud Search, w odpowiedzi wyświetla się wynik z klikalnymi adresami URL każdego wyniku. Aby włączyć tę funkcję, musi dodać do pliku konfiguracji parametr pokazany w poniższej tabeli.

Ustawienie Parametr
Format adresu URL wyniku wyszukiwania url.format=https://mymoviesite.com/movies/{0}

Wymagane. Format do utworzenia adresu URL widoku treści CSV.

Parametry adresu URL wyników wyszukiwania. url.columns=movieId

Wymagane. Nazwy kolumn w pliku CSV, których wartości zostaną wykorzystane do wygenerowania adresu URL widoku rekordu.

Parametry adresu URL z wynikami wyszukiwania do zmiany znaczenia url.columnsToEscape=movieId

Opcjonalnie: Nazwy kolumn w pliku CSV, których wartości zostaną zmienione po zmianie znaczenia adresu URL w celu wygenerowania prawidłowego adresu URL widoku.

7. Określanie metadanych, formatów kolumn i jakości wyszukiwania

Do pliku konfiguracji możesz dodać parametry określające:

Parametry konfiguracji metadanych

Parametry konfiguracji metadanych opisują kolumny CSV używane do wypełniania metadanych elementu. Jeśli plik konfiguracji nie zawiera tych parametrów, używane są wartości domyślne. Te parametry znajdziesz w tabeli poniżej.

Ustawienie Parametr
Tytuł itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind

Atrybut metadanych zawierający wartość odpowiadającą tytułowi dokumentu. Wartością domyślną jest pusty ciąg znaków.

URL itemMetadata.sourceRepositoryUrl.field=url
itemMetadata.sourceRepositoryUrl.defaultValue=https://www.imdb.com/title/tt0031381/
Atrybut metadanych zawierający wartość adresu URL dokumentu na potrzeby wyników wyszukiwania.
Sygnatura czasowa utworzenia itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17

Atrybut metadanych zawierający wartość sygnatury czasowej utworzenia dokumentu.

Czas ostatniej modyfikacji itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17

Atrybut metadanych zawierający wartość sygnatury czasowej ostatniej modyfikacji dokumentu.

Język dokumentów itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US

Język treści indeksowanych dokumentów.

Typ obiektu schematu itemMetadata.objectType.field=type
itemMetadata.objectType.defaultValue=movie

Typ obiektu używany przez oprogramowanie sprzęgające, zdefiniowany w schemat. Jeśli ta właściwość nie jest określona, oprogramowanie sprzęgające nie zindeksuje żadnych uporządkowanych danych.

Formaty daty i godziny

Formaty daty i godziny określają formaty, które powinny być stosowane w atrybutach metadanych. Jeśli plik konfiguracji nie zawiera tego parametru, używane są wartości domyślne. Ten parametr znajduje się w tabeli poniżej.

Ustawienie Parametr
Dodatkowe formaty daty i godziny structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
Rozdzielana średnikami lista dodatkowych wzorców java.time.format.DateTimeFormatter. Wzorce są używane podczas analizowania wartości ciągów dla dowolnych pól daty lub daty i godziny w metadanych lub schemacie. Wartość domyślna to pusta lista, ale formaty RFC 3339 i RFC 1123 są zawsze obsługiwane.

Formaty kolumn

Formaty kolumn określają informacje o kolumnach, które powinny być częścią treść, którą można przeszukiwać. Jeśli plik konfiguracji nie zawiera tych , używane są wartości domyślne. Te parametry znajdziesz w tabeli poniżej.

Ustawienie Parametr
Pomiń nagłówek csv.skipHeaderRecord=true

Wartość logiczna. Zignoruj rekord nagłówka (pierwszy wiersz) w pliku CSV. Jeśli masz ustawiony wiersz csv.csvColumns, a plik CSV ma wiersz nagłówka, musisz ustawić skipHeaderRecord=true. Uniemożliwia to indeksowanie pierwszego wiersza w pliku jako danych. Jeśli plik CSV nie ma wiersza nagłówka, ustaw skipHeaderRecord=false. Wartość domyślna to false (fałsz).

Kolumny z wieloma wartościami csv.multiValueColumns=genre,actors

Nazwy kolumn w pliku CSV, które zawierają wiele wartości. Wartością domyślną jest pusty ciąg znaków.

Separator kolumn z wieloma wartościami csv.multiValue.genre=;

Separator kolumn z wieloma wartościami. Domyślnym separatorem jest przecinek.

Jakość wyszukiwania

Oprogramowanie sprzęgające CSV w Cloud Search umożliwia automatyczne formatowanie HTML pól danych. Oprogramowanie sprzęgające definiuje pola danych na początku jego wykonywania, a potem używa szablonu treści do sformatowania każdego rekordu danych przed jego przesłaniem do Cloud Search.

Szablon treści określa znaczenie każdej wartości pola w kontekście wyszukiwania. Pole tytułu jest wymagane i ma najwyższy priorytet. Dostępne opcje określ poziomy ważności jakości wyszukiwania dla wszystkich pozostałych pól treści: wysokim, średnim lub niskim. Dowolne pole treści niezdefiniowane w określonej kategorii domyślnie ma niski priorytet. Te parametry znajdziesz w tabeli poniżej.

Ustawienie Parametr
Tytuł treści contentTemplate.csv.title=movieTitle

Tytuł treści to pole o najwyższej jakości wyszukiwania.

Wysoka jakość wyszukiwania w polach treści contentTemplate.csv.quality.high=actors

Pola treści o wysokiej wartości jakości wyszukiwania. Wartość domyślna to pusty ciąg znaków.

Niska jakość wyszukiwania w polach treści contentTemplate.csv.quality.low=genre

Pola treści o niskiej wartości jakości wyszukiwania. Wartość domyślna to pusty ciąg znaków.

Średnia jakość wyszukiwania w przypadku pól treści contentTemplate.csv.quality.medium=description

Pola treści o średniej wartości jakości wyszukiwania. Wartość domyślna to pusty ciąg znaków.

Nieokreślone pola treści contentTemplate.csv.unmappedColumnsMode=IGNORE

Jak oprogramowanie sprzęgające obsługuje nieokreślone pola treści. Prawidłowe wartości to:

  • APPEND – do szablonu możesz dołączyć nieokreślone pola treści.
  • IGNORE – ignoruj nieokreślone pola treści.

    Wartość domyślna to APPEND.

8. Zaplanuj przemierzanie danych

Traversal to proces wykrywania treści na podstawie danych przez oprogramowanie sprzęgające w tym przypadku jest to plik CSV. Podczas działania oprogramowania sprzęgającego CSV będzie ono wierszy pliku CSV, a potem indeksować każdy wiersz w Cloud Search za pomocą funkcji API.

Przemierzanie pełnego powoduje indeksowanie wszystkich kolumn w pliku. Przemierzanie przyrostowe indeksuje tylko te kolumny, które zostały dodane lub zmodyfikowane od poprzedniego przemierzania. Oprogramowanie sprzęgające CSV wykonuje tylko pełne przemierzanie. Nie wykonuje ona stopniowej przemierzania.

Parametry planowania określają, jak często oprogramowanie sprzęgające oczekuje między przemierzania stron. Jeśli plik konfiguracji nie zawiera parametrów harmonogramu, używane są wartości domyślne. Te parametry znajdziesz w tabeli poniżej.

Ustawienie Parametr
Pełne przemierzanie po interwale schedule.traversalIntervalSecs=7200

Oprogramowanie sprzęgające wykonuje pełne przemierzenie po określonym czasie. Określ interwał między przemierzaniami w sekundach. Wartość domyślna to 86400 (liczba sekund w ciągu jednego dnia).

Pełne przemierzanie podczas uruchamiania oprogramowania sprzęgającego schedule.performTraversalOnStart=false

Oprogramowanie sprzęgające wykonuje pełny przemierzanie podczas uruchamiania oprogramowania sprzęgającego, zamiast czekać na zakończenie pierwszego interwału. Wartość domyślna to true.

9. Określ opcje listy kontroli dostępu (ACL)

Oprogramowanie sprzęgające Google Cloud Search CSV obsługuje uprawnienia do sterowania za pomocą list kontroli dostępu dostęp do zawartości pliku CSV w wynikach wyszukiwania. Istnieje wiele list kontroli dostępu (ACL) opcje zabezpieczeń dostępu użytkowników do zindeksowanych rekordów.

Jeśli z każdym dokumentem są powiązane indywidualne informacje ACL powiązane z repozytorium, przesyłać wszystkie informacje z listy kontroli dostępu (ACL), aby kontrolować dostęp do dokumentów w Cloud Search; Jeśli repozytorium zawiera częściowe informacje o kontroli dostępu (ACL) lub nie zawiera ich wcale, możesz podać wartość domyślną, informacje o liście kontroli dostępu (ACL) w poniższych parametrach, które pakiet SDK przekazuje do .

Oprogramowanie sprzęgające korzysta z domyślnych list kontroli dostępu (ACL) włączonych w pliku konfiguracji. Do włącz domyślne listy kontroli dostępu, ustaw defaultAcl.mode na dowolny tryb inny niż none i skonfiguruj za pomocą usługi defaultAcl.*

Ustawienie Parametr
Tryb listy kontroli dostępu (ACL) defaultAcl.mode=fallback

Wymagane. Oprogramowanie sprzęgające CSV korzysta z funkcji domyślnej listy kontroli dostępu (ACL). Oprogramowanie sprzęgające obsługuje tylko tryb awaryjny.

Nazwa domyślnej listy kontroli dostępu defaultAcl.name=VIRTUAL_CONTAINER_FOR_CONNECTOR_1

Opcjonalnie: Umożliwia zastąpienie nazwy kontenera wirtualnego używanej przez oprogramowanie sprzęgające do konfigurowania domyślnych list kontroli dostępu. Wartość domyślna to „DEFAULT_ACL_VIRTUAL_CONTAINER”. Możesz zastąpić tę wartość, jeśli wiele oprogramowania sprzęgającego indeksuje treści z tego samego źródła danych.

Domyślna publiczna lista kontroli dostępu (ACL) defaultAcl.public=true

Domyślna lista kontroli dostępu używana dla całego repozytorium jest ustawiona na dostęp z domeny publicznej. Wartość domyślna to false (fałsz).

Popularni czytelnicy grup ACL defaultAcl.readers.groups=google:group1, group2
Popularni czytelnicy listy ACL defaultAcl.readers.users=user1, user2, google:user3
Często odmawiani czytelnicy grup na liście kontroli dostępu (ACL) defaultAcl.denied.groups=group3
Często odmawiani czytelnicy z listy ACL defaultAcl.denied.users=user4, user5
Dostęp do całej domeny Aby każdy indeksowany rekord był publicznie dostępny dla każdego użytkownika w domenie, ustaw wartości w obu tych opcjach:
  • defaultAcl.mode=fallback
  • defaultAcl.public=true
Wspólna zdefiniowana lista kontroli dostępu (ACL) Aby określić jedną listę kontroli dostępu dla każdego rekordu repozytorium danych, ustaw wszystkie następujące wartości parametrów:
  • defaultAcl.mode=fallback
  • defaultAcl.public=false
  • defaultAcl.readers.groups=google:group1, group2
  • defaultAcl.readers.users=user1, user2, google:user3
  • defaultAcl.denied.groups=group3
  • defaultAcl.denied.users=user4, user5

    Każdy określony użytkownik i grupa jest zakładana jako użytkownik/grupa zdefiniowana w domenie lokalnej, chyba że ma prefiks „google:” (dosłownie stała).

    Domyślny użytkownik lub domyślna grupa to pusty ciąg znaków. Podaj opcje użytkownika i grupy tylko wtedy, gdy defaultAcl.public ma wartość false. Aby wymienić wiele grup i użytkowników, użyj listy rozdzielanej przecinkami.

    Jeśli zasada defaultAcl.mode ma wartość none, rekordy nie można przeszukiwać bez zdefiniowanych indywidualnych list kontroli dostępu.

Definicja schematu

Cloud Search umożliwia indeksowanie i wyświetlanie treści uporządkowanych i nieuporządkowanych. Aby obsługiwać zapytania dotyczące uporządkowanych danych, musisz: Skonfiguruj schemat źródła danych.

Po zdefiniowaniu oprogramowania sprzęgającego CSV może odwoływać się do zdefiniowanego schematu, aby tworzyć żądania indeksowania. Aby to zilustrować, przyjrzyjmy się plikowi CSV zawierającym informacje na temat Filmów.

Załóżmy, że wejściowy plik CSV zawiera następującą treść.

  1. movieId
  2. movieTitle
  3. opis
  4. rok
  5. releaseDate
  6. aktorów (wiele wartości rozdzielonych przecinkami (,)),
  7. genre (wiele wartości)
  8. oceny

Na podstawie powyższej struktury danych można zdefiniować schemat dla źródła danych w aby zindeksować dane z pliku CSV.

{
  "objectDefinitions": [
    {
      "name": "movie",
      "propertyDefinitions": [
        {
          "name": "actors",
          "isReturnable": true,
          "isRepeatable": true,
          "isFacetable": true,
          "textPropertyOptions": {
            "operatorOptions": {
              "operatorName": "actor"
            }
          }
        },
        {
          "name": "releaseDate",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": false,
          "datePropertyOptions": {
            "operatorOptions": {
              "operatorName": "released",
              "lessThanOperatorName": "releasedbefore",
              "greaterThanOperatorName": "releasedafter"
            }
          }
        },
        {
          "name": "movieTitle",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": false,
          "textPropertyOptions": {
            "retrievalImportance": {
              "importance": "HIGHEST"
            },
            "operatorOptions": {
              "operatorName": "title"
            }
          }
        },
        {
          "name": "genre",
          "isReturnable": true,
          "isRepeatable": true,
          "isFacetable": true,
          "enumPropertyOptions": {
            "operatorOptions": {
              "operatorName": "genre"
            },
            "possibleValues": [
              {
                "stringValue": "Action"
              },
              {
                "stringValue": "Documentary"
              },
              {
                "stringValue": "Drama"
              },
              {
                "stringValue": "Crime"
              },
              {
                "stringValue": "Sci-fi"
              }
            ]
          }
        },
        {
          "name": "userRating",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": true,
          "integerPropertyOptions": {
            "orderedRanking": "ASCENDING",
            "maximumValue": "10",
            "operatorOptions": {
              "operatorName": "score",
              "lessThanOperatorName": "scorebelow",
              "greaterThanOperatorName": "scoreabove"
            }
          }
        }
      ]
    }
  ]
}

Przykładowy plik konfiguracji

Poniższy przykładowy plik konfiguracji zawiera pary parametrów key=value. definiujące zachowanie przykładowego oprogramowania sprzęgającego.

# data source access
api.sourceId=1234567890abcd
api.serviceAccountPrivateKeyFile=./PrivateKey.json

# CSV data structure
csv.filePath=./movie_content.csv
csv.csvColumns=movieId,movieTitle,description,releaseYear,genre,actors,ratings,releaseDate
csv.skipHeaderRecord=true
url.format=https://mymoviesite.com/movies/{0}
url.columns=movieId
csv.datetimeFormat.releaseDate=yyyy-mm-dd
csv.multiValueColumns=genre,actors
csv.multiValue.genre=;
contentTemplate.csv.title=movieTitle

# metadata structured data and content
itemMetadata.title.field=movieTitle
itemMetadata.createTime.field=releaseDate
itemMetadata.contentLanguage.defaultValue=en-US
itemMetadata.objectType.defaultValue=movie
contentTemplate.csv.quality.medium=description
contentTemplate.csv.unmappedColumnsMode=IGNORE

#ACLs
defaultAcl.mode=fallback
defaultAcl.public=true

Szczegółowy opis poszczególnych parametrów znajdziesz w sekcji Parametry konfiguracji odwołania.

Uruchom oprogramowanie sprzęgające Cloud Search CSV

Aby uruchomić oprogramowanie sprzęgające z wiersza poleceń, wpisz następujące polecenie:

$ java -jar google-cloudsearch-csv-connector-v1-0.0.3.jar -Dconfig=my.config

Domyślnie logi oprogramowania sprzęgającego są dostępne na standardowym wyjściu. Możesz logować się w plikach przez określenie logging.properties.