Parametry konfiguracji dostarczone przez Google

Do każdego oprogramowania sprzęgającego jest powiązany plik konfiguracji zawierający parametry używane przez to oprogramowanie, takie jak identyfikator repozytorium. Parametry są definiowane jako pary klucz-wartość, np. api.sourceId=1234567890abcdef.

Pakiet SDK Google Cloud Search zawiera kilka parametrów konfiguracyjnych dostarczanych przez Google, które są używane przez różne oprogramowanie sprzęgające. Spośród parametrów konfiguracyjnych udostępnionych przez Google w pliku konfiguracji muszą być zdefiniowane tylko parametry Dostęp do źródła danych. Nie musisz ponownie definiować parametrów udostępnionych przez Google w pliku konfiguracji, chyba że chcesz zastąpić ich wartości domyślne.

W tym dokumencie znajdziesz opis parametrów konfiguracyjnych dostarczanych przez Google.

Przykład pliku konfiguracji

Poniższy przykład przedstawia plik konfiguracji tożsamości z parami klucz-wartość parametrów.

#
# Configuration file sample
#
api.sourceId=1234567890abcdef
api.identitySourceId=0987654321lmnopq
api.serviceAccountPrivateKeyFile= ./PrivateKey.json

#
# Traversal schedules
#
schedule.traversalIntervalSecs=7200
schedule.incrementalTraversalIntervalSecs=600
#
# Default ACLs
#
defaultAcl.mode=fallback
defaultAcl.public=true
  

Często ustawiane parametry

Ta sekcja zawiera listę wymaganych i opcjonalnych często ustawianych parametrów konfiguracji. Jeśli nie zmienisz wartości parametrów opcjonalnych, oprogramowanie sprzęgające będzie używać wartości domyślnych podanych przez pakiet SDK.

Dostęp do źródła danych

Poniższa tabela zawiera wszystkie parametry, które muszą się pojawić w pliku konfiguracji. Używane parametry zależą od typu tworzonego oprogramowania sprzęgającego (łącznika treści lub oprogramowania sprzęgającego tożsamości).

lokalizacji, Parametr
Identyfikator źródła danych api.sourceId=1234567890abcdef

Ten parametr jest wymagany przez oprogramowanie sprzęgające do identyfikowania lokalizacji repozytorium. Tę wartość uzyskujesz po dodaniu źródła danych do wyszukiwania. Ten parametr musi znajdować się w plikach konfiguracji oprogramowania sprzęgającego.

Identyfikator źródła tożsamości api.identitySourceId=0987654321lmnopq

Ten parametr jest wymagany przez oprogramowanie sprzęgające tożsamości do identyfikowania lokalizacji zewnętrznego źródła tożsamości. Ta wartość została osiągnięta podczas mapowania tożsamości użytkowników w Cloud Search. Ten parametr musi się znajdować we wszystkich plikach konfiguracji oprogramowania sprzęgającego tożsamości.

Plik klucza prywatnego konta usługi api.serviceAccountPrivateKeyFile=./PrivateKey.json

Ten parametr zawiera klucz prywatny niezbędny do uzyskania dostępu do repozytorium. Ta wartość została osiągnięta podczas konfigurowania dostępu do interfejsu Google Cloud Search API typu REST. Ten parametr musi występować we wszystkich plikach konfiguracji.

Identyfikator konta usługi api.serviceAccountId=123abcdef4567890

Ten parametr określa identyfikator konta usługi. Domyślna wartość pustego ciągu znaków jest dozwolona tylko wtedy, gdy plik konfiguracji określa parametr pliku klucza prywatnego. Ten parametr jest wymagany, jeśli plik klucza prywatnego nie jest kluczem JSON.

Identyfikator konta Google Workspace api.customerId=123abcdef4567890

Ten parametr określa identyfikator konta Google Workspace danej firmy. Ta wartość została osiągnięta podczas mapowania tożsamości użytkowników w Cloud Search. Ten parametr jest wymagany podczas synchronizowania użytkowników przy użyciu oprogramowania sprzęgającego tożsamości.

Główny adres URL api.rootUrl=baseURLPath

Ten parametr określa podstawową ścieżkę adresu URL usługi indeksowania.

Domyślną wartością tego parametru jest pusty ciąg znaków, który jest konwertowany na https://cloudsearch.googleapis.com.

Harmonogramy przemierzania

Parametry harmonogramu określają, jak często oprogramowanie sprzęgające oczekuje między przemierzaniami.

lokalizacji, Parametr
Pełne przemierzanie podczas uruchamiania oprogramowania sprzęgającego schedule.performTraversalOnStart=true|false

Oprogramowanie sprzęgające wykonuje pełne przemierzenie podczas uruchamiania oprogramowania sprzęgającego, zamiast czekać na wygaśnięcie pierwszego interwału. Wartością domyślną jest true..

Pełne przemierzenie po interwale schedule.traversalIntervalSecs=intervalInSeconds

Oprogramowanie sprzęgające wykonuje pełne przemierzenie po określonym czasie. Określ odstęp między kolejnymi przemierzeniami w sekundach. Wartość domyślna to 86400 (liczba sekund w ciągu jednego dnia).

Wyjdź po pojedynczym przemierzeniu connector.runOnce=true|false

Oprogramowanie sprzęgające przeprowadza pełne przemierzenie raz, a następnie zostaje zamknięte. Wartość tego parametru należy ustawić tylko na true, jeśli korzystasz z pełnej strategii przemierzania. Strategie z listą i wykresami wymagają wielu przemierzania w celu wykrywania zmian i indeksowania treści. Wartość domyślna to false (nie zamykaj jej po pojedynczym przemierzeniu).

Przemierzanie przyrostowe po interwale schedule.incrementalTraversalIntervalSecs=intervalInSeconds

Oprogramowanie sprzęgające wykonuje przyrostowe przemierzanie po określonym czasie. Określ odstęp między przemierzeniami w sekundach. Wartością domyślną jest 300 (liczba sekund w 5 minutach).

Zaplanowane interwały kolejki ankiet schedule.pollQueueIntervalSecs=interval_in_seconds

Odstęp między zaplanowanymi interwałami kolejek ankiet (w sekundach). Jest ono używane tylko przez oprogramowanie sprzęgające przemierzania listy. Wartością domyślną jest 10..

Listy kontroli dostępu

Oprogramowanie sprzęgające kontroluje dostęp do elementów za pomocą list kontroli dostępu. Wiele parametrów umożliwia ochronę dostępu użytkowników do zindeksowanych rekordów za pomocą list kontroli dostępu.

Jeśli repozytorium ma oddzielne informacje o liście kontroli dostępu powiązane z każdym elementem, prześlij wszystkie te informacje, aby kontrolować dostęp do elementów w Cloud Search. Jeśli repozytorium udostępnia częściowe informacje o liście kontroli dostępu lub nie ma ich wcale, możesz podać domyślne informacje listy kontroli dostępu w poniższych parametrach, które pakiet SDK udostępnia oprogramowaniu sprzęgającemu.

lokalizacji, Parametr
Tryb ACL defaultAcl.mode=mode

Określa, kiedy należy zastosować domyślną listę kontroli dostępu. Prawidłowe wartości:

  • none: nie używaj domyślnej listy kontroli dostępu (w tym trybie rekordy są niedostępne do przeszukiwania, chyba że zdefiniujesz poszczególne listy kontroli dostępu)
  • fallback: użyj domyślnej listy kontroli dostępu tylko wtedy, gdy lista ACL nie jest jeszcze dostępna
  • append: dodawanie domyślnej listy kontroli dostępu do istniejącej listy kontroli dostępu
  • override: zastąp istniejącą listę kontroli dostępu (ACL) domyślną listą kontroli dostępu

Domyślnym trybem jest none.

Domyślna publiczna lista kontroli dostępu defaultAcl.public=true|false

Domyślna lista kontroli dostępu używana dla całego repozytorium jest ustawiona na dostęp z domeny publicznej. Wartością domyślną jest false. .

Wspólni czytelnicy grup ACL defaultAcl.readers.groups=google:group1@mydomain.com, group2
Typowe czytniki list ACL defaultAcl.readers.users=user1, user2, google:user3@mydomain.com
Typowe odczytujące grupy odrzucone listy ACL defaultAcl.denied.groups=group3
Odczytujący odrzucone listy ACL (Common ACL) defaultAcl.denied.users=user4, user5
Dostęp do całej domeny Aby określić, że każdy indeksowany rekord jest publicznie dostępny dla każdego użytkownika w domenie, ustaw oba te parametry z wartościami:
  • defaultAcl.mode=override
  • defaultACL.public=true
Wspólna zdefiniowana lista kontroli dostępu Aby określić jedną listę kontroli dostępu dla każdego rekordu repozytorium danych, ustaw wszystkie te wartości parametrów:
  • defaultAcl.mode=fallback
  • defaultAcl.public=false
  • defaultAcl.readers.groups=google:group1@mydomain.com, group2 code>
  • defaultAcl.readers.users=user1@mydomain.com, user2, google:user3@mydomain.com
  • defaultAcl.denied.groups=group3
  • defaultAcl.denied.users=user4, user5

    Każdy określony użytkownik i grupa jest uznawane za użytkownika/grupę zdefiniowaną w domenie lokalnej, chyba że zostanie poprzedzony ciągiem „google:” (stałą dosłowną).

    Domyślny adres użytkownika lub grupa to pusty ciąg znaków. Podaj parametry użytkownika i grupy tylko wtedy, gdy defaultAcl.public ma wartość false. Aby podać wiele grup i użytkowników, użyj list rozdzielanych przecinkami.

    Jeśli defaultAcl.mode ma wartość none, rekordów nie można przeszukiwać bez zdefiniowanych list kontroli dostępu.

Parametry konfiguracji metadanych

Część metadanych elementu można skonfigurować. Oprogramowanie sprzęgające może ustawiać możliwe do skonfigurowania pola metadanych podczas indeksowania. Jeśli oprogramowanie sprzęgające nie ustawi żadnego pola, do ustawienia tego pola zostaną użyte parametry z pliku konfiguracji.

Plik konfiguracji zawiera serię nazwanych parametrów konfiguracyjnych metadanych określonych przez sufiks .field, np. itemMetadata.title.field=movieTitle. Jeśli te parametry mają określoną wartość, służą one do konfigurowania pola metadanych. Jeśli nie ma wartości nazwanego parametru metadanych, do konfigurowania metadanych służy parametr z sufiksem .defaultValue.

Tabela poniżej zawiera parametry konfiguracji metadanych.

Ustawienie Parametr
tytuł, itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Tytuł produktu. Jeśli title.field nie ma wartości, używana jest wartość title.defaultValue.
URL repozytorium źródłowego itemMetadata.sourceRepositoryUrl.field=url
itemMetadata.sourceRepositoryUrl.defaultValue=https://www.imdb.com/title/tt0031381/
Adres URL produktu używany w wynikach wyszukiwania. Możesz po prostu skonfigurować defaultValue tak, aby przechowywał adres URL całego repozytorium, na przykład jeśli repozytorium jest plikiem CSV i dla każdego elementu jest tylko 1 adres URL. Jeśli sourceRepositoryUrl.field nie ma żadnej wartości, używana jest wartość sourceRepositoryUrl.defaultValue.
Nazwa kontenera itemMetadata.containerName.field=containerName
itemMetadata.containerName.defaultValue=myDefaultContainerName
Nazwa kontenera elementu, na przykład nazwa katalogu lub folderu systemu plików. Jeśli containerName.field nie ma żadnej wartości, używana jest wartość containerName.defaultValue.
Typ obiektu itemMetadata.objectType.field=type
itemMetadata.objectType.defaultValue=movie
Typ obiektu używany przez oprogramowanie sprzęgające zgodnie z definicją we schemacie. Jeśli ta właściwość nie zostanie określona, oprogramowanie sprzęgające nie będzie indeksować żadnych uporządkowanych danych.
Jeśli objectType.field nie ma wartości, używana jest wartość objectType.defaultValue.
Czas utworzenia itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Sygnatura czasowa utworzenia dokumentu. Jeśli createTime.field nie ma wartości, używana jest wartość parametru createTime.defaultValue.
Czas aktualizacji itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
Sygnatura czasowa ostatniej modyfikacji elementu. Jeśli updateTime.field nie ma wartości, używana jest wartość updateTime.defaultValue.
Język treści itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Język treści indeksowanych dokumentów. Jeśli contentLanguage.field nie ma wartości, używana jest wartość contentLanguage.defaultValue.
Typ MIME itemMetadata.mimeType.field=mimeType
itemMetadata.mimeType.defaultValue=image/bmp
Oryginalny typ MIME elementu ItemContent.content w repozytorium źródłowym. Maksymalna długość to 256 znaków. Jeśli mimeType.field nie ma wartości, używana jest wartość mimeType.defaultValue.
Metadane jakości wyszukiwania itemMetadata.searchQualityMetadata.quality.field=quality
itemMetadata.searchQualityMetadata.quality.defaultValue=1
Wskaźnik jakości produktu, który wpływa na jakość wyszukiwania. Wartość powinna mieścić się w zakresie od 0,0 (najniższa jakość) do 1,0 (najwyższa jakość). Wartością domyślną jest 0,0. Jeśli quality.field nie ma wartości, używana jest wartość quality.defaultValue.
Hasz itemMetadata.hash.field=hash
itemMetadata.hash.defaultValue=f0fda58630310a6dd91a7d8f0a4ceda2
Wartość haszowania podana przez wywołanie interfejsu API. Tej opcji można użyć w metodzie items.push do obliczania zmodyfikowanego stanu. Maksymalna długość to 2048 znaków. Jeśli hash.field nie ma wartości, używana jest wartość hash.defaultValue.

Formaty daty i godziny

Formaty daty i godziny określają oczekiwane formaty w atrybutach metadanych. Jeśli plik konfiguracji nie zawiera tego parametru, używane są wartości domyślne. Parametr ten jest przedstawiony w tabeli poniżej.

Ustawienie Parametr
Dodatkowe formaty daty i godziny structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
Rozdzielona średnikami lista dodatkowych wzorców java.time.format.DateTimeFormatter. Wzorce są używane podczas analizowania wartości ciągu znaków w dowolnych polach daty lub daty i godziny w metadanych lub schemacie. Wartością domyślną jest pusta lista, ale formaty RFC 3339 i RFC 1123 są zawsze obsługiwane.

Uporządkowane dane

Interfejs Cloud Search Indexing API to usługa schematów, której można używać do dostosowywania sposobu indeksowania i udostępniania danych przez Cloud Search. Jeśli używasz schematu repozytorium lokalnego, musisz podać nazwę lokalnego schematu uporządkowanych danych.

lokalizacji, Parametr
Nazwa schematu lokalnego structuredData.localSchema=mySchemaName

Nazwa schematu jest odczytywana ze źródła danych i używana na potrzeby uporządkowanych danych repozytorium.

Domyślnie jest to pusty ciąg znaków.

Jakość treści i wyszukiwania

W przypadku repozytoriów zawierających rekordy lub treści oparte na polach (np. system CRM, CVS lub bazę danych) pakiet SDK umożliwia automatyczne formatowanie kodu HTML pól danych. Oprogramowanie sprzęgające definiuje pola danych na początku wykonywania oprogramowania sprzęgającego, a następnie używa szablonu treści, aby sformatować każdy rekord danych przed przesłaniem go do Cloud Search.

Szablon treści określa znaczenie wartości poszczególnych pól w wyszukiwaniu. Pole HTML <title> jest wymagane i zostało zdefiniowane jako o najwyższym priorytecie. Dla wszystkich pozostałych pól treści możesz określić poziomy ważności jakości wyszukiwania: wysoki, średni lub niski. Pole treści, które nie jest zdefiniowane w konkretnej kategorii, ma domyślnie niski priorytet.

lokalizacji, Parametr
Tytuł HTML treści contentTemplate.templateName.title=myTitleField

Tytuł HTML treści i pole najwyższej jakości wyszukiwania. Ten parametr jest wymagany tylko wtedy, gdy używasz szablonu treści HTML. Wartość domyślna to pusty ciąg znaków.

Wysoka jakość wyszukiwania w polach treści contentTemplate.templateName.quality.high=hField1,hField2

Pola treści z wysokim priorytetem wyszukiwania. Domyślnie jest to pusty ciąg znaków.

Średnia jakość wyszukiwania dla pól treści contentTemplate.templateName.quality.medium=mField1,mField2

Pola treści z średnim priorytetem wyszukiwania. Domyślnie jest to pusty ciąg znaków.

Niska jakość wyszukiwania w polach treści contentTemplate.templateName.quality.low=lField1,lField2

Pola treści, które mają niski priorytet wyszukiwania. Domyślnie jest to pusty ciąg znaków.

Nieokreślone pola treści contentTemplate.templateName.unmappedColumnsMode=value

Obsługa nieokreślonych pól treści przez oprogramowanie sprzęgające. Prawidłowe wartości to:

  • APPEND – dołączanie do szablonu nieokreślonych pól treści.
  • IGNORE – ignoruj nieokreślone pola treści.

    Wartością domyślną jest APPEND.

Uwzględnij nazwy pól w szablonie HTML contentTemplate.templateName.includeFieldName=true|false

Określa, czy w szablonie HTML chcesz uwzględnić nazwy pól wraz z danymi pól. Wartość domyślna to true i powoduje, że nazwy pól można wyszukiwać w ramach danych o treści.

Nietypowo ustawione parametry

Rzadko trzeba konfigurować parametry wymienione w tej sekcji. Wartości domyślne parametrów są ustawione pod kątem optymalnej wydajności. Google nie zaleca ustawienia tych parametrów na wartości inne niż domyślne bez określonych wymagań w repozytorium.

Konfiguracja serwera proxy

Pakiet SDK umożliwia skonfigurowanie oprogramowania sprzęgającego tak, aby używało serwera proxy do połączeń wychodzących.

Aby umożliwić przesyłanie przez serwer proxy, wymagane są parametry transport.proxy.hostname i transport.proxy.port. Inne parametry mogą być wymagane, jeśli serwer proxy wymaga uwierzytelniania lub działa przez protokół SOCKS, a nie HTTP. Jeśli zasada transport.proxy.hostname nie jest skonfigurowana, pakiet SDK nie będzie używać serwera proxy.

lokalizacji, Parametr
Nazwa hosta transport.proxy.hostname=hostname

Nazwa hosta serwera proxy. Ten parametr jest wymagany w przypadku korzystania z serwera proxy.

Port transport.proxy.port=port

Numer portu serwera proxy. Ten parametr jest wymagany w przypadku korzystania z serwera proxy.

Typ serwera proxy transport.proxy.type=type

Typ serwera proxy. Prawidłowe wartości to:

  • HTTP – serwer proxy akceptuje i przekazuje żądania przez HTTP.
  • SOCKS – serwer proxy akceptuje i przekazuje pakiety przy użyciu protokołu SOCKS.

Wartością domyślną jest HTTP.

Nazwa użytkownika transport.proxy.username=username

Nazwa użytkownika, która ma być używana podczas tworzenia tokena autoryzacji serwera proxy. Ten parametr jest opcjonalny i należy go ustawiać tylko wtedy, gdy serwer proxy wymaga uwierzytelniania.

Hasło transport.proxy.password=password

Hasło używane podczas tworzenia tokena autoryzacji serwera proxy. Ten parametr jest opcjonalny i należy go ustawiać tylko wtedy, gdy serwer proxy wymaga uwierzytelniania.

Trawertory

Pakiet SDK umożliwia określenie wielu pojedynczych elementów przemierzania, co pozwala na równoległe przemierzanie repozytorium danych. Z tej funkcji korzysta oprogramowanie sprzęgające szablonów pakietu SDK.

lokalizacji, Parametr
Rozmiar puli wątków traverse.threadPoolSize=size

Liczba wątków tworzonych przez oprogramowanie sprzęgające, aby umożliwić równoległe przetwarzanie. Pojedynczy iterator pobiera operacje seryjne (zwykle obiekty RepositoryDoc), ale interfejs API wywołuje procesy równolegle z użyciem tej liczby wątków.

Wartością domyślną jest 5.

Rozmiar partycji traverse.partitionSize=batchSize

Liczba ApiOperation() do przetworzenia partiami przed pobraniem dodatkowych APIOperation.

Wartością domyślną jest 50.

Żądania ankiety z usługą przemierzania

Rdzeń kolejki indeksowania Cloud Search stanowi kolejka priorytetowa zawierająca wpis dla każdego znanego elementu. Oprogramowanie sprzęgające do wyświetlania informacji może wysyłać żądania dotyczące odpytywania elementów z interfejsu API indeksowania. Żądanie ankiety pobiera pozycje o najwyższym priorytecie z kolejki indeksowania.

Poniższe parametry są używane przez szablon oprogramowania sprzęgającego z listą pakietów SDK do definiowania parametrów odpytywania.

lokalizacji, Parametr
Przemierzający repozytorium repository.traversers=t1, t2, t3, ...

Tworzy co najmniej 1 trawers, gdzie t1, t2, t3, ... jest unikalną nazwą każdego z nich. Każdy nazywany trawerterem ma własny zestaw ustawień, które są rozpoznawane na podstawie jego niepowtarzalnej nazwy, np. traversers.t1.hostload i traversers.t2.hostload.

Kolejka do odpytywania traverser.pollRequest.queue=mySpecialQueue

Nazwy kolejek, które pobiera ten przemierzający. Domyślnie jest to pusty ciąg znaków (oznacza wartość „default”).

traverser.t1.pollRequest.queue=mySpecialQueue

Jeśli masz wielu trawersów, ustaw stany elementów dla każdego z trawersów (gdzie t1 oznacza konkretnego trawertera).

Sposób ankietowania traverser.pollRequest.limit=maxItems

Maksymalna liczba elementów do zwrócenia z żądania odpytywania. Wartość domyślna to 0 (oznacza maksymalną wartość dla interfejsu API).

traverser.t1.pollRequest.limit=limit

Jeśli masz wielu trawersów, ustaw stany elementów dla każdego z trawersów (gdzie t1 oznacza konkretnego trawertera).

Stan elementu traverser.pollRequest.statuses=statuses

Stany konkretnego elementu, które sprawdza ten wędrownik, przy czym statuses może być dowolną kombinacją wartości MODIFIED, NEW_ITEM (rozdzielonych przecinkami). Domyślnie jest to pusty ciąg znaków (tzn. wszystkie wartości stanu).

traverser.t1.pollRequest.statuses=statusesForThisTraverser

Jeśli masz wielu trawersów, ustaw stany elementów dla każdego z trawersów (gdzie t1 oznacza konkretnego trawertera).

Obciążenie hosta traverser.hostload=threads

Maksymalna liczba aktywnych wątków równoległych do odpytywania. Wartość domyślna to 5.

traverser.t1.hostload=threadsForThisTraverser

Jeśli masz wielu trawersów, ustaw stany elementów dla każdego z trawersów (gdzie t1 oznacza konkretnego trawertera).

Czas oczekiwania traverser.timeout=timeout

Wartość czasu oczekiwania na przerwanie tej próby sondowania.

Wartością domyślną jest 60.

traverser.t1.timeout=timeoutForThisTraverser

Jeśli masz wielu trawersów, ustaw stany elementów dla każdego z trawersów (gdzie t1 oznacza konkretnego trawertera).

traverser.timeunit=timeoutUunit

Jednostki limitu czasu. Prawidłowe wartości to SECONDS, MINUTES,

traverser.t1.timeunit=timeoutUnit

Jeśli masz wielu trawersów, ustaw stany elementów dla każdego z trawersów (gdzie t1 oznacza konkretnego trawertera).

W większości przypadków oprogramowanie sprzęgające korzystające z szablonu oprogramowania sprzęgającego korzystającego z listy SDK wymaga tylko jednego zestawu parametrów do odpytywania. W niektórych przypadkach może być konieczne zdefiniowanie więcej niż 1 kryterium odpytywania, jeśli algorytm przemierzania wymaga na przykład rozdzielenia przetwarzania elementów przy użyciu różnych kolejek.

W takim przypadku możesz zdefiniować wiele zestawów parametrów odpytywania. Zacznij od określenia nazw zbiorów parametrów za pomocą właściwości repository.traversers. Dla każdej zdefiniowanej nazwy trawertera prześlij plik konfiguracji z parametrami z tabeli powyżej, zastępując t1 nazwą trawersu. Spowoduje to utworzenie zestawu parametrów odpytywania dla każdego zdefiniowanego trawersu.

Punkty kontrolne

Punkt kontrolny przydaje się do śledzenia stanu przemierzania przyrostowego.

lokalizacji, Parametr
Katalog punktów kontrolnych connector.checkpointDirectory=/path/to/checkpoint

Określa ścieżkę do katalogu lokalnego, która ma być używana na potrzeby przyrostowych i pełnych punktów kontrolnych przemierzania.

Przesłane treści

Treść elementu jest przesyłana do Cloud Search wraz z nim, gdy rozmiar treści nie przekracza określonego progu. Jeśli rozmiar treści przekracza próg, treści są przesyłane niezależnie od metadanych i uporządkowanych danych elementu.

lokalizacji, Parametr
Próg treści api.contentUploadThresholdBytes=bytes

Próg dla treści, który określa, czy zostały one przesłane „w trakcie przesyłania elementu” czy „w ramach osobnego przesyłania”.

Wartość domyślna to 100000 (~100 KB).

Kontenery

Pełny szablon oprogramowania sprzęgającego do wykrywania usuniętych rekordów w bazie danych wykorzystuje algorytm obejmujący koncepcję tymczasowego przełącznika kolejki źródeł danych. Oznacza to, że przy każdym pełnym przemierzeniu pobrane rekordy, które są w nowej kolejce, zastępują wszystkie istniejące rekordy Cloud Search zindeksowane z poprzedniego przemierzania, które znajdują się w starej kolejce.

lokalizacji, Parametr
Tag nazwy kontenera traverse.queueTag=instance

Aby równolegle uruchamiać wiele instancji oprogramowania sprzęgającego w celu indeksowania wspólnego repozytorium danych (w różnych repozytoriach danych lub osobnych częściach wspólnego repozytorium danych) bez zakłócania sobie działania, przypisz do każdego uruchomienia oprogramowania sprzęgającego unikalny tag nazwy kontenera. Unikalny tag nazwy uniemożliwia instancji oprogramowania sprzęgającego usunięcie rekordów innego użytkownika.

Tag nazwy jest dołączany do identyfikatora kolejki przełącznika pełnego przemierzania.

Wyłącz wykrywanie usuwania traverse.useQueues=true|false

Wskazuje, czy oprogramowanie sprzęgające korzysta z funkcji przełączania kolejki do wykrywania usuwania.

Wartość domyślna to true, która określa, że należy używać kolejek.

Uwaga: ten parametr konfiguracji ma zastosowanie tylko w przypadku oprogramowania sprzęgającego implementującego szablon FullTraversalConnector.

Zasada przetwarzania wsadowego

Pakiet SDK obsługuje zasady wsadowe, które umożliwiają wykonywanie tych działań:

  • Żądania zbiorcze
  • Określ liczbę żądań w kolejce wsadowej
  • Zarządzanie równoczesnym wykonywaniem wsadów
  • Usuń żądania zbiorcze

Pakiet SDK grupuje żądania oprogramowania sprzęgającego, aby zwiększyć przepustowość podczas przesyłania. Aktywator pakietu SDK do przesyłania grupy żądań zależy od liczby żądań lub limitu czasu, w zależności od tego, co nastąpi wcześniej. Jeśli na przykład czas opóźnienia wsadu upłynął bez osiągnięcia rozmiaru wsadu lub osiągnięto limit wielkości wsadu przed upływem czasu opóźnienia, rozpocznie się przesyłanie zbiorcze.

lokalizacji, Parametr
Żądania zbiorcze batch.batchSize=batchSize

Zbiorcze przesyłanie żądań. Wartością domyślną jest 10.

Liczba żądań w kolejce wsadowej batch.maxQueueLength=maxQueueLength

Maksymalna liczba żądań w kolejce do wykonania. Wartością domyślną jest 1000..

Równoczesne wykonywanie zadań wsadowych batch.maxActiveBatches=maxActiveBatches

Liczba dozwolonych równoczesnych zadań wsadów. Wartością domyślną jest 20.

Automatyczne usuwanie żądań zbiorczych batch.maxBatchDelaySeconds=maxBatchDelay

Liczba sekund oczekiwania przed automatycznym usunięciem żądań zbiorczych. Wartością domyślną jest 5.

Usuwanie zbiorczych żądań przy zamykaniu batch.flushOnShutdown=true|false

Usuń zbiorcze żądania podczas wyłączania usługi. Wartością domyślną jest true.

Moduły obsługi wyjątków

Parametry modułów obsługi wyjątków określają, jak ma działać trawerter po napotkaniu wyjątku.

lokalizacji, Parametr
Instrukcja przesuwania na wypadek błędu traverse.exceptionHandler=exceptions

Jak powinien postępować trawerter po złożeniu wyjątku. Prawidłowe wartości to:

  • 0 – zawsze przerywa przemierzanie po napotkaniu wyjątku
  • num_exceptions (na przykład 10) – przerwij po napotkaniu elementu num_exceptions przez trawertera.

    Wartością domyślną jest 0 (przerwij zawsze w przypadku błędu).

  • ignore – zignoruj błąd
Czas oczekiwania między wyjątkami abortExceptionHander.backoffMilliSeconds=backoff

Czas do ponowienia w milisekundach oczekiwania między wykrytymi wyjątkami modułu obsługi (zwykle używany podczas przemierzania repozytorium). Wartością domyślną jest 10.