Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Wdrażanie wtyczki Norconex HTTP Collector Indexer

Ten przewodnik jest przeznaczony dla administratorów odpowiedzialnych za pobieranie, wdrażanie i utrzymywanie wtyczki indeksującej Google Cloud Search Norconex HTTP Collector. Musisz znać system Linux, podstawy indeksowania stron internetowych, XML i Norconex HTTP Collector.

W tym przewodniku znajdziesz instrukcje dotyczące:

Pobierz oprogramowanie wtyczki indeksującej.
Skonfiguruj Cloud Search.
Skonfiguruj Norconex HTTP Collector i indeksowanie stron internetowych.
Rozpocznij indeksowanie internetu i przesyłanie treści.

Informacje o zadaniach, które musi wykonać administrator Google Workspace, nie są zawarte w tym przewodniku. Więcej informacji o tych zadaniach znajdziesz w artykule Zarządzanie zewnętrznymi źródłami danych.

Omówienie wtyczki indeksującej Norconex HTTP Collector

Domyślnie Cloud Search może wykrywać, indeksować i udostępniać treści z usług Google Workspace, takich jak Dokumenty Google i Gmail. Możesz rozszerzyć to rozwiązanie, aby obejmowało treści internetowe, wdrażając wtyczkę indeksującą dla Norconex HTTP Collector, czyli internetowego robota indeksującego typu open source.

Pliki właściwości konfiguracji

Aby wtyczka mogła indeksować i przesyłać treści, musisz podać określone informacje w 2 plikach konfiguracyjnych:

{gcs-crawl-config.xml}: ustawienia kolektora HTTP Norconex.
sdk-configuration.properties: ustawienia Cloud Search.

Indeksowanie internetu i przesyłanie treści

Po wypełnieniu plików konfiguracyjnych możesz rozpocząć indeksowanie. Norconex HTTP Collector indeksuje internet i przesyła oryginalną zawartość dokumentów binarnych lub tekstowych do interfejsu Cloud Search Indexing API.

Wymagania systemowe

System operacyjny: tylko Linux.
Wersja Norconex: 2.8.0.
Oprogramowanie: Java JRE 1.8.

Obsługa list kontroli dostępu

Wtyczka indeksująca obsługuje listy kontroli dostępu (ACL), które umożliwiają kontrolowanie dostępu do dokumentów w domenie Google Workspace.

Jeśli włączysz domyślne listy ACL w konfiguracji wtyczki (defaultAcl.mode ustawione na wartość inną niż none), wtyczka zastosuje te ustawienia domyślne. W przeciwnym razie wtyczka przyznaje uprawnienia do odczytu całej domenie. Zobacz parametry oprogramowania sprzęgającego dostarczonego przez Google.

Wymagania wstępne

Zanim wdrożysz wtyczkę indeksującą, przygotuj te komponenty:

Klucz prywatny Google Workspace (zawierający identyfikator konta usługi). Zobacz Konfigurowanie dostępu do interfejsu Cloud Search API.
Identyfikator źródła danych Google Workspace. Zobacz Zarządzanie zewnętrznymi źródłami danych.

Etapy wdrażania

Zainstaluj Norconex HTTP Collector i oprogramowanie wtyczki
Konfigurowanie Cloud Search
Konfigurowanie narzędzia Norconex HTTP Collector
Konfigurowanie indeksowania internetu
Rozpoczynanie indeksowania internetu i przesyłania treści

Krok 1. Zainstaluj Norconex HTTP Collector i oprogramowanie wtyczki

Pobierz oprogramowanie Norconex committer ze strony pobierania Norconex.
Wyodrębnij oprogramowanie do folderu ~/norconex/.

Sklonuj wtyczkę zatwierdzającą:

git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
cd norconex-committer-plugin

Sprawdź wybraną wersję i skompiluj wtyczkę:
```
git checkout tags/v1-0.0.3
mvn package
```
Aby pominąć testy, użyj mvn package -DskipTests.

Skopiuj plik JAR do katalogu Norconex lib:

cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib

Wyodrębnij utworzony plik ZIP:

unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3

Uruchom skrypt instalacyjny i podaj pełną ścieżkę do katalogu Norconex lib:
```
sh install.sh
```
Jeśli pojawi się prośba o wybranie duplikatów plików, wybierz opcję 1.

Krok 2. Skonfiguruj Cloud Search

Utwórz plik sdk-configuration.properties w katalogu Norconex. Plik musi zawierać te parametry:

Ustawienie	Parametr
Identyfikator źródła danych	`api.sourceId = 1234567890abcdef` Wymagane. Identyfikator źródła od administratora Google Workspace.
Konto usługi	`api.serviceAccountPrivateKeyFile = ./PrivateKey.json` Wymagane. Plik klucza konta usługi.

Przykładowy element sdk-configuration.properties:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

Możesz też uwzględnić parametry takie jak batch.*, aby kontrolować sposób przesyłania danych przez wtyczkę. Zobacz parametry oprogramowania sprzęgającego dostarczonego przez Google.

Aby wypełnić metadane, skonfiguruj te opcjonalne parametry:

Ustawienie	Parametr
Tytuł	`itemMetadata.title.field=movieTitle`
Typ obiektu schematu	`itemMetadata.objectType=movie`

Krok 3. Skonfiguruj Norconex HTTP Collector

Wtyczka zawiera przykładowy plik minimum-config.xml.

Przejdź do katalogu Norconex i skopiuj przykład:

cd ~/norconex/norconex-collector-http-VERSION/
cp examples/minimum/minimum-config.xml gcs-crawl-config.xml

Edytuj gcs-crawl-config.xml, aby dodać lub zastąpić węzły <committer> i <tagger>:

Ustawienie	Parametr
`<committer>` węzeł	`<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">` Wymagane. Dodaj ten węzeł pod węzłem `<httpcollector>`.
`<uploadFormat>`	`<uploadFormat>raw</uploadFormat>` Opcjonalnie. `raw` lub `text`. Wartość domyślna to `raw`.

Przykładowy element gcs-crawl-config.xml:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Krok 4. Skonfiguruj indeksowanie internetu

Skonfiguruj węzły <crawler> zgodnie ze swoimi potrzebami, w tym:

Początkowe adresy URL
Maksymalna głębokość indeksowania
Liczba wątków

Zobacz stronę konfiguracji Norconex.

Krok 5. Rozpocznij indeksowanie witryny i przesyłanie treści

Uruchom kolektor w trybie lokalnym:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Monitorowanie indeksowania za pomocą narzędzia JEF Monitor

Monitor Norconex JEF (Job Execution Framework) zapewnia graficzny widok postępu. Zobacz Monitorowanie indeksowania za pomocą narzędzia JEF Monitor.

Wdrażanie wtyczki Norconex HTTP Collector Indexer Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.