Esegui il deployment di un plug-in Norconex HTTP Collector Indexer

Questa guida è destinata agli amministratori dei plug-in per l'indicizzatore di Norconex HTTP Collector di Google Cloud Search, ovvero chiunque sia responsabile del download, del deployment, della configurazione e della gestione del plug-in dell'indicizzatore. La guida presuppone che tu abbia familiarità con i sistemi operativi Linux, le nozioni di base della scansione del web, XML e Norconex HTTP Collector.

Questa guida include le istruzioni per eseguire le attività chiave relative all'implementazione del plug-in dell'indicizzatore:

  • Scarica il software del plug-in per l'indicizzatore
  • Configurare Google Cloud Search
  • Configurare Norconex HTTP Collector e scansione web
  • Avviare la scansione del web e caricare i contenuti

Le informazioni sulle attività che l'amministratore di Google Workspace deve eseguire per mappare Google Cloud Search al plug-in dell'indicizzatore Norconex HTTP Collector non vengono visualizzate in questa guida. Per informazioni su queste attività, consulta Gestire le origini dati di terze parti.

Panoramica del plug-in dell'indicizzatore dell'indicizzatore Norconex HTTP Collector di Cloud Search

Per impostazione predefinita, Cloud Search può rilevare, indicizzare e pubblicare contenuti dei prodotti Google Workspace, come Documenti Google e Gmail. Puoi estendere la copertura di Google Cloud Search in modo da includere la pubblicazione di contenuti web per i tuoi utenti eseguendo il deployment del plug-in dell'indicizzatore per Norconex HTTP Collector, un web crawler aziendale open source.

File delle proprietà di configurazione

Per abilitare il plug-in dell'indicizzatore in modo che esegua scansioni web e carichi contenuti nell'API di indicizzazione, in qualità di amministratore del plug-in dell'indicizzatore devi fornire informazioni specifiche durante le fasi di configurazione descritte in questo documento nella sezione Passaggi di deployment.

Per utilizzare il plug-in indexer, devi impostare le proprietà in due file di configurazione:

  • {gcs-crawl-config.xml}-- contiene le impostazioni per Norconex HTTP Collector.
  • sdk-configuration.properties-- contiene le impostazioni per Google Cloud Search.

Le proprietà in ogni file consentono al plug-in dell'indicizzatore di Google Cloud Search e Norconex HTTP Collector di comunicare tra loro.

Scansione web e caricamento di contenuti

Dopo aver compilato i file di configurazione, hai a disposizione le impostazioni necessarie per avviare la scansione web. Norconex HTTP Collector esegue la scansione del web, rilevando il contenuto del documento relativo alla sua configurazione e carica le versioni binarie originali (o testuali) dei contenuti del documento nell'API Cloud Search Indicizzazione, dove vengono indicizzati e infine pubblicati per gli utenti.

Sistema operativo supportato

Il plug-in dell'indicizzatore dell'indicizzatore Norconex HTTP Collector di Google Cloud Search deve essere installato su Linux.

Versione supportata della raccolta HTTP Norconex

Il plug-in dell'indicizzatore dell'indicizzatore Norconex HTTP Collector di Google Cloud Search supporta la versione 2.8.0.

Supporto ACL

Il plug-in indexer supporta il controllo dell'accesso ai documenti nel dominio Google Workspace tramite elenchi di controllo dell'accesso (ACL).

Se nella configurazione del plug-in di Google Cloud Search sono abilitati ACL predefiniti (defaultAcl.mode impostato su un valore diverso da none e configurato con defaultAcl.*), il plug-in indexer prova innanzitutto a creare e applicare un ACL predefinito.

Se gli ACL predefiniti non sono abilitati, il plug-in torna nuovamente a concedere l'autorizzazione di lettura all'intero dominio Google Workspace.

Per descrizioni dettagliate dei parametri di configurazione ACL, vedi Parametri dei connettori forniti da Google.

Prerequisiti

Prima di eseguire il deployment del plug-in dell'indicizzatore, assicurati di disporre dei seguenti componenti obbligatori:

  • Java JRE 1.8 installato su un computer che esegue il plug-in indexer
  • Informazioni su Google Workspace necessarie per stabilire relazioni tra Cloud Search e Norconex HTTP Collector:

    In genere, queste credenziali possono essere fornite dall'amministratore di Google Workspace del dominio.

Procedura di deployment

Per eseguire il deployment del plug-in indexer, segui questi passaggi:

  1. Installare Norconex HTTP Collector e il software del plug-in indexer
  2. Configurare Google Cloud Search
  3. Configura Norconex HTTP Collector
  4. Configurare la scansione web
  5. Avviare una scansione web e caricare contenuti

Passaggio 1: installa Norconex HTTP Collector e il software del plug-in indexer

  1. Scarica il software Norconex commiter da questa pagina.
  2. Decomprimi il software scaricato nella cartella ~/norconex/
  3. Clona il plug-in del commiter da GitHub. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git e poi cd norconex-committer-plugin
  4. Verifica la versione desiderata del plug-in di commiter e crea il file ZIP: git checkout tags/v1-0.0.3 e mvn package (per saltare i test durante la creazione del connettore, utilizza mvn package -DskipTests.)
  5. cd target
  6. Copia il file jar del plug-in creato nella directory lib di norconex. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. Estrai il file ZIP che hai appena creato e decomprimi il file: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. Esegui lo script di installazione per copiare il file .jar del plug-in e tutte le librerie richieste nella directory del raccoglitore http:
    1. Modifica al plug-in del commiter estratto decompresso sopra: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. Esegui $ sh install.sh e fornisci il percorso completo a norconex/norconex-collector-http-{version}/lib come directory di destinazione quando richiesto.
    3. Se vengono trovati file jar duplicati, seleziona l'opzione 1 (copia il Jar di origine solo se la versione superiore o uguale del Jar di destinazione dopo aver rinominato il Jar target).

Passaggio 2: configura Google Cloud Search

Affinché il plug-in indexer si connetta a Norconex HTTP Collector e indicizzi i contenuti pertinenti, devi creare il file di configurazione di Cloud Search nella directory Norconex in cui è installato Norconex HTTP Collector. Google consiglia di assegnare al file di configurazione di Cloud Search il nome sdk-configuration.properties.

Questo file di configurazione deve contenere coppie chiave/valore che definiscono un parametro. Il file di configurazione deve specificare almeno i seguenti parametri, necessari per accedere all'origine dati di Cloud Search.

Impostazione Parametro
ID origine dati api.sourceId = 1234567890abcdef
Obbligatorio. L'ID origine di Cloud Search configurato dall'amministratore di Google Workspace.
Service account api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obbligatorio. Il file della chiave dell'account di servizio di Cloud Search creato dall'amministratore di Google Workspace per l'accessibilità del plug-in dell'indicizzatore.

L'esempio seguente mostra un file sdk-configuration.properties.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

Il file di configurazione può contenere anche parametri di configurazione forniti da Google. Questi parametri possono influire sul modo in cui il plug-in invia i dati all'API Google Cloud Search. Ad esempio, l'insieme di parametri batch.* identifica il modo in cui il connettore combina le richieste.

Se non definisci un parametro nel file di configurazione, viene utilizzato il valore predefinito, se disponibile. Per descrizioni dettagliate di ciascun parametro, consulta Parametri dei connettori forniti da Google.

Puoi configurare il plug-in dell'indicizzatore in modo che compili i metadati e i dati strutturati per i contenuti indicizzati. I valori da compilare per i campi di metadati e dati strutturati possono essere estratti dai meta tag nei contenuti HTML che vengono indicizzati oppure i valori predefiniti possono essere specificati nel file di configurazione.

Impostazione Parametro
Titolo itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Per impostazione predefinita, il plug-in utilizza HTML title come titolo del documento che viene indicizzato. In caso di titolo mancante, puoi fare riferimento all'attributo dei metadati che contiene il valore corrispondente al titolo del documento o impostare un valore predefinito.
Timestamp creazione itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
L'attributo dei metadati che contiene il valore del timestamp di creazione del documento.
Ora dell'ultima modifica itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
L'attributo di metadati che contiene il valore del timestamp dell'ultima modifica per il documento.
Lingua del documento itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
La lingua dei contenuti per i documenti che vengono indicizzati.
Tipo di oggetto schema itemMetadata.objectType=movie
Il tipo di oggetto utilizzato dal sito, come definito nelle definizioni degli oggetti dello schema dell'origine dati. Il connettore non indicizza i dati strutturati se questa proprietà non è specificata.

Nota: questa proprietà di configurazione punta a un valore anziché a un attributo di metadati. I filtri secondari .field e .defaultValue non sono supportati.

Formati data/ora

I formati di data e ora specificano i formati previsti negli attributi dei metadati. Se il file di configurazione non contiene questo parametro, vengono utilizzati i valori predefiniti. La tabella seguente mostra questo parametro.

Impostazione

Parametro

Pattern data/ora aggiuntivi

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

Un elenco separato da punti e virgola di ulteriori pattern java.time.format.DateTimeFormatter. I pattern vengono utilizzati durante l'analisi dei valori stringa per qualsiasi campo data o data-ora nei metadati o nello schema. Il valore predefinito è vuoto, ma sono sempre supportati i formati RFC 3339 e RFC 1123.

Passaggio 3: configura Norconex HTTP Collector

L'archivio ZIP norconex-committer-google-cloud-search-{version}.zipinclude un file di configurazione di esempio, minimum-config.xml.

Google consiglia di iniziare la configurazione copiando il file di esempio:

  1. Passa alla directory Norconex HTTP Collector:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. Copia il file di configurazione:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. Modifica il file appena creato (in questo esempio, gcs-crawl-config.xml) e aggiungi o sostituisci i nodi <committer> e <tagger> esistenti come descritto nella tabella seguente.
Impostazione Parametro
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

Obbligatorio. Per abilitare il plug-in, devi aggiungere un nodo <committer> come figlio del nodo principale <httpcollector>.
<UploadFormat> <uploadFormat>raw</uploadFormat>
Facoltativo. Il formato in cui il plug-in dell'indicizzatore invia i contenuti dei documenti all'API Google Cloud Search Indexer. I valori validi sono:
  • raw: il plug-in dell'indicizzatore trasferisce i contenuti dei documenti originali e non convertiti.
  • text: il plug-in dell'indicizzatore esegue il push dei contenuti testuali estratti.

Il valore predefinito è raw.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
Obbligatorio se il valore di <UploadFormat> è raw. In questo caso, il plug-in dell'indicizzatore richiede che il campo del contenuto binario del documento sia disponibile.

Devi aggiungere il nodo BinaryContentTagger <tagger> come elemento secondario del nodo <importer> / <preParseHandlers>.

L'esempio seguente mostra la modifica obbligatoria a gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Passaggio 4: configura la scansione del web

Prima di iniziare una scansione web, devi configurare la scansione in modo che includa solo le informazioni che la tua organizzazione vuole rendere disponibili nei risultati di ricerca. Le impostazioni più importanti per la scansione web fanno parte dei <crawler> nodi e possono includere:

  • URL di inizio
  • Profondità massima della scansione
  • Numero di thread

Modifica questi valori di configurazione in base alle tue esigenze. Per informazioni più dettagliate sull'impostazione di una scansione web e un elenco completo dei parametri di configurazione disponibili, consulta la pagina Configurazione del raccoglitore HTTP.

Passaggio 5: avvia una scansione del web e il caricamento di contenuti

Dopo aver installato e configurato il plug-in dell'indicizzatore, puoi eseguirlo autonomamente in modalità locale.

L'esempio seguente presuppone che i componenti richiesti si trovino nella directory locale su un sistema Linux. Esegui questo comando:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Monitorare il crawler con JEF Monitor

Norconex JEF (Job Execution Framework) Monitor è uno strumento grafico per monitorare l'avanzamento dei processi e dei job del crawler web Norconex (HTTP Collector). Per un tutorial completo sulla configurazione di questa utilità, consulta Monitorare l'avanzamento del crawler con JEF Monitor.