Indexierungs-Plug-in für den Norconex HTTP Collector bereitstellen

Dieser Leitfaden richtet sich an Administratoren, die für das Herunterladen, Bereitstellen und Verwalten des Indexierungs-Plug-ins für den Google Cloud Search Norconex HTTP Collector verantwortlich sind. Sie sollten mit Linux, den Grundlagen des Web-Crawlings, XML und dem Norconex HTTP Collector vertraut sein.

Dieser Leitfaden enthält Anleitungen zu folgenden Themen:

Software für das Indexierungs-Plug-in herunterladen
Cloud Search konfigurieren
Den Norconex HTTP Collector und das Web-Crawling konfigurieren
Web-Crawling und den Upload von Inhalten starten

Informationen zu den Aufgaben, die der Google Workspace-Administrator ausführen muss, sind in diesem Leitfaden nicht enthalten. Weitere Informationen dazu finden Sie unter Integration von Drittanbietern.

Übersicht über das Indexierungs-Plug-in für den Norconex HTTP Collector

Mit Cloud Search können Sie in Google Workspace-Diensten wie Google Docs und Gmail nach Inhalten suchen und diese indexieren sowie bereitstellen. Wenn Sie das Indexierungs-Plug-in für den Norconex HTTP Collectorbereitstellen, können Sie die Reichweite von Cloud Search auf Webinhalte ausweiten. Das Plug-in ist ein Open-Source-Web-Crawler für Unternehmen.

Konfigurationsattributdateien

Damit das Plug-in Inhalte crawlen und hochladen kann, müssen Sie in zwei Konfigurationsdateien bestimmte Informationen angeben:

{gcs-crawl-config.xml}: Einstellungen für den Norconex HTTP Collector
sdk-configuration.properties: Einstellungen für Cloud Search

Web-Crawling und Upload von Inhalten

Nachdem Sie die Konfigurationsdateien vorbereitet haben, können Sie das Web-Crawling starten. Der Norconex HTTP Collector crawlt das Web und lädt die ursprünglichen Binär- oder Textdokumentinhalte in die Indexierungs-API von Cloud Search hoch.

Systemanforderungen

Betriebssystem: nur Linux
Norconex-Version: Version 2.8.0
Software: Java JRE 1.8

ACL-Unterstützung

Das Indexierungs-Plug-in unterstützt Zugriffssteuerungslisten (Access Control Lists, ACLs), um den Zugriff auf Dokumente in der Google Workspace-Domain zu steuern.

Wenn Sie in der Plug-in-Konfiguration Standard-ACLs aktivieren (defaultAcl.mode ist nicht auf none festgelegt), werden diese Standardeinstellungen vom Plug-in angewendet. Andernfalls gewährt das Plug-in der gesamten Domain die Leseberechtigung. Weitere Informationen zu den von Google erstellten Connectorparametern

Vorbereitung

Für das Deployment des Indexierungs-Plug-in benötigen Sie die folgenden Komponenten:

Privater Google Workspace-Schlüssel, der die Dienstkonto-ID enthält. Weitere Informationen finden Sie unter Zugriff auf die Cloud Search API konfigurieren.
ID der Google Workspace-Datenquelle. Weitere Informationen finden Sie unter Integration von Drittanbietern.

Deployment

Den Norconex HTTP Collector und das Plug-in installieren
Cloud Search konfigurieren
Den Norconex HTTP Collector konfigurieren
Web-Crawling konfigurieren
Web-Crawling und Inhaltsupload starten

Schritt 1: Den Norconex HTTP Collector und das Plug-in installieren

Laden Sie die Norconex Committer-Software von der Norconex Download seite herunter.
Extrahieren Sie die Software nach ~/norconex/.

Klonen Sie das Committer-Plug-in:

git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
cd norconex-committer-plugin

Checken Sie die ausgewählte Version aus und erstellen Sie das Plug-in:
```
git checkout tags/v1-0.0.3
mvn package
```
Verwenden Sie mvn package -DskipTests, um Tests zu überspringen.

Kopieren Sie die JAR-Datei in das lib-Verzeichnis von Norconex:

cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib

Extrahieren Sie die erstellte ZIP-Datei:

unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3

Führen Sie das Installationsskript aus und geben Sie den vollständigen Pfad zum lib-Verzeichnis von Norconex an:
```
sh install.sh
```
Wenn Sie nach doppelten Dateien gefragt werden, wählen Sie Option 1 aus.

Schritt 2: Cloud Search konfigurieren

Erstellen Sie sdk-configuration.properties im Norconex-Verzeichnis. In der Datei müssen die folgenden Parameter angegeben werden:

Einstellung	Parameter
ID der Datenquelle	`api.sourceId = 1234567890abcdef` Pflichteingabe. Die Quell-ID von Ihrem Google Workspace-Administrator.
Dienstkonto	`api.serviceAccountPrivateKeyFile = ./PrivateKey.json` Pflichteingabe. Die Dienstkonto-Schlüsseldatei.

Beispiel für sdk-configuration.properties:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

Sie können auch Parameter wie batch.* angeben, um zu steuern, wie das Plug-in Daten überträgt. Weitere Informationen zu den von Google erstellten Connectorparametern

Konfigurieren Sie die folgenden optionalen Parameter, um Metadaten zu verwenden:

Einstellung	Parameter
Titel	`itemMetadata.title.field=movieTitle`
Schema-Objekttyp	`itemMetadata.objectType=movie`

Schritt 3: Den Norconex HTTP Collector konfigurieren

Das Plug-in enthält eine Beispieldatei: minimum-config.xml.

Wechseln Sie in das Norconex-Verzeichnis und kopieren Sie das Beispiel:

cd ~/norconex/norconex-collector-http-VERSION/
cp examples/minimum/minimum-config.xml gcs-crawl-config.xml

Bearbeiten Sie gcs-crawl-config.xml, um <committer> und <tagger> -Knoten hinzuzufügen oder zu ersetzen:

Einstellung	Parameter
`<committer>`-Knoten	`<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">` Pflichteingabe. Fügen Sie dies unter dem `<httpcollector>` Knoten hinzu.
`<uploadFormat>`	`<uploadFormat>raw</uploadFormat>` Optional. `raw` oder `text`. Standard ist `raw`.

Beispiel für gcs-crawl-config.xml:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Schritt 4: Web-Crawling konfigurieren

Konfigurieren Sie die <crawler>-Knoten nach Bedarf, einschließlich:

Start-URLs
Maximale Crawling-Tiefe
Anzahl der Threads

Weitere Informationen finden Sie auf der Norconex-Konfigurations seite.

Schritt 5: Web-Crawling und Inhaltsupload starten

Führen Sie den Collector im lokalen Modus aus:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Crawler mit JEF Monitor überwachen

Der Norconex JEF Monitor (Job Execution Framework) bietet eine grafische Ansicht des Fortschritts. Weitere Informationen finden Sie unter Crawler mit JEF Monitor überwachen.

Indexierungs-Plug-in für den Norconex HTTP Collector bereitstellen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.