Indexierungs-Plug-in für den Norconex HTTP Collector bereitstellen

Dieser Leitfaden richtet sich an Administratoren, die für das Herunterladen, Bereitstellen und Verwalten des Indexierungs-Plug-ins für den Google Cloud Search Norconex HTTP Collector verantwortlich sind. Sie sollten mit Linux, den Grundlagen des Web-Crawlings, XML und dem Norconex HTTP Collector vertraut sein.

Dieser Leitfaden enthält Anleitungen zu folgenden Themen:

  • Software für das Indexierungs-Plug-in herunterladen
  • Cloud Search konfigurieren
  • Den Norconex HTTP Collector und das Web-Crawling konfigurieren
  • Web-Crawling und den Upload von Inhalten starten

Informationen zu den Aufgaben, die der Google Workspace-Administrator ausführen muss, sind in diesem Leitfaden nicht enthalten. Weitere Informationen dazu finden Sie unter Integration von Drittanbietern.

Übersicht über das Indexierungs-Plug-in für den Norconex HTTP Collector

Mit Cloud Search können Sie in Google Workspace-Diensten wie Google Docs und Gmail nach Inhalten suchen und diese indexieren sowie bereitstellen. Wenn Sie das Indexierungs-Plug-in für den Norconex HTTP Collectorbereitstellen, können Sie die Reichweite von Cloud Search auf Webinhalte ausweiten. Das Plug-in ist ein Open-Source-Web-Crawler für Unternehmen.

Konfigurationsattributdateien

Damit das Plug-in Inhalte crawlen und hochladen kann, müssen Sie in zwei Konfigurationsdateien bestimmte Informationen angeben:

  • {gcs-crawl-config.xml}: Einstellungen für den Norconex HTTP Collector
  • sdk-configuration.properties: Einstellungen für Cloud Search

Web-Crawling und Upload von Inhalten

Nachdem Sie die Konfigurationsdateien vorbereitet haben, können Sie das Web-Crawling starten. Der Norconex HTTP Collector crawlt das Web und lädt die ursprünglichen Binär- oder Textdokumentinhalte in die Indexierungs-API von Cloud Search hoch.

Systemanforderungen

  • Betriebssystem: nur Linux
  • Norconex-Version: Version 2.8.0
  • Software: Java JRE 1.8

ACL-Unterstützung

Das Indexierungs-Plug-in unterstützt Zugriffssteuerungslisten (Access Control Lists, ACLs), um den Zugriff auf Dokumente in der Google Workspace-Domain zu steuern.

Wenn Sie in der Plug-in-Konfiguration Standard-ACLs aktivieren (defaultAcl.mode ist nicht auf none festgelegt), werden diese Standardeinstellungen vom Plug-in angewendet. Andernfalls gewährt das Plug-in der gesamten Domain die Leseberechtigung. Weitere Informationen zu den von Google erstellten Connectorparametern

Vorbereitung

Für das Deployment des Indexierungs-Plug-in benötigen Sie die folgenden Komponenten:

Deployment

  1. Den Norconex HTTP Collector und das Plug-in installieren
  2. Cloud Search konfigurieren
  3. Den Norconex HTTP Collector konfigurieren
  4. Web-Crawling konfigurieren
  5. Web-Crawling und Inhaltsupload starten

Schritt 1: Den Norconex HTTP Collector und das Plug-in installieren

  1. Laden Sie die Norconex Committer-Software von der Norconex Download seite herunter.
  2. Extrahieren Sie die Software nach ~/norconex/.
  3. Klonen Sie das Committer-Plug-in:

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. Checken Sie die ausgewählte Version aus und erstellen Sie das Plug-in:

    git checkout tags/v1-0.0.3
    mvn package
    

    Verwenden Sie mvn package -DskipTests, um Tests zu überspringen.

  5. Kopieren Sie die JAR-Datei in das lib-Verzeichnis von Norconex:

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. Extrahieren Sie die erstellte ZIP-Datei:

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. Führen Sie das Installationsskript aus und geben Sie den vollständigen Pfad zum lib-Verzeichnis von Norconex an:

    sh install.sh
    

    Wenn Sie nach doppelten Dateien gefragt werden, wählen Sie Option 1 aus.

Schritt 2: Cloud Search konfigurieren

Erstellen Sie sdk-configuration.properties im Norconex-Verzeichnis. In der Datei müssen die folgenden Parameter angegeben werden:

Einstellung Parameter
ID der Datenquelle api.sourceId = 1234567890abcdef
Pflichteingabe. Die Quell-ID von Ihrem Google Workspace-Administrator.
Dienstkonto api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Pflichteingabe. Die Dienstkonto-Schlüsseldatei.

Beispiel für sdk-configuration.properties:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

Sie können auch Parameter wie batch.* angeben, um zu steuern, wie das Plug-in Daten überträgt. Weitere Informationen zu den von Google erstellten Connectorparametern

Konfigurieren Sie die folgenden optionalen Parameter, um Metadaten zu verwenden:

Einstellung Parameter
Titel itemMetadata.title.field=movieTitle
Schema-Objekttyp itemMetadata.objectType=movie

Schritt 3: Den Norconex HTTP Collector konfigurieren

Das Plug-in enthält eine Beispieldatei: minimum-config.xml.

  1. Wechseln Sie in das Norconex-Verzeichnis und kopieren Sie das Beispiel:

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. Bearbeiten Sie gcs-crawl-config.xml, um <committer> und <tagger> -Knoten hinzuzufügen oder zu ersetzen:

Einstellung Parameter
<committer>-Knoten <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Pflichteingabe. Fügen Sie dies unter dem <httpcollector> Knoten hinzu.
<uploadFormat> <uploadFormat>raw</uploadFormat>
Optional. raw oder text. Standard ist raw.

Beispiel für gcs-crawl-config.xml:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Schritt 4: Web-Crawling konfigurieren

Konfigurieren Sie die <crawler>-Knoten nach Bedarf, einschließlich:

  • Start-URLs
  • Maximale Crawling-Tiefe
  • Anzahl der Threads

Weitere Informationen finden Sie auf der Norconex-Konfigurations seite.

Schritt 5: Web-Crawling und Inhaltsupload starten

Führen Sie den Collector im lokalen Modus aus:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Crawler mit JEF Monitor überwachen

Der Norconex JEF Monitor (Job Execution Framework) bietet eine grafische Ansicht des Fortschritts. Weitere Informationen finden Sie unter Crawler mit JEF Monitor überwachen.