Diese Seite wurde von der Cloud Translation API übersetzt.

Inhaltsconnector erstellen

Ein Inhaltsconnector ist ein Programm, mit dem die Daten im Repository eines Unternehmens durchsucht werden, um eine Datenquelle darzustellen. Google bietet Ihnen folgende Möglichkeiten, Inhaltsconnectors zu entwickeln:

Content Connector SDK Diese Option eignet sich gut, wenn Sie in Java programmieren. Dieses SDK ist ein Wrapper für die REST API, mit dem Sie schnell Connectors erstellen können. Weitere Informationen zum Erstellen eines Inhaltsconnectors mit dem SDK finden Sie im Abschnitt Mithilfe des Content Connector SDK Inhaltsconnectors erstellen.
Eine Low-Level-REST API oder API-Bibliotheken: Verwenden Sie diese Optionen, wenn Sie nicht in Java programmieren oder wenn Ihre Codebasis besser für eine REST API oder eine Bibliothek geeignet ist. Weitere Informationen zum Erstellen eines Inhaltsconnectors mit der REST API finden Sie im Abschnitt Mithilfe der REST API Inhaltsconnectors erstellen.

Mit einem typischen Inhaltsconnector werden die folgenden Aufgaben ausgeführt:

Liest und verarbeitet Konfigurationsparameter.
Diskrete Teile indexierbarer Daten, sogenannte Elemente, aus dem Inhalts-Repository eines Drittanbieters abrufen
Aus ACLs, Metadaten und Inhaltsdaten indexierbare Elemente erstellen
Elemente indexieren und in die Cloud Search-Datenquelle aufnehmen
Optional: Benachrichtigungen über Änderungen aus dem Inhalts-Repository des Drittanbieters erkennen. Änderungsbenachrichtigungen werden in Indexierungsanfragen umgewandelt, um die Cloud Search-Datenquelle und das Repository des Drittanbieters synchron zu halten. Diese Aufgabe wird nur ausgeführt, wenn das Repository die Änderungserkennung unterstützt.

Mit dem Content Connector SDK Inhaltsconnectors erstellen

In den folgenden Abschnitten wird erläutert, wie Sie mit dem Content Connector SDK einen Inhaltsconnector erstellen.

Abhängigkeiten einrichten

Sie müssen bestimmte Abhängigkeiten in Ihre Build-Datei aufnehmen, um das SDK verwenden zu können. Klicken Sie unten auf einen Tab, um sich die Abhängigkeiten für Ihre Build-Umgebung anzusehen:

Maven

<dependency>
<groupId>com.google.enterprise.cloudsearch</groupId>
<artifactId>google-cloudsearch-indexing-connector-sdk</artifactId>
<version>v1-0.0.3</version>
</dependency>

Gradle

compile group: 'com.google.enterprise.cloudsearch',
        name: 'google-cloudsearch-indexing-connector-sdk',
        version: 'v1-0.0.3'

Connectorkonfiguration erstellen

Jeder Connector hat eine Konfigurationsdatei mit Parametern, die von ihm verwendet werden, u. a. die ID für Ihr Repository. Parameter werden als Schlüssel/Wert-Paare definiert, z. B. api.sourceId=1234567890abcdef.

Das Google Cloud Search SDK enthält mehrere von Google bereitgestellte Konfigurationsparameter, die von allen Connectors verwendet werden. Davon müssen Sie folgende in Ihrer Konfigurationsdatei deklarieren:

Für einen Inhaltsconnector benötigen Sie die Parameter api.sourceId und api.serviceAccountPrivateKeyFile, da diese den Speicherort Ihres Repositorys und des für den Zugriff nötigen privaten Schlüssels angeben.

Für einen Identitätsconnector benötigen Sie den Parameter api.identitySourceId, da dieser den Speicherort Ihrer externen Identitätsquelle angibt. Wenn Sie Nutzer synchronisieren, müssen Sie api.customerId auch als eindeutige ID für das Google Workspace-Konto Ihres Unternehmens deklarieren.

Wenn Sie die Standardwerte anderer von Google bereitgestellter Parameter nicht überschreiben möchten, müssen Sie sie auch nicht in Ihrer Konfigurationsdatei angeben. Weitere Informationen zu den von Google bereitgestellten Konfigurationsparametern, z. B. wie Sie bestimmte IDs und Schlüssel generieren, finden Sie in diesem Artikel.

Sie können auch eigene Repository-spezifische Parameter für Ihre Konfigurationsdatei definieren.

Konfigurationsdatei an den Connector übergeben

Legen Sie das Systemattribut config fest, um die Konfigurationsdatei an Ihren Connector zu übergeben. Dazu verwenden Sie beim Starten des Connectors das Argument -D. Im folgenden Beispiel wird der Connector gestartet und die Konfigurationsdatei MyConfig.properties verwendet:

java -classpath myconnector.jar;... -Dconfig=MyConfig.properties MyConnector

Wenn dieses Argument fehlt, versucht das SDK, auf eine Standardkonfigurationsdatei mit dem Namen connector-config.properties zuzugreifen.

Durchlaufstrategie festlegen

Die Hauptfunktion eines Inhaltsconnectors besteht darin, ein Repository zu durchsuchen und seine Daten zu indexieren. Die Durchlaufstrategie dafür muss auf die Größe und das Layout der Daten in Ihrem Repository abgestimmt sein. Sie können Ihre eigene entwerfen oder aus den folgenden im SDK implementierten wählen:

Durchlauf mit vollständiger Indexierung (Full Traversal)

Bei dieser Strategie wird das gesamte Repository gescannt und blind indexiert. Sie wird häufig verwendet, wenn das Repository klein ist und ein kompletter Durchlauf bei jeder Indexierung kein Problem darstellt.

Diese Durchlaufstrategie eignet sich für kleine Repositories, die mehr statische als nicht hierarchische Daten enthalten. Sie können sie auch verwenden, wenn die Änderungserkennung schwierig ist oder vom Repository nicht unterstützt wird.

Durchlauf mit Teilindexierung (List Traversal)

Bei dieser Strategie wird das gesamte Repository einschließlich aller untergeordneten Knoten gescannt, um den Status der einzelnen Elemente zu bestimmen. Anschließend führt der Connector einen zweiten Durchlauf aus und indexiert nur Elemente, die neu sind oder seit der letzten Indexierung aktualisiert wurden. Diese Strategie wird im Allgemeinen verwendet, um inkrementelle Updates an einem vorhandenen Index durchzuführen. So muss nicht bei jedem Update des Index ein vollständiger Durchlauf erfolgen.

Diese Durchlaufstrategie eignet sich, wenn die Änderungserkennung schwierig ist oder vom Repository nicht unterstützt wird. wenn Sie nicht hierarchische Daten haben oder wenn Sie mit sehr großen Datenmengen arbeiten.

Knotenbasierter Durchlauf mit Teilindexierung (Graph Traversal)

Bei dieser Strategie wird der gesamte übergeordnete Knoten gescannt, um den Status der einzelnen Elemente zu bestimmen. Anschließend führt der Connector einen zweiten Durchlauf aus und indexiert nur Elemente im Wurzelknoten, die neu sind oder seit der letzten Indexierung aktualisiert wurden. Dann übergibt der Connector alle untergeordneten IDs und indexiert die Elemente in den untergeordneten Knoten, die neu sind oder aktualisiert wurden. Der Connector geht rekursiv alle untergeordneten Knoten durch, bis alle Elemente abgearbeitet sind. Ein derartiger Durchlauf wird normalerweise für hierarchische Repositories verwendet, bei denen das Auflisten aller IDs nicht praktikabel ist.

Diese Strategie eignet sich, wenn Sie hierarchische Daten haben, die gecrawlt werden müssen, z. B. Serienverzeichnisse oder Webseiten.

Jede dieser Durchlaufstrategien wird im SDK durch eine Vorlagenklasse für Connectors implementiert. Sie können zwar auch eine eigene Durchlaufstrategie implementieren, mit diesen Vorlagen wird die Entwicklung Ihres Connectors jedoch erheblich beschleunigt. Wenn Sie mithilfe einer Vorlage einen Connector erstellen möchten, lesen Sie den zu Ihrer Durchlaufstrategie passenden Abschnitt:

Full Traversal-Connector mithilfe einer Vorlagenklasse erstellen
List Traversal-Connector mithilfe einer Vorlagenklasse erstellen
Graph Traversal-Connector mithilfe einer Vorlagenklasse erstellen

Full Traversal-Connector mithilfe einer Vorlagenklasse erstellen

Dieser Abschnitt bezieht sich auf Code-Snippets aus dem Beispiel FullTraversalSample.

Einstiegspunkt des Connectors implementieren

Der Einstiegspunkt für einen Connector ist die Methode main(). Sie dient hauptsächlich dazu, eine Instanz der Klasse Application zu erstellen und die Methode start() aufzurufen, um den Connector auszuführen.

Verwenden Sie die Klasse IndexingApplication.Builder, um die Vorlage FullTraversalConnector zu instanziieren, bevor Sie application.start() aufrufen. Für FullTraversalConnector wird ein Repository-Objekt akzeptiert, dessen Methoden Sie implementieren. Das folgende Code-Snippet zeigt das für die Methode main():

FullTraversalSample.java

Inhaltsconnector erstellen

Mit dem Content Connector SDK Inhaltsconnectors erstellen

Abhängigkeiten einrichten

Maven

Gradle

Connectorkonfiguration erstellen

Konfigurationsdatei an den Connector übergeben

Durchlaufstrategie festlegen

Full Traversal-Connector mithilfe einer Vorlagenklasse erstellen

Einstiegspunkt des Connectors implementieren

Repository-Schnittstelle implementieren

Benutzerdefinierte Konfigurationsparameter abrufen

Vollständigen Durchlauf durchführen

Berechtigungen für ein Element festlegen

Metadaten für ein Element festlegen

Indexierbares Element erstellen

Jedes indexierbare Element in einen Iterator verpacken

Nächste Schritte

List Traversal-Connector mithilfe einer Vorlagenklasse erstellen

Einstiegspunkt des Connectors implementieren

Repository-Schnittstelle implementieren

Benutzerdefinierte Konfigurationsparameter abrufen

Listendurchlauf (List Traversal) durchführen

Element-IDs und Hashwerte per Push übertragen

Alle Elemente abrufen und verarbeiten

Umgang mit gelöschten Elementen

Umgang mit unveränderten Elementen

Berechtigungen für ein Element festlegen

Metadaten für ein Element festlegen

Indexierbares Element erstellen

Nächste Schritte

Graph Traversal-Connector mithilfe einer Vorlagenklasse erstellen

Einstiegspunkt des Connectors implementieren

Repository-Schnittstelle implementieren

Benutzerdefinierte Konfigurationsparameter abrufen

Graphendurchlauf durchführen

Element-IDs und Hashwerte per Push übertragen

Alle Elemente abrufen und verarbeiten

Umgang mit gelöschten Elementen

Berechtigungen für ein Element festlegen

Metadaten für ein Element festlegen

Indexierbares Element erstellen

Untergeordnete IDs in der Cloud Search-Indexierungswarteschlange platzieren

Nächste Schritte

Mithilfe der REST API Inhaltsconnectors erstellen

Durchlaufstrategie festlegen

Durchlaufstrategie und Indexelemente implementieren

Umgang mit Repository-Änderungen

`Repository`-Schnittstelle implementieren

`Repository`-Schnittstelle implementieren

`Repository`-Schnittstelle implementieren