Créer un connecteur de contenu

Un connecteur de contenu est un logiciel permettant de parcourir les données d'un dépôt d'entreprise et d'alimenter une source de données. Google propose les options suivantes pour développer des connecteurs de contenu :

Le SDK Content Connector. Cette option est une bonne solution si vous programmez en Java. Le SDK Content Connector est un wrapper pour l'API REST qui accélère la création des connecteurs. Pour créer un connecteur de contenu à l'aide du SDK, reportez-vous à la section Créer un connecteur de contenu à l'aide du SDK Content Connector.
Une API REST de bas niveau ou des bibliothèques d'API. Préférez ces options si vous ne programmez pas en Java, ou si votre base de code est mieux adaptée à une API REST ou à une bibliothèque. Pour créer un connecteur de contenu à l'aide de l'API REST, consultez Créer un connecteur de contenu à l'aide de l'API REST.

Un connecteur de contenu standard exécute les tâches suivantes :

Lecture et traitement des paramètres de configuration
Extraction de fragments distincts de données indexables, appelées éléments, à partir du dépôt de contenu tiers
Combinaison des listes de contrôle d'accès (LCA), des métadonnées et des contenus dans les éléments indexables
Indexe les éléments dans la source de données Cloud Search.
(Facultatif) Écoute des notifications de modification en provenance du dépôt de contenu tiers. Ces notifications sont converties en requêtes d'indexation afin que la source de données Cloud Search soit synchronisée avec le dépôt tiers. Le connecteur exécute cette tâche à condition que le dépôt autorise la détection des modifications.

Créer un connecteur de contenu à l'aide du SDK Content Connector

Les sections suivantes expliquent comment créer un connecteur de contenu à l'aide du SDK Content Connector.

Configurer des dépendances

Pour utiliser le SDK, vous devez ajouter des dépendances dans le fichier de compilation. Cliquez sur un onglet ci-dessous afin d'afficher les dépendances pour votre environnement de compilation :

Maven

<dependency>
<groupId>com.google.enterprise.cloudsearch</groupId>
<artifactId>google-cloudsearch-indexing-connector-sdk</artifactId>
<version>v1-0.0.3</version>
</dependency>

Gradle

compile group: 'com.google.enterprise.cloudsearch',
        name: 'google-cloudsearch-indexing-connector-sdk',
        version: 'v1-0.0.3'

Créer votre configuration de connecteur

Chaque connecteur dispose d'un fichier de configuration contenant ses paramètres (comme l'ID de votre dépôt), définis sous forme de paires clé-valeur. Par exemple : api.sourceId=1234567890abcdef.

Le SDK Google Cloud Search contient plusieurs paramètres de configuration fournis par Google qui sont utilisés par tous les connecteurs. Les paramètres suivants (fournis par Google) sont à déclarer dans votre fichier de configuration :

Pour un connecteur de contenu, vous devez déclarer api.sourceId et api.serviceAccountPrivateKeyFile, car ces paramètres identifient l'emplacement de votre dépôt et de la clé privée nécessaire pour y accéder.

Pour un connecteur d'identité, vous devez déclarer api.identitySourceId, car ce paramètre identifie l'emplacement de la source d'identité externe. En cas de synchronisation des utilisateurs, déclarez également api.customerId comme ID unique pour le compte Google Workspace de votre entreprise.

À moins que vous souhaitiez remplacer les valeurs par défaut d'autres paramètres fournis par Google, il est inutile de déclarer ces paramètres dans votre fichier de configuration. Pour plus d'informations sur les paramètres de configuration fournis par Google, concernant la génération de certains ID et de certaines clés, entre autres, reportez-vous à la page Paramètres de configuration fournis par Google.

Vous pouvez également définir des paramètres personnalisés propres au dépôt dans votre fichier de configuration.

Transmettre le fichier de configuration au connecteur

Définissez la propriété système config de manière à transmettre le fichier de configuration à votre connecteur. Pour ce faire, utilisez l'argument -D lors du démarrage du connecteur. Par exemple, la commande suivante permet de démarrer le connecteur avec le fichier de configuration MyConfig.properties :

java -classpath myconnector.jar;... -Dconfig=MyConfig.properties MyConnector

Si cet argument n'est pas transmis, le SDK tente d'accéder à un fichier de configuration par défaut nommé connector-config.properties.

Déterminer votre stratégie de balayage

La fonction principale d'un connecteur de contenu consiste à parcourir un dépôt et à en indexer les données. C'est pourquoi vous devez mettre en place une stratégie de balayage adaptée à la taille des données et à leur disposition dans votre dépôt. Deux options s'offrent à vous : soit vous élaborez votre propre stratégie, soit vous en choisissez une parmi celles proposées dans le SDK.

Stratégie de balayage complet

La stratégie de balayage complet consiste à analyser l'intégralité du dépôt et à en indexer automatiquement chaque élément. Cette stratégie est couramment employée avec les dépôts de petite taille, lorsque l'entreprise peut se permettre cette opération à chaque indexation.

Cette stratégie de balayage est indiquée pour les dépôts de petite taille, renfermant principalement des données statiques non hiérarchisées. Elle convient également lorsque la détection des modifications est complexe ou incompatible avec le dépôt.

Stratégie de balayage de liste

La stratégie de balayage de liste consiste à analyser l'intégralité du dépôt, y compris les nœuds enfants, tout en déterminant l'état de chaque élément. Puis, lors d'une seconde passe, le connecteur n'indexe que les éléments nouveaux ou mis à jour depuis la dernière indexation. Cette stratégie est fréquemment utilisée pour actualiser progressivement un index existant (et éviter ainsi un balayage complet à chaque mise à jour de l'index).

Cette stratégie de balayage convient dans les situations suivantes : la détection des modifications est complexe ou incompatible avec le dépôt, les données ne sont pas hiérarchisées ou vous travaillez avec des ensembles de données très volumineux.

Parcours de graphe

La stratégie de balayage de graphe consiste à analyser l'intégralité du nœud parent en déterminant l'état de chaque élément. Puis, lors d'une seconde passe, le connecteur n'indexe que les éléments du nœud racine qui sont nouveaux ou ont été mis à jour depuis la dernière indexation. Il traite enfin les ID des éléments enfants, puis indexe les éléments nouveaux ou mis à jour au niveau de ces nœuds. Il procède ainsi de manière récursive avec chaque nœud enfant jusqu'à ce que tous les éléments aient été traités. Cette stratégie de balayage est généralement retenue avec les dépôts hiérarchiques pour lesquels il est difficile d'établir une liste exhaustive des ID.

Cette stratégie convient pour explorer des données hiérarchisées, comme une série de répertoires ou de pages Web.

Chacune de ces stratégies de balayage est mise en place au moyen d'un modèle de classe de connecteur disponible dans le SDK. Bien que vous puissiez mettre en œuvre votre propre stratégie de balayage, ces modèles accélèrent considérablement le développement de votre connecteur. Pour créer un connecteur à partir d'un modèle, accédez à la section correspondant à votre stratégie de balayage :

Créer un connecteur de balayage complet à partir d'un modèle de classe
Créer un connecteur de balayage de liste à partir d'un modèle de classe
Créer un connecteur de balayage de graphe à partir d'un modèle de classe

Créer un connecteur de balayage complet à partir d'un modèle de classe

Cette section fait référence aux extraits de code de l'exemple FullTraversalSample.

Ajouter le point d'entrée du connecteur

Le point d'entrée d'un connecteur est la méthode main(). La fonction principale de cette méthode consiste à créer une instance de la classe Application et à appeler sa méthode start() pour exécuter le connecteur.

Avant d'appeler application.start(), utilisez la classe IndexingApplication.Builder pour instancier le modèle FullTraversalConnector. Le modèle FullTraversalConnector accepte un objet Repository dont vous utiliserez les méthodes. L'extrait de code suivant montre comment mettre en œuvre la méthode main() :

FullTraversalSample.java

Créer un connecteur de contenu Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Créer un connecteur de contenu à l'aide du SDK Content Connector

Configurer des dépendances

Maven

Gradle

Créer votre configuration de connecteur

Transmettre le fichier de configuration au connecteur

Déterminer votre stratégie de balayage

Créer un connecteur de balayage complet à partir d'un modèle de classe

Ajouter le point d'entrée du connecteur

Implémenter l'interface Repository

Récupérer les paramètres de configuration personnalisés

Effectuer un balayage complet

Définir les autorisations pour un élément

Définir les métadonnées d'un élément

Créer l'élément indexable

Empaqueter chaque élément indexable dans un itérateur

Étapes suivantes

Créer un connecteur de balayage de liste à partir d'un modèle de classe

Ajouter le point d'entrée du connecteur

Implémenter l'interface Repository

Récupérer les paramètres de configuration personnalisés

Effectuer un balayage de liste

Transmettre les ID et les valeurs de hachage des éléments

Récupérer et traiter chaque élément

Gérer les éléments supprimés

Traiter les éléments non modifiés

Définir les autorisations pour un élément

Définir les métadonnées d'un élément

Créer un élément indexable

Étapes suivantes

Créer un connecteur de balayage de graphe à partir d'un modèle de classe

Ajouter le point d'entrée du connecteur

Implémenter l'interface Repository

Récupérer les paramètres de configuration personnalisés

Effectuer un balayage de graphe

Transmettre les ID et valeurs de hachage des éléments

Récupérer et traiter chaque élément

Traiter les éléments supprimés

Définir les autorisations pour un élément

Définir les métadonnées d'un élément

Créer l'élément indexable

Placer les ID des éléments enfants dans la file d'attente d'indexation Cloud Search

Étapes suivantes

Créer un connecteur de contenu à l'aide de l'API REST

Déterminer votre stratégie de balayage

Implémenter votre stratégie de balayage et vos éléments d'index

Gérer les modifications du dépôt

Créer un connecteur de contenu

Implémenter l'interface `Repository`

Implémenter l'interface `Repository`

Implémenter l'interface `Repository`