Crea un conector de contenido

Un conector de contenido es un programa de software usado para desviar los datos en un repositorio de una empresa y propagar una fuente de datos. Google brinda las siguientes opciones para desarrollar conectores de contenido:

El SDK de Content Connector Esta es una buena opción si programas en Java. El SDK de Content Connector es un wrapper alrededor de la API de REST que te permite crear conectores rápidamente. Para crear un conector de contenido mediante el uso del SDK, consulta Crea un conector de contenido con el SDK de Content Connector.
Una API de REST de bajo nivel o bibliotecas de la API. Usa estas opciones si no programas en Java, o si tu base de código se adapta mejor a una API de REST o a una biblioteca. Para crear un conector de contenido con la API de REST, consulta Crea un conector de contenido con la API de REST.

Un conector de contenido típico realiza las siguientes tareas:

Lee y procesa parámetros de configuración.
Extrae fragmentos discretos de datos indexables, llamados "elementos", del repositorio de contenido de terceros.
Combina LCA, metadatos y datos de contenido en elementos indexables.
Indexa elementos a la fuente de datos de Cloud Search.
(opcional) Presta atención a las notificaciones de cambios del repositorio de contenido de terceros. Las notificaciones de cambios se convierten en solicitudes de indexación para mantener la fuente de datos de Cloud Search en sincronización con el repositorio de terceros. El conector solo realiza esta tarea si el repositorio es compatible con la detección de cambios.

Crea un conector de contenido con el SDK de Content Connector

En las siguientes secciones, se explica cómo crear un conector de contenido con el SDK de Content Connector.

Configura dependencias

Debes incluir determinadas dependencias en el archivo de compilación para usar el SDK. Haz clic en la pestaña a continuación para ver las dependencias del entorno de compilación:

Maven

<dependency>
<groupId>com.google.enterprise.cloudsearch</groupId>
<artifactId>google-cloudsearch-indexing-connector-sdk</artifactId>
<version>v1-0.0.3</version>
</dependency>

Gradle

compile group: 'com.google.enterprise.cloudsearch',
        name: 'google-cloudsearch-indexing-connector-sdk',
        version: 'v1-0.0.3'

Crea tu configuración del conector

Cada conector tiene un archivo de configuración que contiene los parámetros que usa el conector, como el ID de tu repositorio. Los parámetros se definen como pares clave-valor, como api.sourceId=1234567890abcdef.

El SDK de Google Cloud Search contiene varios parámetros de configuración proporcionados por Google que son usados por todos los conectores. Debes declarar los siguientes parámetros proporcionados por Google en tu archivo de configuración:

Para un conector de contenido, debes declarar api.sourceId y api.serviceAccountPrivateKeyFile, ya que estos parámetros identifican la ubicación de tu repositorio y la clave privada necesarias para acceder al repositorio.

Para un conector de identidad, debes declarar api.identitySourceId, ya que este parámetro identifica la ubicación de la fuente de identidad externa. Si sincronizas usuarios, también debes declarar api.customerId como el ID único para la cuenta de Google Workspace de tu empresa.

A menos que desees anular los valores predeterminados de otros parámetros proporcionados por Google, no necesitas declararlos en el archivo de configuración. Para obtener información adicional sobre los parámetros de configuración proporcionados por Google, como la forma de generar determinados IDs y claves, consulta Parámetros de configuración proporcionados por Google.

También puedes definir tus propios parámetros específicos del repositorio para usar en tu archivo de configuración.

Pasa el archivo de configuración al conector

Configura la propiedad del sistema config para pasar el archivo de configuración al conector. Puedes configurar la propiedad con el argumento -D cuando inicies el conector. Por ejemplo, el siguiente comando inicia el conector con el archivo de configuración MyConfig.properties:

java -classpath myconnector.jar;... -Dconfig=MyConfig.properties MyConnector

Si falta este argumento, el SDK intenta acceder a un archivo de configuración predeterminado denominado connector-config.properties.

Determina tu estrategia de recorrido

La función primaria de un conector de contenido es recorrer un repositorio y luego indexar sus datos. Debes implementar una estrategia de recorrido en función del tamaño y diseño de los datos en tu repositorio. Puedes diseñar tu propia estrategia o elige entre las siguientes estrategias implementadas en el SDK:

Estrategia de recorrido completo

Una estrategia de recorrido completo analiza todo el repositorio e indexa a ciegas cada elemento. Esta estrategia se usa comúnmente cuando tienes un repositorio pequeño y puedes permitirte la sobrecarga de realizar un recorrido completo cada vez que indexas.

Esta estrategia de recorrido es adecuada para repositorios pequeños con datos mayormente estáticos y no jerárquicos. También puedes usar esta estrategia de recorrido cuando la detección de cambios es difícil o no es compatible con el repositorio.

Estrategia de recorrido de lista

Una estrategia de recorrido de lista analiza todo el repositorio, incluidos los nodos secundarios, y determina el estado de cada elemento. Luego, el conector realiza una segunda pasada y solo indexa elementos que son nuevos o que se actualizaron desde la última indexación. Esta estrategia se usa comúnmente para realizar actualizaciones graduales en un índice existente (en lugar de tener que hacer un recorrido completo cada vez que actualizas el índice).

Esta estrategia de recorrido es adecuada cuando la detección de cambios es difícil o no es compatible con el repositorio, cuando tienes datos no jerárquicos y cuando estás trabajando con conjuntos de datos muy grandes.

Recorrido de gráficos

Una estrategia de recorrido de grafos analiza todo el nodo principal y determina el estado de cada elemento. Luego, el conector realiza una segunda pasada y solo indexa elementos en el nodo raíz que son nuevos o que se actualizaron desde la última indexación. Por último, el conector pasa cualquier ID secundario e indexa elementos en los nodos secundarios que son nuevos o que se actualizaron. El conector continúa recursivamente a través de todos los nodos secundarios hasta que se hayan abordado todos los elementos. Este recorrido se usa normalmente para los repositorios jerárquicos donde no es práctico hacer una lista de todos los ID.

Esta estrategia es adecuada si tienes datos jerárquicos que deben ser rastreados, como una serie de directorios o páginas web.

Cada una de estas estrategias de recorrido se implementa mediante una clase de conector de plantilla en el SDK. Si bien puedes implementar tu propia estrategia de recorrido, estas plantillas aceleran en gran medida el desarrollo de tu conector. Para crear un conector mediante el uso de una plantilla, consulta la sección correspondiente a tu estrategia de recorrido:

Crea un conector de recorrido completo con una clase de plantilla
Crea un conector de recorrido de lista con una clase de plantilla
Crea un conector de recorrido de grafo con una clase de plantilla

Crea un conector de recorrido completo mediante el uso de una clase de plantilla

Esta sección de los documentos hace referencia a los fragmentos de código del ejemplo FullTraversalSample.

Implementa el punto de entrada del conector

El punto de entrada a un conector es el método main(). La tarea principal de este método es crear una instancia de la clase Application y, luego, invocar su método start() para ejecutar el conector.

Antes de llamar a application.start(), usa la clase IndexingApplication.Builder para crear una instancia de la plantilla FullTraversalConnector. El objeto FullTraversalConnector acepta un objeto Repository cuyos métodos implementarás. En el siguiente fragmento de código, se muestra cómo implementar el método main():

FullTraversalSample.java

Crea un conector de contenido Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Crea un conector de contenido con el SDK de Content Connector

Configura dependencias

Maven

Gradle

Crea tu configuración del conector

Pasa el archivo de configuración al conector

Determina tu estrategia de recorrido

Crea un conector de recorrido completo mediante el uso de una clase de plantilla

Implementa el punto de entrada del conector

Implementa la interfaz Repository

Obtén parámetros de configuración personalizados

Realiza un recorrido completo

Establece los permisos para un elemento

Establece los metadatos de un elemento

Crea el elemento indexable

Empaqueta cada elemento indexable en un iterador

Próximos pasos

Crea un conector de recorrido de lista mediante el uso de una clase de plantilla

Implementa el punto de entrada del conector

Implementa la interfaz Repository

Obtén parámetros de configuración personalizados

Realiza el recorrido de lista

Envía ID de elementos y valores hash

Recupera y controla cada elemento

Controla los elementos borrados

Controla elementos no modificados

Configura los permisos para un elemento

Establece los metadatos de un elemento

Crea un elemento indexable

Próximos pasos

Crea un conector de recorrido de grafo mediante el uso de una clase de plantilla

Implementa el punto de entrada del conector

Implementa la interfaz Repository

Obtén parámetros de configuración personalizados

Realiza el recorrido de grafo

Envía ID de elementos y valores hash

Recupera y controla cada elemento

Controla los elementos borrados

Configura los permisos para un elemento

Establece los metadatos de un elemento

Crea el elemento indexable

Coloca los ID secundarios en la cola de indexación de Cloud Search

Próximos pasos

Crea un conector de contenido con la API de REST

Determina tu estrategia de recorrido

Implementa tu estrategia de recorrido y los elementos de índice

Controla cambios de repositorio

Crea un conector de contenido

Implementa la interfaz `Repository`

Implementa la interfaz `Repository`

Implementa la interfaz `Repository`