Implementa un complemento indexador del colector HTTP de Norconex

Esta guía está destinada a los administradores responsables de descargar, implementar y mantener el complemento indexador del colector HTTP de Norconex de Google Cloud Search. Debes estar familiarizado con Linux, los aspectos principales del rastreo web, XML y el colector HTTP de Norconex.

Esta guía incluye instrucciones para lo siguiente:

  • Descargar el software del complemento indexador.
  • Configurar Cloud Search.
  • Configurar el colector HTTP de Norconex y el rastreo web.
  • Iniciar el rastreo web y la carga de contenido.

La información sobre las tareas que debe realizar el administrador de Google Workspace no aparece en esta guía. Para obtener información sobre esas tareas, consulta la página sobre cómo administrar fuentes de datos de terceros .

Descripción general del complemento indexador del colector HTTP de Norconex

De forma predeterminada, Cloud Search puede descubrir, indexar y entregar contenido a partir de los productos de Google Workspace, como Documentos de Google y Gmail. Puedes ampliar esto para incluir contenido web si implementas el complemento indexador del colector HTTP de Norconex, un rastreador web empresarial de código abierto.

Archivos de propiedades de configuración

Para permitir que el complemento rastree y suba contenido, debes proporcionar información específica en dos archivos de configuración:

  • {gcs-crawl-config.xml}: configuración del colector HTTP de Norconex.
  • sdk-configuration.properties: configuración de Cloud Search.

Rastreo web y carga de contenido

Después de propagar los archivos de configuración, puedes iniciar el rastreo web. El colector HTTP de Norconex rastrea la Web y sube contenido de documentos binarios o de texto originales a la API de indexación de Cloud Search.

Requisitos del sistema

  • Sistema operativo: Solo Linux.
  • Versión de Norconex: Versión 2.8.0.
  • Software: Java JRE 1.8.

Compatibilidad de LCA

El complemento indexador admite listas de control de acceso (LCA) para controlar el acceso a documentos en el dominio de Google Workspace.

Si habilitas las LCA predeterminadas en la configuración del complemento (defaultAcl.mode configurado en un valor distinto de none), el complemento aplica estos valores predeterminados. De lo contrario, el complemento otorga permiso de lectura a todo el dominio. Consulta los parámetros de conectores que proporciona Google.

Requisitos previos

Antes de implementar el complemento indexador, recopila estos componentes:

Pasos para la implementación

  1. Instala el colector HTTP de Norconex y el software del complemento.
  2. Configura Cloud Search.
  3. Configura el colector HTTP de Norconex.
  4. Configura el rastreo web.
  5. Inicia un rastreo web y la carga de contenido.

Paso 1: Instala el colector HTTP de Norconex y el software del complemento

  1. Descarga el software de confirmación de Norconex desde la página de descarga de Norconex.
  2. Extrae el software a ~/norconex/.
  3. Clona el complemento de confirmación:

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. Extrae la versión seleccionada y compila el complemento:

    git checkout tags/v1-0.0.3
    mvn package
    

    Para omitir las pruebas, usa mvn package -DskipTests.

  5. Copia el archivo JAR en el directorio lib de Norconex:

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. Extrae el archivo ZIP compilado:

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. Ejecuta la secuencia de comandos de instalación y proporciona la ruta completa al directorio lib de Norconex:

    sh install.sh
    

    Si se te solicitan archivos duplicados, selecciona la opción 1.

Paso 2: Configura Cloud Search

Crea sdk-configuration.properties en el directorio de Norconex. El archivo debe especificar estos parámetros:

Configuración Parámetro
ID de la fuente de datos api.sourceId = 1234567890abcdef Obligatorio.
Es el ID de la fuente de datos de tu administrador de Google Workspace.
Cuenta de servicio api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obligatorio. Es el archivo de claves de la cuenta de servicio.

Ejemplo de sdk-configuration.properties:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

También puedes incluir parámetros como batch.* para controlar cómo el complemento envía datos. Consulta los parámetros de conectores que proporciona Google.

Para propagar metadatos, configura estos parámetros opcionales:

Configuración Parámetro
Título itemMetadata.title.field=movieTitle
Tipo de objeto de esquema itemMetadata.objectType=movie

Paso 3: Configura el colector HTTP de Norconex

El complemento incluye un archivo de muestra, minimum-config.xml.

  1. Cambia al directorio de Norconex y copia la muestra:

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. Edita gcs-crawl-config.xml para agregar o reemplazar <committer> y <tagger> nodos:

Configuración Parámetro
<committer> nodo <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Obligatorio. Agrega esto en el nodo <httpcollector>.
<uploadFormat> <uploadFormat>raw</uploadFormat>
Opcional. raw o text. El valor predeterminado es raw.

Ejemplo de gcs-crawl-config.xml:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Paso 4: Configura el rastreo web

Configura los nodos <crawler> según tus necesidades, incluidos los siguientes:

  • URL de inicio
  • Profundidad máxima del rastreo
  • Cantidad de subprocesos

Consulta la página de configuración de Norconex.

Paso 5: Inicia un rastreo web y la carga de contenido

Ejecuta el colector en modo local:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Supervisa el rastreador con JEF Monitor

JEF (Job Execution Framework) Monitor de Norconex proporciona una vista gráfica del progreso. Consulta Supervisa el rastreador con JEF Monitor.