Esta guía está destinada a los administradores responsables de descargar, implementar y mantener el complemento indexador del colector HTTP de Norconex de Google Cloud Search. Debes estar familiarizado con Linux, los aspectos principales del rastreo web, XML y el colector HTTP de Norconex.
Esta guía incluye instrucciones para lo siguiente:
- Descargar el software del complemento indexador.
- Configurar Cloud Search.
- Configurar el colector HTTP de Norconex y el rastreo web.
- Iniciar el rastreo web y la carga de contenido.
La información sobre las tareas que debe realizar el administrador de Google Workspace no aparece en esta guía. Para obtener información sobre esas tareas, consulta la página sobre cómo administrar fuentes de datos de terceros .
Descripción general del complemento indexador del colector HTTP de Norconex
De forma predeterminada, Cloud Search puede descubrir, indexar y entregar contenido a partir de los productos de Google Workspace, como Documentos de Google y Gmail. Puedes ampliar esto para incluir contenido web si implementas el complemento indexador del colector HTTP de Norconex, un rastreador web empresarial de código abierto.
Archivos de propiedades de configuración
Para permitir que el complemento rastree y suba contenido, debes proporcionar información específica en dos archivos de configuración:
{gcs-crawl-config.xml}: configuración del colector HTTP de Norconex.sdk-configuration.properties: configuración de Cloud Search.
Rastreo web y carga de contenido
Después de propagar los archivos de configuración, puedes iniciar el rastreo web. El colector HTTP de Norconex rastrea la Web y sube contenido de documentos binarios o de texto originales a la API de indexación de Cloud Search.
Requisitos del sistema
- Sistema operativo: Solo Linux.
- Versión de Norconex: Versión 2.8.0.
- Software: Java JRE 1.8.
Compatibilidad de LCA
El complemento indexador admite listas de control de acceso (LCA) para controlar el acceso a documentos en el dominio de Google Workspace.
Si habilitas las LCA predeterminadas en la configuración del complemento (defaultAcl.mode configurado en un valor distinto de none), el complemento aplica estos valores predeterminados. De lo contrario, el complemento otorga permiso de lectura a todo el dominio. Consulta los
parámetros de conectores que proporciona Google.
Requisitos previos
Antes de implementar el complemento indexador, recopila estos componentes:
- Clave privada de Google Workspace (que contiene el ID de cuenta de servicio). Consulta Configura el acceso a la API de Cloud Search.
- ID de la fuente de datos de Google Workspace. Consulta Administra fuentes de datos de terceros.
Pasos para la implementación
- Instala el colector HTTP de Norconex y el software del complemento.
- Configura Cloud Search.
- Configura el colector HTTP de Norconex.
- Configura el rastreo web.
- Inicia un rastreo web y la carga de contenido.
Paso 1: Instala el colector HTTP de Norconex y el software del complemento
- Descarga el software de confirmación de Norconex desde la página de descarga de Norconex.
- Extrae el software a
~/norconex/. Clona el complemento de confirmación:
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginExtrae la versión seleccionada y compila el complemento:
git checkout tags/v1-0.0.3 mvn packagePara omitir las pruebas, usa
mvn package -DskipTests.Copia el archivo JAR en el directorio
libde Norconex:cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libExtrae el archivo ZIP compilado:
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3Ejecuta la secuencia de comandos de instalación y proporciona la ruta completa al directorio
libde Norconex:sh install.shSi se te solicitan archivos duplicados, selecciona la opción
1.
Paso 2: Configura Cloud Search
Crea sdk-configuration.properties en el directorio de Norconex. El archivo debe especificar estos parámetros:
| Configuración | Parámetro |
| ID de la fuente de datos | api.sourceId = 1234567890abcdef
Obligatorio.Es el ID de la fuente de datos de tu administrador de Google Workspace. |
| Cuenta de servicio | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obligatorio. Es el archivo de claves de la cuenta de servicio. |
Ejemplo de sdk-configuration.properties:
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
También puedes incluir parámetros como batch.* para controlar cómo el complemento envía datos. Consulta los
parámetros de conectores que proporciona Google.
Para propagar metadatos, configura estos parámetros opcionales:
| Configuración | Parámetro |
| Título | itemMetadata.title.field=movieTitle |
| Tipo de objeto de esquema | itemMetadata.objectType=movie |
Paso 3: Configura el colector HTTP de Norconex
El complemento incluye un archivo de muestra, minimum-config.xml.
Cambia al directorio de Norconex y copia la muestra:
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xmlEdita
gcs-crawl-config.xmlpara agregar o reemplazar<committer>y<tagger>nodos:
| Configuración | Parámetro |
<committer> nodo |
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Obligatorio. Agrega esto en el nodo <httpcollector>. |
<uploadFormat> |
<uploadFormat>raw</uploadFormat>
Opcional. raw o text. El valor predeterminado es
raw. |
Ejemplo de gcs-crawl-config.xml:
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
Paso 4: Configura el rastreo web
Configura los nodos <crawler> según tus necesidades, incluidos los siguientes:
- URL de inicio
- Profundidad máxima del rastreo
- Cantidad de subprocesos
Consulta la página de configuración de Norconex.
Paso 5: Inicia un rastreo web y la carga de contenido
Ejecuta el colector en modo local:
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
Supervisa el rastreador con JEF Monitor
JEF (Job Execution Framework) Monitor de Norconex proporciona una vista gráfica del progreso. Consulta Supervisa el rastreador con JEF Monitor.