Implantar o plug-in indexador do Norconex HTTP Collector

Este guia destina-se aos administradores do plug-in do indexador Google Cloud Search Norconex HTTP Collector, ou seja, qualquer pessoa responsável por fazer o download, implantar, configurar e manter esse plug-in. Neste guia, presume-se que você esteja familiarizado com os sistemas operacionais Linux, os princípios básicos do rastreamento da Web, XML e o Norconex HTTP Collector.

Este guia inclui instruções para realizar as principais tarefas relacionadas à implantação do plug-in do indexador:

  • Fazer o download do software do plug-in do indexador.
  • Configurar o Google Cloud Search.
  • Configurar o Norconex HTTP Collector e o rastreamento da Web.
  • Iniciar o rastreamento da Web e fazer upload do conteúdo.

As informações sobre as tarefas que o administrador do Google Workspace precisa realizar para mapear o Google Cloud Search para o plug-in do indexador do Norconex HTTP Collector não aparecem neste guia. Para mais informações sobre essas tarefas, consulte Gerenciar fontes de dados de terceiros.

Visão geral do plug-in indexador Norconex HTTP Collector para Cloud Search

Por padrão, o Cloud Search pode detectar, indexar e exibir conteúdo de produtos do Google Workspace, como Documentos Google e Gmail. É possível estender o alcance do Google Cloud Search para incluir a veiculação de conteúdo da Web para seus usuários. Para isso, implante o plug-in do indexador para o Norconex HTTP Collector, um rastreador da Web de código aberto para empresas.

Arquivos de propriedades de configuração

Para permitir que o plug-in do indexador realize rastreamentos da Web e faça upload do conteúdo para a API de indexação, o administrador do plug-in precisa fornecer informações específicas durante as etapas de configuração descritas neste documento em Etapas da implantação.

Para usar o plug-in indexador, é necessário definir as propriedades em dois arquivos de configuração:

  • {gcs-crawl-config.xml} contém as configurações do Norconex HTTP Collector.
  • sdk-configuration.properties contém as configurações do Google Cloud Search.

As propriedades em cada arquivo permitem que o plug-in do indexador do Google Cloud Search e o Norconex HTTP Collector comuniquem-se um com o outro.

Rastreamento da Web e upload de conteúdo

Depois de preencher os arquivos de configuração, você terá as configurações necessárias para iniciar o rastreamento da Web. O Norconex HTTP Collector rastreia a Web, detecta o conteúdo de documentos pertinentes à configuração e faz o upload das versões binárias (ou de texto) originais desse conteúdo para a API de indexação do Cloud Search, onde ele é indexado e exibido aos usuários.

Sistema operacional compatível

É necessário instalar o plug-in do indexador Google Cloud Search Norconex HTTP Collector em uma máquina com sistema Linux.

Versão do Norconex HTTP Collector compatível

O plug-in do indexador Google Cloud Search Norconex HTTP Collector é compatível com a versão 2.8.0.

Compatibilidade com ACLs

O plug-in do indexador permite controlar o acesso a documentos no domínio do Google Workspace usando listas de controle de acesso (ACLs).

Se as ACLs padrão estiverem ativadas na configuração do plug-in do Google Cloud Search (defaultAcl.mode definido como um valor diferente de none e configurado com defaultAcl.*), o plug-in do indexador primeiro tentará criar e aplicar uma ACL padrão.

Se as ACLs padrão não estiverem ativadas, o plug-in voltará a conceder permissão de leitura a todo o domínio do Google Workspace.

Para ver descrições detalhadas dos parâmetros de configuração de ACL, consulte Parâmetros de conector fornecidos pelo Google.

Pré-requisitos

Antes de implantar o plug-in do indexador, verifique se você tem os seguintes componentes obrigatórios:

  • Java JRE 1.8 instalado em um computador que executa o plug-in indexador
  • Informações do Google Workspace necessárias para estabelecer relações entre o Cloud Search e o Norconex HTTP Collector:

    Normalmente, o administrador do Google Workspace do domínio pode fornecer essas credenciais para você.

etapas da implantação

Para implantar o plug-in do indexador, siga estas etapas:

  1. Instale o software do Norconex HTTP Collector e do plug-in do indexador.
  2. Configurar o Google Cloud Search
  3. Configurar o Norconex HTTP Collector
  4. Configurar o rastreamento da Web
  5. Iniciar um rastreamento da Web e fazer upload de conteúdo

Etapa 1: instale o software do Norconex HTTP Collector e do plug-in indexador

  1. Faça o download do software confirmador da Norconex nesta página.
  2. Descompacte o software salvo na pasta ~/norconex/
  3. Clone o plug-in do commiter do GitHub. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git e depois cd norconex-committer-plugin
  4. Confira a versão pretendida do plug-in confirmador e crie o arquivo ZIP: git checkout tags/v1-0.0.3 e mvn package. Para pular os testes ao criar o conector, use mvn package -DskipTests.
  5. cd target
  6. Copie o arquivo jar do plug-in criado no diretório da biblioteca do Norconex. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. Extraia o arquivo ZIP que você acabou de criar e descompacte o arquivo: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. Execute o script de instalação para copiar o .jar do plug-in e todas as bibliotecas necessárias no diretório do coletor HTTP:
    1. Mude para o plug-in confirmador extraído descompactado acima: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. Execute $ sh install.sh e forneça o caminho completo para norconex/norconex-collector-http-{version}/lib como o diretório de destino quando solicitado.
    3. Se forem encontrados arquivos jar duplicados, selecione a opção 1. Copie o Jar de origem apenas se a versão for maior ou igual ao Jar de destino após renomear o Jar de destino.

Etapa 2: configure o Google Cloud Search

Para que o plug-in do indexador se conecte ao Norconex HTTP Collector e indexe o conteúdo relevante, é necessário criar o arquivo de configuração do Cloud Search no diretório onde o Norconex HTTP Collector está instalado. O Google recomenda que você nomeie o arquivo de configuração do Cloud Search como sdk-configuration.properties.

É necessário que o arquivo de configuração contenha pares de chave-valor que definam um parâmetro. O arquivo de configuração precisa especificar pelo menos os parâmetros abaixo, que são necessários para acessar a fonte de dados do Cloud Search.

Configuração Parâmetro
Código da fonte de dados api.sourceId = 1234567890abcdef
Obrigatório. O ID da origem do Cloud Search configurado pelo administrador do Google Workspace.
Conta de serviço api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obrigatório. O arquivo de chave da conta de serviço do Cloud Search que foi criado pelo administrador do Google Workspace para acessibilidade do plug-in do indexador.

O exemplo a seguir mostra um arquivo sdk-configuration.properties.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

O arquivo de configuração também pode conter parâmetros de configuração fornecidos pelo Google. Esses parâmetros podem afetar a forma como o plug-in envia dados para a API Google Cloud Search. Por exemplo, o conjunto de parâmetros batch.* identifica como o conector combina as solicitações.

Se você não definir um parâmetro no arquivo de configuração, o valor padrão será usado se disponível. Para descrições detalhadas de cada parâmetro, consulte os Parâmetros de conector fornecidos pelo Google.

É possível configurar o plug-in do indexador para preencher metadados e dados estruturados do conteúdo que está sendo indexado. Os valores a serem preenchidos nos campos de metadados e dados estruturados podem ser extraídos das metatags no conteúdo HTML que está sendo indexado. Ou, então, especifique valores padrão no arquivo de configuração.

Configuração Parâmetro
Título itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Por padrão, o plug-in usa HTML title como título do documento que está sendo indexado. No caso de falta do título, consulte o atributo de metadados que contém o valor correspondente ao título do documento ou defina um valor padrão.
Carimbo de data/hora criado itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
O atributo de metadados que contém o valor do carimbo de data/hora de criação do documento.
Horário da última modificação itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
O atributo de metadados que contém o valor do carimbo de data/hora da última modificação do documento.
Idioma do documento itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
O idioma do conteúdo dos documentos que estão sendo indexados.
Tipo de objeto de esquema itemMetadata.objectType=movie
O tipo de objeto usado pelo site, conforme definido nas definições de objeto de esquema da fonte de dados. O conector não vai indexar nenhum dado estruturado se essa propriedade não for especificada.

Observação: essa propriedade de configuração aponta para um valor em vez de um atributo de metadados, e os sufixos .field e .defaultValue não são compatíveis.

Formatos de data e hora

Os formatos de data e hora especificam os formatos esperados nos atributos de metadados. Se o arquivo de configuração não contiver esse parâmetro, os valores padrão serão usados. Veja esse parâmetro na tabela a seguir.

Configuração

Parâmetro

Outros padrões de data e hora

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

Uma lista separada por ponto e vírgula de padrões java.time.format.DateTimeFormatter extras. Os padrões são usados ao analisar valores de string de quaisquer campos de data ou data/hora nos metadados ou no esquema. O valor padrão é uma lista vazia, mas os formatos RFC 3339 e RFC 1123 são sempre aceitos.

Etapa 3: configure o Norconex HTTP Collector

O arquivo ZIP norconex-committer-google-cloud-search-{version}.zip inclui um arquivo de configuração de exemplo, minimum-config.xml.

O Google recomenda iniciar a configuração copiando esse arquivo de amostra:

  1. Mude para o diretório do Norconex HTTP Collector:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. Copie o arquivo de configuração:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. Edite o arquivo recém-criado (neste exemplo, gcs-crawl-config.xml) e adicione ou substitua os nós <committer> e <tagger> atuais, conforme descrito na tabela a seguir.
Configuração Parâmetro
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

Obrigatório. Para ativar o plug-in, é necessário adicionar um nó <committer> como filho do nó raiz <httpcollector>.
<UploadFormat> <uploadFormat>raw</uploadFormat>
Opcional. O formato que o plug-in do indexador usa para enviar o conteúdo do documento para a API do indexador do Google Cloud Search. Os valores válidos são:
  • raw: o plug-in do indexador envia o conteúdo do documento original e não convertido.
  • text: o plug-in do indexador envia o conteúdo textual extraído.

O valor padrão é raw.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
Obrigatório se o valor de <UploadFormat> for raw. Nesse caso, o plug-in do indexador precisa que o campo de conteúdo binário do documento esteja disponível.

Você precisa adicionar o nó BinaryContentTagger <tagger> como um elemento filho do nó <importer> / <preParseHandlers>.

O exemplo a seguir mostra a modificação necessária para gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Etapa 4: configure o rastreamento da Web

Antes de iniciar um rastreamento da Web, configure-o para que ele inclua apenas as informações que sua organização quer disponibilizar nos resultados das pesquisas. As configurações mais importantes do rastreamento da Web fazem parte dos nós <crawler> e podem incluir:

  • URLs de início
  • Profundidade máxima do rastreamento
  • Número de linhas de execução

Altere esses valores de configuração de acordo com suas necessidades. Para informações mais detalhadas sobre como configurar um rastreamento da Web e ver uma lista completa dos parâmetros de configuração disponíveis, consulte a página de Configuração (em inglês) do Norconex HTTP Collector.

Etapa 5: iniciar um rastreamento da Web e fazer upload do conteúdo

Depois de instalar e configurar o plug-in do indexador, é possível executá-lo no próprio modo local dele.

No exemplo a seguir, presume-se que os componentes necessários estão localizados no diretório local de um sistema Linux. Execute este comando:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Monitorar o rastreador com o JEF Monitor

O Norconex JEF (Job Execution Framework) Monitor é uma ferramenta gráfica para monitorar o progresso dos processos e jobs do Norconex Web Crawler (HTTP Collector). Para um tutorial completo de como configurar esse utilitário, acesse Monitorar o progresso do rastreador com o JEF Monitor.