Este guia é destinado a administradores responsáveis por fazer o download, implantar e manter o plug-in indexador do Norconex HTTP Collector para Google Cloud Search. Você precisa estar familiarizado com o Linux, os princípios básicos do rastreamento da Web, XML e o Norconex HTTP Collector.
Este guia inclui instruções para:
- Fazer o download do software do plug-in indexador.
- Configurar o Cloud Search.
- Configurar o Norconex HTTP Collector e o rastreamento da Web.
- Iniciar o rastreamento da Web e fazer upload do conteúdo.
As informações sobre as tarefas que o administrador do Google Workspace precisa executar não aparecem neste guia. Para mais informações sobre essas tarefas, consulte Gerenciar fontes de dados de terceiros.
Visão geral do plug-in indexador do Norconex HTTP Collector
Por padrão, o Cloud Search pode detectar, indexar e exibir conteúdo de produtos do Google Workspace, como o Google Docs e o Gmail. É possível estender isso para incluir conteúdo da Web implantando o plug-in indexador do Norconex HTTP Collector, um rastreador da Web de código aberto para empresas.
Arquivos de propriedades de configuração
Para permitir que o plug-in rastreie e faça upload de conteúdo, é necessário fornecer informações específicas em dois arquivos de configuração:
{gcs-crawl-config.xml}: configurações do Norconex HTTP Collector.sdk-configuration.properties: configurações do Cloud Search.
Rastreamento da Web e upload de conteúdo
Depois de preencher os arquivos de configuração, você pode iniciar o rastreamento da Web. O Norconex HTTP Collector rastreia a Web e faz o upload do conteúdo original de documentos binários ou de texto para a API Indexing do Cloud Search.
Requisitos do sistema
- Sistema operacional: somente Linux.
- Versão do Norconex: versão 2.8.0.
- Software: Java JRE 1.8.
Compatibilidade com ACLs
O plug-in indexador é compatível com listas de controle de acesso (ACLs, na sigla em inglês) para controlar o acesso a documentos no domínio do Google Workspace.
Se você ativar as ACLs padrão na configuração do plug-in (defaultAcl.mode definido como diferente de none), o plug-in vai aplicar esses padrões. Caso contrário, o plug-in vai conceder permissão de leitura a todo o domínio. Consulte
Parâmetros do conector fornecidos pelo Google.
Pré-requisitos
Antes de implantar o plug-in indexador, reúna estes componentes:
- Chave privada do Google Workspace (que contém o ID da conta de serviço). Consulte Configurar o acesso à API do Cloud Search.
- ID da fonte de dados do Google Workspace. Consulte Gerenciar fontes de dados de terceiros.
Etapas da implantação
- Instalar o Norconex HTTP Collector e o software do plug-in
- Configurar o Cloud Search
- Configurar o Norconex HTTP Collector
- Configurar o rastreamento da Web
- Iniciar um rastreamento da Web e fazer upload do conteúdo
Etapa 1: instalar o Norconex HTTP Collector e o software do plug-in
- Faça o download do software confirmador da Norconex na página de download da Norconex.
- Extraia o software para
~/norconex/. Clonar o plug-in do autor do commit:
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginFaça o check-out da versão selecionada e crie o plug-in:
git checkout tags/v1-0.0.3 mvn packagePara pular os testes, use
mvn package -DskipTests.Copie o arquivo JAR para o diretório
libdo Norconex:cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libExtraia o arquivo ZIP criado:
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3Execute o script de instalação e forneça o caminho completo para o diretório
libdo Norconex:sh install.shSe você receber uma solicitação de arquivos duplicados, selecione a opção
1.
Etapa 2: configurar o Cloud Search
Crie sdk-configuration.properties no diretório do Norconex. O arquivo precisa especificar estes parâmetros:
| Configuração | Parâmetro |
| Código da origem de dados | api.sourceId = 1234567890abcdef
Obrigatório. O ID da origem do administrador do Google Workspace. |
| Conta de serviço | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obrigatório. O arquivo de chave da conta de serviço. |
Exemplo de sdk-configuration.properties:
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
Também é possível incluir parâmetros como batch.* para controlar como o plug-in envia dados. Consulte
Parâmetros do conector fornecidos pelo Google.
Para preencher os metadados, configure estes parâmetros opcionais:
| Configuração | Parâmetro |
| Título | itemMetadata.title.field=movieTitle |
| Tipo de objeto de esquema | itemMetadata.objectType=movie |
Etapa 3: configurar o Norconex HTTP Collector
O plug-in inclui um arquivo de amostra, minimum-config.xml.
Mude para o diretório do Norconex e copie a amostra:
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xmlEdite
gcs-crawl-config.xmlpara adicionar ou substituir<committer>e<tagger>nós:
| Configuração | Parâmetro |
Nó <committer> |
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Obrigatório.Adicione isso ao nó <httpcollector>. |
<uploadFormat> |
<uploadFormat>raw</uploadFormat>
Opcional. raw ou text. O padrão é
raw. |
Exemplo de gcs-crawl-config.xml:
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
Etapa 4: configurar o rastreamento da Web
Configure os nós <crawler> de acordo com suas necessidades, incluindo:
- URLs de início
- Profundidade máxima do rastreamento
- Número de threads
Consulte a página de configuração do Norconex (em inglês).
Etapa 5: iniciar um rastreamento da Web e fazer upload do conteúdo
Execute o coletor no modo local:
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
Monitorar o rastreador com o JEF Monitor
O Norconex JEF (Job Execution Framework) Monitor oferece uma visualização gráfica do progresso. Consulte Monitorar o rastreador com o JEF Monitor (em inglês).