Criar um conector de conteúdo

Um conector de conteúdo é um programa de software usado para transferir dados no repositório da empresa e preencher uma fonte de dados. O Google oferece as seguintes opções para desenvolvimento de conectores de conteúdo:

O SDK do Content Connector. Essa é uma boa opção para quem programa em Java. O SDK do Content Connector é um wrapper em torno da API REST que permite criar conectores rapidamente. Para criar um conector de conteúdo usando o SDK, consulte Criar um conector de conteúdo usando o SDK do Content Connector.
Uma API REST de baixo nível ou bibliotecas de API: use essas opções se você não estiver programando em Java ou se sua codebase funciona melhor com uma API REST ou biblioteca. Para criar um conector de conteúdo usando a API REST, consulte Criar um conector de conteúdo usando a API REST.

Um conector de conteúdo típico desempenha as seguintes tarefas:

Leitura e processamento de parâmetros de configuração.
Extração de blocos distintos de dados indexáveis, chamados de “itens”, do repositório de conteúdo de terceiros.
Combinação de Access Control Lists (ACLs), metadados e dados de conteúdo em itens indexáveis.
Indexação de itens com a fonte de dados do Cloud Search.
(Opcional) Escuta de notificações sobre alterações do repositório de conteúdo de terceiros. As notificações sobre alterações são convertidas em solicitações de indexação para manter a fonte de dados do Cloud Search em sincronia com o repositório de terceiros. O conector desempenhará essa tarefa apenas se o repositório for compatível com a detecção de alterações.

Criar um conector de conteúdo usando o SDK do Content Connector

Nas seções a seguir, você verá explicações sobre como criar um conector de conteúdo usando o SDK do Content Connector.

Configurar dependências

É necessário incluir determinadas dependências no arquivo de criação para usar o SDK. Clique na guia abaixo para ver as dependências do ambiente de criação:

Maven

<dependency>
<groupId>com.google.enterprise.cloudsearch</groupId>
<artifactId>google-cloudsearch-indexing-connector-sdk</artifactId>
<version>v1-0.0.3</version>
</dependency>

Gradle

compile group: 'com.google.enterprise.cloudsearch',
        name: 'google-cloudsearch-indexing-connector-sdk',
        version: 'v1-0.0.3'

Criar a configuração do conector

Cada conector tem um arquivo de configuração que contém os parâmetros usados pelo conector, como o código do repositório. Os parâmetros são definidos como pares de chave-valor, como api.sourceId=1234567890abcdef.

O SDK do Google Cloud Search contém vários parâmetros de configuração fornecidos pelo Google que são usados por todos os conectores. É necessário declarar os parâmetros fornecidos pelo Google a seguir no arquivo de configuração:

No caso dos conectores de conteúdo, declare api.sourceId e api.serviceAccountPrivateKeyFile porque esses parâmetros identificam o local do seu repositório e a chave privada necessária para acessá-lo.

No caso dos conectores de identidade, declare api.identitySourceId porque esse parâmetro identifica o local da sua origem de identidade externa. Se você estiver sincronizando usuários, também é necessário declarar api.customerId como o ID exclusivo da conta do Google Workspace da sua empresa.

A menos que você queira modificar os valores padrão dos outros parâmetros fornecidos pelo Google, não é necessário declará-los no arquivo de configuração. Para mais informações sobre os parâmetros de configuração fornecidos pelo Google, por exemplo, como gerar determinados IDs e chaves, consulte Parâmetros de configuração fornecidos pelo Google.

Também é possível definir parâmetros específicos do repositório para usá-los no seu arquivo de configuração.

Transmitir o arquivo de configuração para o conector

Defina a propriedade do sistema config para transmitir o arquivo de configuração ao conector. É possível definir a propriedade usando o argumento -D ao iniciar o conector. Por exemplo, o comando a seguir inicia o conector com o arquivo de configuração MyConfig.properties:

java -classpath myconnector.jar;... -Dconfig=MyConfig.properties MyConnector

Se esse argumento estiver ausente, o SDK tentará acessar um arquivo de configuração padrão chamado connector-config.properties.

Determinar a estratégia de travessia

A principal função do conector de conteúdo é percorrer um repositório e indexar os dados nele. Implemente uma estratégia de travessia com base no tamanho e no layout do volume de dados no seu repositório. Crie sua própria estratégia ou escolha uma das seguintes estratégias implementadas no SDK:

Estratégia de travessia completa

A estratégia de travessia completa verifica o repositório inteiro e indexa cada item às cegas. Essa estratégia é comumente usada quando se tem um repositório pequeno e a sobrecarga de fazer uma travessia completa toda vez que indexar não causa prejuízos.

Essa estratégia de travessia é adequada para repositórios pequenos com dados estáticos e não hierárquicos em sua maioria. Também é possível usar essa estratégia de travessia quando a detecção de alterações é difícil ou está indisponível no repositório.

Estratégia de travessia de listas

A estratégia de travessia de listas verifica o repositório inteiro, incluindo todos os nós filhos, e determina o status de cada item. Depois, o conector realiza uma segunda verificação e indexa apenas os itens novos ou que foram atualizados desde a última indexação. Essa estratégia é comumente usada para realizar atualizações incrementais em um índice atual, em vez de fazer uma travessia completa toda vez o índice é atualizado.

Essa estratégia de travessia é adequada para os casos em que a detecção de alterações é difícil ou está indisponível no repositório, os dados são não hierárquicos ou os conjuntos de dados são muito grandes.

Travessia de gráficos

A estratégia de travessia de grafos verifica o nó pai inteiro e determina o status de cada item. Depois, o conector realiza uma segunda verificação e indexa apenas os itens no nó raiz que são novos ou foram atualizados desde a última indexação. Por fim, o conector transmite todos os códigos filhos e indexa os itens nos nós filhos que são novos ou foram atualizados. O conector continua a percorrer de maneira recorrente todos os nós filhos até que todos os itens tenham sido processados. Normalmente, esse tipo de estratégia de travessia é usada em repositórios hierárquicos, em que não é prático fazer a listagem de todos os códigos.

Essa estratégia é adequada quando se tem dados hierárquicos que precisam ser rastreados, como uma série de diretórios ou páginas da Web.

Cada uma dessas estratégias de travessia é implementada por uma classe de conector modelo no SDK. É possível implementar sua própria estratégia de travessia, mas esses modelos aceleram bastante o desenvolvimento do conector. Para criar um conector usando um modelo, siga para a seção correspondente à sua estratégia de travessia:

Criar um conector de travessia completa usando uma classe de modelo
Criar um conector de travessia de listas usando uma classe de modelo
Criar um conector de travessia de grafos usando uma classe de modelo

Criar um conector de travessia completa usando uma classe de modelo

Nesta seção da documentação, são usados snippets de código do exemplo FullTraversalSample.

Implementar o ponto de entrada do conector

O ponto de entrada de um conector é o método main(). A principal tarefa desse método é criar uma instância da classe Application e invocar o método start() para executar o conector.

Antes de chamar application.start(), use a classe IndexingApplication.Builder para instanciar o modelo FullTraversalConnector. O FullTraversalConnector aceita um objeto Repository cujos métodos você implementa. O snippet de código a seguir mostra como implementar o método main():

FullTraversalSample.java

Criar um conector de conteúdo Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Criar um conector de conteúdo usando o SDK do Content Connector

Configurar dependências

Maven

Gradle

Criar a configuração do conector

Transmitir o arquivo de configuração para o conector

Determinar a estratégia de travessia

Criar um conector de travessia completa usando uma classe de modelo

Implementar o ponto de entrada do conector

Implementar a interface Repository

Receber parâmetros de configuração personalizados

Realizar uma travessia completa

Definir as permissões para um item

Definir os metadados de um item

Criar o item indexável

Empacotar cada item indexável em um iterador

Próximas etapas

Criar um conector de travessia de listas usando uma classe de modelo

Implementar o ponto de entrada do conector

Implementar a interface Repository

Receber parâmetros de configuração personalizados

Realizar a travessia de listas

Enviar IDs de itens e valores de hash

Recuperar e processar os itens

Processar itens excluídos

Processar itens inalterados

Definir as permissões para um item

Definir os metadados de um item

Criar um item indexável

Próximas etapas

Criar um conector de travessia de grafos usando uma classe de modelo

Implementar o ponto de entrada do conector

Implementar a interface Repository

Receber parâmetros de configuração personalizados

Realizar a travessia de gráficos

Enviar IDs de itens e valores de hash

Recuperar e processar os itens

Processar itens excluídos

Definir as permissões para um item

Definir os metadados de um item

Criar o item indexável

Colocar os IDs filhos na fila de indexação do Cloud Search

Próximas etapas

Criar um conector de conteúdo usando a API REST

Determinar a estratégia de travessia

Implementar a estratégia de travessia e indexar itens

Processar alterações no repositório

Criar um conector de conteúdo

Implementar a interface `Repository`

Implementar a interface `Repository`

Implementar a interface `Repository`