コンテンツコネクタを作成する

コンテンツコネクタは、企業のリポジトリ内のデータを走査して所定のデータソースを完成する目的で使われるソフトウェアプログラムです。Google は以下のコンテンツコネクタ開発オプションを提供しています。

Content Connector SDK。Java でプログラミングしているデベロッパー向けのオプションです。Content Connector SDK は、コネクタをすばやく作成するための REST API を簡単に使えるようにしたラッパーです。この SDK でコンテンツコネクタを作成する場合は、Content Connector SDK を使用してコンテンツコネクタを作成するを参照してください。
低レベル REST API、その他の各種の API ライブラリ。Java を使用していない場合や、お客様のコードベースが REST API やライブラリに問題なく対応できる場合は、これらのオプションをご利用ください。この REST API を使用してコンテンツコネクタを作成する場合は、REST API を使用してコンテンツコネクタを作成するを参照してください。

コンテンツコネクタで行われる標準的なタスクは次のとおりです。

構成パラメータを読み取り、処理する。
インデックス登録可能な離散的なデータチャンク（これを「アイテム」と呼びます）をサードパーティのコンテンツリポジトリから pull する。
ACL、メタデータ、コンテンツデータを結合して、インデックス登録可能なアイテムを作成する。
アイテムを Cloud Search データソースにインデックス登録する。
（省略可）サードパーティのコンテンツリポジトリからの変更通知を待ち受ける。変更通知をインデックス登録リクエストに変換し、これで Cloud Search データソースとサードパーティのリポジトリとの同期を維持する。なお、コンテンツコネクタによるこのタスクは、リポジトリが変更検出機能に対応している場合にのみ行われます。

Content Connector SDK を使用してコンテンツコネクタを作成する

以降のセクションでは、Content Connector SDK を使用してコンテンツコネクタを作成する方法について説明します。

依存関係を設定する

SDK を使用するには、ビルドファイルに特定の依存関係を含める必要があります。使用するビルド環境の依存関係を表示するには、以下のタブをクリックします。

Maven

<dependency>
<groupId>com.google.enterprise.cloudsearch</groupId>
<artifactId>google-cloudsearch-indexing-connector-sdk</artifactId>
<version>v1-0.0.3</version>
</dependency>

Gradle

compile group: 'com.google.enterprise.cloudsearch',
        name: 'google-cloudsearch-indexing-connector-sdk',
        version: 'v1-0.0.3'

コネクタ構成を作成する

コネクタごとに対応する構成ファイルが存在し、コネクタはそこに含まれているパラメータ（お客様のリポジトリの ID など）を使用します。パラメータは、api.sourceId=1234567890abcdef などの Key-Value ペアで定義します。

Google Cloud Search SDK には、すべてのコネクタで使用される Google 提供構成パラメータが複数含まれています。以下の Google 提供パラメータをお客様の構成ファイル内で宣言してください。

コンテンツコネクタの場合は、api.sourceId と api.serviceAccountPrivateKeyFile を宣言する必要があります。これらのパラメータは、リポジトリと秘密鍵の場所を指定するもので、リポジトリにアクセスするのに必要です。

ID コネクタの場合は、api.identitySourceId を宣言する必要があります。このパラメータは、外部の ID ソースの場所を指定します。ユーザー間の同期を行う場合は、api.customerId も宣言してください。このパラメータは、お客様の会社の Google Workspace アカウントを識別する ID として使用されます。

上記以外の Google 提供パラメータについては、デフォルト値を特にオーバーライドしたくなければ構成ファイルで宣言する必要はありません。Google 提供の構成パラメータに関するその他の情報（ID や鍵を生成する方法など）については、Google 提供の構成パラメータをご覧ください。

独自のリポジトリパラメータを定義して、お客様の構成ファイル内で使用することもできます。

構成ファイルをコネクタに渡す

構成ファイルがコネクタに渡されるようにシステムプロパティ config を設定します。このプロパティは、コネクタを起動するとき -D 引数で設定できます。たとえば、次のコマンドは、MyConfig.properties 構成ファイルを使用してコネクタを起動します。

java -classpath myconnector.jar;... -Dconfig=MyConfig.properties MyConnector

この引数がないと、SDK はデフォルトの構成ファイル connector-config.properties にアクセスしようとします。

使用する走査戦略を決める

コンテンツコネクタの主な機能は、リポジトリを走査してそのデータをインデックス登録することです。お客様のリポジトリ内のデータの規模と配置に基づいて走査戦略を実装してください。お客様独自の戦略を設計することも、SDK に実装されている以下の戦略から選択することもできます。

フル走査戦略

リポジトリ全体をスキャンして、すべてのアイテムを無分別にインデックス登録する戦略です。フル走査は、リポジトリの規模が小さく、インデックス登録するたびに全体を走査してもオーバーヘッドを許容できる場合によく使われる戦略です。

フル走査戦略は、概ね静的で階層構造を持たないデータを含む小規模なリポジトリに向いています。変更検出が困難なリポジトリや変更検出機能をサポートしていないリポジトリで使用することもあります。

リスト走査戦略

すべての子ノードを含むリポジトリ全体をスキャンして各アイテムのステータスを確認した後、2 回目のパスで前回のインデックス登録以降に作成または更新されたアイテムのみをインデックス登録する戦略です。リスト走査戦略は、インデックスを更新するたびに全体を走査しなくてもよい場合に、既存のインデックスを増分更新するためによく使われる戦略です。

リスト走査戦略は、変更検出が困難なリポジトリや変更検出機能をサポートしていないリポジトリで、データが階層化されておらず、扱うデータセットが非常に大規模であるようなケースに向いています。

グラフトラバーサル

親ノード全体をスキャンして各アイテムのステータスを確認した後、2 回目のパスで前回のインデックス登録以降に作成または更新されたルートノード内のアイテムのみをインデックス登録します。その後、該当するすべての子 ID を引き渡し、作成または更新された子ノード内のアイテムをインデックス登録する戦略です。コネクタは、該当するアイテムがすべて処理されるまで、すべての子ノードを再帰的にスキャンします。この種の走査は、通常、ID をすべてリストすることが現実的でない階層的なリポジトリに対して使われます。

この戦略は、一連のディレクトリやウェブページなど、クロールする必要がある階層データがある場合に適しています。

上記の各走査戦略の実装には SDK のテンプレートコネクタクラスが使われています。独自の走査戦略を実装することも可能ですが、これらのテンプレートを利用すればコネクタの開発期間を大幅に短縮できます。テンプレートを利用してコネクタを作成する場合は、使用する走査戦略に対応するセクションに進んでください。

テンプレートクラスを使用してフル走査コネクタを作成する
テンプレートクラスを使用してリスト走査コネクタを作成する
テンプレートクラスを使用してグラフ走査コネクタを作成する

テンプレートクラスを使用してフル走査コネクタを作成する

Google ドキュメントの当該セクションのコードスニペットは、FullTraversalSample サンプルからの抜粋です。

コネクタのエントリポイントを実装する

コネクタのエントリポイントは main() メソッドです。このメソッドの主なタスクは、Application クラスのインスタンスを作成し、その start() メソッドを呼び出してコネクタを実行することです。

application.start() を呼び出す前に、IndexingApplication.Builder クラスを使用して FullTraversalConnector テンプレートをインスタンス化します。FullTraversalConnector は、実装するメソッドを含む Repository オブジェクトを受け取って処理します。次のコードスニペットは、main() メソッドの実装方法を示しています。

FullTraversalSample.java

﻿コンテンツ コネクタを作成する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

Content Connector SDK を使用してコンテンツ コネクタを作成する

依存関係を設定する

Maven

Gradle

コネクタ構成を作成する

構成ファイルをコネクタに渡す

使用する走査戦略を決める

テンプレート クラスを使用してフル走査コネクタを作成する

コネクタのエントリ ポイントを実装する

Repository インターフェースを実装する

カスタム構成パラメータを取得する

フル走査を実行する

アイテムへのアクセス許可を設定する

アイテムのメタデータを設定する

インデックス登録可能なアイテムを作成する

イテレータ内のインデックス登録可能な各アイテムをパッケージ化する

次のステップ

テンプレート クラスを使用してリスト走査コネクタを作成する

コネクタのエントリ ポイントを実装する

Repository インターフェースを実装する

カスタム構成パラメータを取得する

リスト走査を実行する

アイテムの ID とハッシュ値を push する

各アイテムを取得して処理する

削除対象のアイテムを処理する

未変更のアイテムを処理する

アイテムへのアクセス許可を設定する

アイテムのメタデータを設定する

インデックス登録可能なアイテムを作成する

次のステップ

テンプレート クラスを使用してグラフ走査コネクタを作成する

コネクタのエントリ ポイントを実装する

Repository インターフェースを実装する

カスタム構成パラメータを取得する

グラフ走査を実行する

アイテムの ID とハッシュ値を push する

各アイテムを取得して処理する

削除対象のアイテムを処理する

アイテムへのアクセス許可を設定する

アイテムのメタデータを設定する

インデックス登録可能なアイテムを作成する

子の ID を Cloud Search インデックス登録キューに入れる

次のステップ

REST API を使用してコンテンツ コネクタを作成する

使用する走査戦略を決める

走査戦略を実装しアイテムをインデックス登録する

リポジトリの変更を処理する

コンテンツコネクタを作成する

Content Connector SDK を使用してコンテンツコネクタを作成する

テンプレートクラスを使用してフル走査コネクタを作成する

コネクタのエントリポイントを実装する

`Repository` インターフェースを実装する

テンプレートクラスを使用してリスト走査コネクタを作成する

コネクタのエントリポイントを実装する

`Repository` インターフェースを実装する

テンプレートクラスを使用してグラフ走査コネクタを作成する

コネクタのエントリポイントを実装する

`Repository` インターフェースを実装する

REST API を使用してコンテンツコネクタを作成する