创建内容连接器

内容连接器是一种软件程序，用于遍历企业代码库中的数据并填充数据源。针对内容连接器的开发，Google 提供以下选项：

内容连接器 SDK。如果您使用 Java 编程，这是一个不错的选择。内容连接器 SDK 是 REST API 的封装容器，可让您快速创建连接器。要使用此 SDK 创建内容连接器，请参阅使用内容连接器 SDK 创建内容连接器。
低层级 REST API 或 API 库。如果您不用 Java 编程，或者您的代码库更适合 REST API 或库，请使用这些选项。要使用 REST API 创建内容连接器，请参阅使用 REST API 创建内容连接器。

一个典型的内容连接器会执行以下任务：

读取和处理配置参数。
从第三方内容代码库中提取离散的可索引数据块，即“项”。
将 ACL、元数据和内容数据合并到可索引项中。
将项编入 Cloud Search 数据源的索引中。
（可选）侦听来自第三方内容代码库的更改通知。更改通知将转换为索引请求，使 Cloud Search 数据源与第三方代码库保持同步。连接器仅在代码库支持更改检测的情况下执行此任务。

使用内容连接器 SDK 创建内容连接器

以下部分介绍如何使用内容连接器 SDK 创建内容连接器。

设置依赖项

您必须在构建文件中加入特定的依赖项才能使用 SDK。请点击下面的标签查看构建环境的依赖项：

Maven

<dependency>
<groupId>com.google.enterprise.cloudsearch</groupId>
<artifactId>google-cloudsearch-indexing-connector-sdk</artifactId>
<version>v1-0.0.3</version>
</dependency>

Gradle

compile group: 'com.google.enterprise.cloudsearch',
        name: 'google-cloudsearch-indexing-connector-sdk',
        version: 'v1-0.0.3'

创建连接器配置

每个连接器都有一个配置文件，其中包含连接器使用的参数，例如代码库的 ID。这些参数以键值对的形式进行定义，例如 api.sourceId=1234567890abcdef。

Google Cloud Search SDK 包含 Google 提供的若干个配置参数，可供所有连接器使用。您必须在配置文件中声明以下由 Google 提供的参数：

对于内容连接器，您必须声明 api.sourceId 和 api.serviceAccountPrivateKeyFile，因为这些参数标识了代码库的位置和访问代码库所需的私钥。

对于身份连接器，您必须声明 api.identitySourceId，因为此参数标识了外部身份源的位置。如果您要同步用户，则还必须将 api.customerId 声明为企业 Google Workspace 账号的唯一 ID。

除非您要覆盖其他 Google 提供的参数的默认值，否则您无需在配置文件中进行声明。如需详细了解 Google 提供的配置参数，例如如何生成特定的 ID 和密钥，请参阅 Google 提供的配置参数。

此外，您还可以定义代码库的专属参数，以便在配置文件中使用。

将配置文件传递给连接器

设置系统属性 config 以将配置文件传递给连接器。您可以在启动连接器时使用 -D 参数来设置属性。例如，以下命令会使用 MyConfig.properties 配置文件启动连接器：

java -classpath myconnector.jar;... -Dconfig=MyConfig.properties MyConnector

如果缺少此实参，SDK 将尝试访问名为 connector-config.properties 的默认配置文件。

确定您的遍历策略

内容连接器的主要功能是遍历代码库并为其数据编制索引。您必须根据代码库中数据的大小和布局实现遍历策略。您可以设计自己的专属策略，也可以从 SDK 中实现的以下策略中进行选择：

完全遍历策略

完全遍历策略扫描整个代码库，并不加分辨地将每一项都编入索引。如果您的代码库规模较小，并且能够负担得起每次编制索引都执行完全遍历的开销，通常可以使用此策略。

这一遍历策略适用于大部分数据都处于静态且不分层的小型代码库。当代码库难以执行或完全不支持更改检测时，您也可以使用此遍历策略。

列表遍历策略

列表遍历策略扫描整个代码库，包括所有子节点，来确定每一项的状态。然后，连接器进行第二次遍历，仅将自上次编制索引以来添加的新项或已更新的项编入索引。此策略通常用于对现有索引执行增量更新（无需在每次更新索引时都执行完全遍历）。

当代码库难以执行或不支持更改检测、您具有非分层数据，并且您要处理庞大的数据集时，此遍历策略非常适用。

图遍历

图形遍历策略扫描整个父节点，确定每一项的状态。然后，连接器进行第二次遍历，仅将根节点中自上次编制索引以来添加的新项或已更新的项编入索引。最后，连接器遍历所有子 ID，然后将子节点中添加的新项或已更新的项编入索引。连接器以递归方式继续遍历所有子节点，直到处理完所有项。这一遍历方法通常用于分层代码库，在此种代码库中，很难列出所有 ID。

如果您拥有需要抓取的分层数据，例如一系列目录或网页，则此策略非常适用。

这些遍历策略中的每一项策略都由 SDK 中的模板连接器类实现。虽然您可以实现自己的遍历策略，但这些模板可以大大加快连接器的开发速度。要使用模板创建连接器，请转到与您的遍历策略对应的部分：

使用模板类创建完全遍历连接器
使用模板类创建列表遍历连接器
使用模板类创建图形遍历连接器

使用模板类创建完全遍历连接器

本文档的这一部分引用了 FullTraversalSample 示例中的代码段。

实现连接器的入口点

连接器的入口点采用 main() 方法。此方法的主要任务是创建 Application 类的实例，并调用其 start() 方法来运行连接器。

在调用 application.start() 之前，请使用 IndexingApplication.Builder 类实例化 FullTraversalConnector 模板。FullTraversalConnector 接受您实现其方法的 Repository 对象。以下代码段展示了如何实现 main() 方法：

FullTraversalSample.java

创建内容连接器 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

使用内容连接器 SDK 创建内容连接器

设置依赖项

Maven

Gradle

创建连接器配置

将配置文件传递给连接器

确定您的遍历策略

使用模板类创建完全遍历连接器

实现连接器的入口点

实现 Repository 接口

获取自定义配置参数

执行完全遍历

设置项的权限

设置项的元数据

创建可索引项

在迭代器中打包每个可索引项

后续步骤

使用模板类创建列表遍历连接器

实现连接器的入口点

实现 Repository 接口

获取自定义配置参数

执行列表遍历

推送项 ID 和哈希值

检索并处理每一项

处理已删除的项

处理未更改的项

设置项的权限

设置项的元数据

创建可索引项

后续步骤

使用模板类创建图形遍历连接器

实现连接器的入口点

实现 Repository 接口

获取自定义配置参数

执行图形遍历

推送项 ID 和哈希值

检索并处理每一项

处理已删除的项

设置项的权限

设置项的元数据

创建可索引项

将子 ID 放入到 Cloud Search Indexing Queue 中

后续步骤

使用 REST API 创建内容连接器

确定您的遍历策略

实现遍历策略和索引项

处理存储库更改

创建内容连接器

实现 `Repository` 接口

实现 `Repository` 接口

实现 `Repository` 接口