对象检测和跟踪

借助机器学习套件的设备端对象检测和跟踪 API,您可以检测和跟踪图片或实时摄像头画面中的对象。

您可以选择对检测到的对象进行分类,方法是使用 API 中内置的粗分类器,或使用您自己的自定义图片分类模型。如需了解详情,请参阅使用自定义 LiteRT 模型

由于对象检测和跟踪在设备上进行,因此它适合用作视觉搜索流水线的前端。检测并过滤 对象后,您可以将它们传递到云后端(例如 Cloud Vision Product Search)。

iOS Android

主要功能

  • 快速对象检测和跟踪 :检测对象并获取其在图片中的位置。跨连续的图片帧跟踪对象。
  • 经过优化的设备端模型 :对象检测和跟踪模型针对移动设备进行了优化,旨在用于实时应用,甚至是在低端设备上使用。
  • 突出对象检测 :自动确定图片中最突出的对象。
  • 粗分类 :将对象分为广泛的类别,可以用来过滤掉您不感兴趣的对象。支持以下类别:家居用品、时尚商品、食品、植物和地点。
  • 使用自定义模型进行分类 :使用您自己的自定义图片分类模型来识别或过滤特定对象类别。通过排除图片的背景,让您的自定义模型表现更好。

示例结果

跨图片跟踪最突出的对象

以下示例展示了来自三个连续帧的跟踪数据,这些数据使用了机器学习套件提供的默认粗分类器。

跟踪 ID 0
边界 (95, 45)、(496, 45)、(496, 240)、(95, 240)
类别 PLACE
分类置信度 0.9296875
跟踪 ID 0
边界 (84, 46)、(478, 46)、(478, 247)、(84, 247)
类别 PLACE
分类置信度 0.8710938
跟踪 ID 0
边界 (53, 45)、(519, 45)、(519, 240)、(53, 240)
类别 PLACE
分类置信度 0.8828125

照片:Christian Ferrer [CC BY-SA 4.0]

静态图片中的多个对象

以下示例展示了使用机器学习套件提供的默认粗分类器检测到的图片中四个对象的数据。

鞋

对象 0
边界 (1, 97)、(332, 97)、(332, 332)、(1, 332)
类别 FASHION_GOOD
分类置信度 0.95703125
对象 1
边界 (186, 80)、(337, 80)、(337, 226)、(186, 226)
类别 FASHION_GOOD
分类置信度 0.84375
对象 2
边界 (296, 80)、(472, 80)、(472, 388)、(296, 388)
类别 FASHION_GOOD
分类置信度 0.94921875
对象 3
边界 (439, 83)、(615, 83)、(615, 306)、(439, 306)
类别 FASHION_GOOD
分类置信度 0.9375

使用自定义 LiteRT 模型

默认粗分类器是针对五个类别构建的,可提供有关检测到的对象的有限信息。您可能需要一个更具针对性的分类器模型,该模型可以更详细地涵盖更窄的概念领域;例如,区分花卉种类或食品类型的模型。

此 API 支持来自各种来源的自定义图片分类模型,让您可以根据特定使用场景进行定制。如需了解详情,请参阅 使用机器学习套件的自定义模型。自定义模型可以与您的应用捆绑在一起,也可以从 Cloud Storage 动态下载。

iOS Android

输入图片预处理

如果需要,对象检测和跟踪会使用双线性图片缩放和拉伸来调整输入图片的尺寸和宽高比,使其符合底层模型的要求。