Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

在 Android 上使用 ML Kit 偵測及追蹤物件

您可以使用 ML Kit 偵測及追蹤連續影片影格中的物件。

將圖片傳遞至 ML Kit 時，系統會偵測圖片中最多五個物件，以及每個物件在圖片中的位置。偵測視訊串流中的物件時，每個物件都有專屬 ID，可用於追蹤影格中的物件。您也可以選擇啟用粗略物件分類，為物件加上廣泛的類別說明。

立即試用

請試用範例應用程式，瞭解這個 API 的使用範例。
如要瞭解這個 API 的端對端實作方式，請參閱 Material Design 展示應用程式。

事前準備

這項 API 需要 Android API 級別 23 以上。請確認應用程式的建構檔案使用 23 以上的 minSdkVersion 值。

在專案層級的 build.gradle 檔案中，請務必在 buildscript 和 allprojects 區段中加入 Google 的 Maven 存放區。
將 ML Kit Android 程式庫的依附元件新增至模組的應用程式層級 Gradle 檔案，通常為 app/build.gradle：
```
dependencies {
  // ...

  implementation 'com.google.mlkit:object-detection:17.0.2'

}
```

1. 設定物件偵測器

如要偵測及追蹤物件，請先建立 ObjectDetector 的執行個體，並視需要指定要從預設值變更的任何偵測器設定。

使用 ObjectDetectorOptions 物件，根據用途設定物件偵測器。你可以變更下列設定：

物件偵測工具設定

偵測模式

物件偵測工具設定
偵測模式	`STREAM_MODE` (預設) \| `SINGLE_IMAGE_MODE` 在 `STREAM_MODE` (預設) 中，物件偵測器會以低延遲執行，但可能在前幾次叫用偵測器時產生不完整的結果 (例如不明的定界框或類別標籤)。此外，在 `STREAM_MODE` 中，偵測器會為物件指派追蹤 ID，您可以使用這些 ID 追蹤跨影格的物件。如要追蹤物件，或需要低延遲 (例如即時處理影片串流)，請使用這個模式。在 `SINGLE_IMAGE_MODE` 中，物件偵測器會在判斷物件的定界框後傳回結果。如果同時啟用分類功能，系統會在提供邊界框和類別標籤後，傳回結果。因此，偵測延遲時間可能會較長。此外，在 `SINGLE_IMAGE_MODE`中，系統不會指派追蹤 ID。如果延遲不是重要因素，且您不想處理部分結果，請使用這個模式。
偵測及追蹤多個物件	`false` (預設) \| `true` 是否要偵測及追蹤最多五個物件，或只追蹤最顯眼的物件 (預設)。
分類物件	`false` (預設) \| `true` 是否要將偵測到的物件分類為粗略類別。啟用後，物件偵測器會將物件分類為時尚商品、食品、居家用品、地點和植物。

STREAM_MODE (預設) | SINGLE_IMAGE_MODE

在 STREAM_MODE (預設) 中，物件偵測器會以低延遲執行，但可能在前幾次叫用偵測器時產生不完整的結果 (例如不明的定界框或類別標籤)。此外，在 STREAM_MODE 中，偵測器會為物件指派追蹤 ID，您可以使用這些 ID 追蹤跨影格的物件。如要追蹤物件，或需要低延遲 (例如即時處理影片串流)，請使用這個模式。

在 SINGLE_IMAGE_MODE 中，物件偵測器會在判斷物件的定界框後傳回結果。如果同時啟用分類功能，系統會在提供邊界框和類別標籤後，傳回結果。因此，偵測延遲時間可能會較長。此外，在 SINGLE_IMAGE_MODE中，系統不會指派追蹤 ID。如果延遲不是重要因素，且您不想處理部分結果，請使用這個模式。

偵測及追蹤多個物件

false (預設) | true

是否要偵測及追蹤最多五個物件，或只追蹤最顯眼的物件 (預設)。

分類物件

false (預設) | true

是否要將偵測到的物件分類為粗略類別。啟用後，物件偵測器會將物件分類為時尚商品、食品、居家用品、地點和植物。

物件偵測和追蹤 API 適用於下列兩項核心用途：

即時偵測及追蹤相機觀景窗中最顯眼的物件。
從靜態圖片偵測多個物件。

如要為這些用途設定 API，請按照下列步驟操作：

Kotlin

// Live detection and tracking
val options = ObjectDetectorOptions.Builder()
        .setDetectorMode(ObjectDetectorOptions.STREAM_MODE)
        .enableClassification()  // Optional
        .build()

// Multiple object detection in static images
val options = ObjectDetectorOptions.Builder()
        .setDetectorMode(ObjectDetectorOptions.SINGLE_IMAGE_MODE)
        .enableMultipleObjects()
        .enableClassification()  // Optional
        .build()

Java

// Live detection and tracking
ObjectDetectorOptions options =
        new ObjectDetectorOptions.Builder()
                .setDetectorMode(ObjectDetectorOptions.STREAM_MODE)
                .enableClassification()  // Optional
                .build();

// Multiple object detection in static images
ObjectDetectorOptions options =
        new ObjectDetectorOptions.Builder()
                .setDetectorMode(ObjectDetectorOptions.SINGLE_IMAGE_MODE)
                .enableMultipleObjects()
                .enableClassification()  // Optional
                .build();

取得 ObjectDetector 的執行個體：

Kotlin

val objectDetector = ObjectDetection.getClient(options)

Java

ObjectDetector objectDetector = ObjectDetection.getClient(options);

2. 準備輸入圖片

如要偵測及追蹤物件，請將圖片傳遞至執行個體的 process() 方法。ObjectDetector

物件偵測工具會直接從 Bitmap、NV21 ByteBuffer 或 YUV_420_888 media.Image 執行。如果您可直接存取其中一個來源，建議您從這些來源建構 InputImage。如果您從其他來源建構 InputImage，我們會為您處理內部轉換，但效率可能較低。

針對序列中的每個影片或圖片影格，執行下列操作：

您可以從不同來源建立 InputImage 物件，詳情如下：

使用 `media.Image`

如要從 media.Image 物件建立 InputImage 物件 (例如從裝置的相機擷取圖片時)，請將 media.Image 物件和圖片的旋轉角度傳遞至 InputImage.fromMediaImage()。

如果您使用 CameraX 程式庫，OnImageCapturedListener 和 ImageAnalysis.Analyzer 類別會為您計算旋轉值。

Kotlin

private class YourImageAnalyzer : ImageAnalysis.Analyzer {

    override fun analyze(imageProxy: ImageProxy) {
        val mediaImage = imageProxy.image
        if (mediaImage != null) {
            val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees)
            // Pass image to an ML Kit Vision API
            // ...
        }
    }
}

Java

private class YourAnalyzer implements ImageAnalysis.Analyzer {

    @Override
    public void analyze(ImageProxy imageProxy) {
        Image mediaImage = imageProxy.getImage();
        if (mediaImage != null) {
          InputImage image =
                InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees());
          // Pass image to an ML Kit Vision API
          // ...
        }
    }
}

如果您使用的相機程式庫未提供圖片的旋轉角度，可以根據裝置的旋轉角度和裝置中相機感應器的方向計算：

Kotlin

private val ORIENTATIONS = SparseIntArray()

init {
    ORIENTATIONS.append(Surface.ROTATION_0, 0)
    ORIENTATIONS.append(Surface.ROTATION_90, 90)
    ORIENTATIONS.append(Surface.ROTATION_180, 180)
    ORIENTATIONS.append(Surface.ROTATION_270, 270)
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
@Throws(CameraAccessException::class)
private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    val deviceRotation = activity.windowManager.defaultDisplay.rotation
    var rotationCompensation = ORIENTATIONS.get(deviceRotation)

    // Get the device's sensor orientation.
    val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager
    val sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION)!!

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360
    }
    return rotationCompensation
}MLKitVisionImage.kt

Java

private static final SparseIntArray ORIENTATIONS = new SparseIntArray();
static {
    ORIENTATIONS.append(Surface.ROTATION_0, 0);
    ORIENTATIONS.append(Surface.ROTATION_90, 90);
    ORIENTATIONS.append(Surface.ROTATION_180, 180);
    ORIENTATIONS.append(Surface.ROTATION_270, 270);
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing)
        throws CameraAccessException {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation();
    int rotationCompensation = ORIENTATIONS.get(deviceRotation);

    // Get the device's sensor orientation.
    CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE);
    int sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION);

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360;
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360;
    }
    return rotationCompensation;
}

接著，將 media.Image 物件和旋轉角度值傳遞至 InputImage.fromMediaImage()：

Kotlin

val image = InputImage.fromMediaImage(mediaImage, rotation)MLKitVisionImage.kt

Java

InputImage image = InputImage.fromMediaImage(mediaImage, rotation);

使用檔案 URI

如要從檔案 URI 建立 InputImage 物件，請將應用程式內容和檔案 URI 傳遞至 InputImage.fromFilePath()。當您使用 ACTION_GET_CONTENT 意圖提示使用者從相片庫應用程式選取圖片時，這項功能就很有用。

Kotlin

val image: InputImage
try {
    image = InputImage.fromFilePath(context, uri)
} catch (e: IOException) {
    e.printStackTrace()
}MLKitVisionImage.kt

Java

InputImage image;
try {
    image = InputImage.fromFilePath(context, uri);
} catch (IOException e) {
    e.printStackTrace();
}

使用 `ByteBuffer` 或 `ByteArray`

如要從 ByteBuffer 或 ByteArray 建立 InputImage 物件，請先計算圖片旋轉角度，如先前所述的 media.Image 輸入內容。接著，使用緩衝區或陣列建立 InputImage 物件，並提供圖片的高度、寬度、色彩編碼格式和旋轉角度：

Kotlin

val image = InputImage.fromByteBuffer(
        byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)MLKitVisionImage.kt
// Or:
val image = InputImage.fromByteArray(
        byteArray,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)
MLKitVisionImage.kt

Java

InputImage image = InputImage.fromByteBuffer(byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);MLKitVisionImage.java
// Or:
InputImage image = InputImage.fromByteArray(
        byteArray,
        /* image width */480,
        /* image height */360,
        rotation,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);MLKitVisionImage.java

使用 `Bitmap`

如要從 Bitmap 物件建立 InputImage 物件，請進行下列宣告：

Kotlin

val image = InputImage.fromBitmap(bitmap, 0)MLKitVisionImage.kt

Java

InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);MLKitVisionImage.java

圖片會以 Bitmap 物件和旋轉角度表示。

3. 處理圖片

將圖片傳遞至 process() 方法：

Kotlin

objectDetector.process(image)
    .addOnSuccessListener { detectedObjects ->
        // Task completed successfully
        // ...
    }
    .addOnFailureListener { e ->
        // Task failed with an exception
        // ...
    }

Java

objectDetector.process(image)
    .addOnSuccessListener(
        new OnSuccessListener<List<DetectedObject>>() {
            @Override
            public void onSuccess(List<DetectedObject> detectedObjects) {
                // Task completed successfully
                // ...
            }
        })
    .addOnFailureListener(
        new OnFailureListener() {
            @Override
            public void onFailure(@NonNull Exception e) {
                // Task failed with an exception
                // ...
            }
        });

注意：如果您使用 CameraX API，請務必在使用完畢後關閉 ImageProxy，例如在 process 方法傳回的 Task 中加入 OnCompleteListener。如需範例，請參閱快速入門範例應用程式中的 VisionProcessorBase 類別。

4. 取得偵測到的物件相關資訊

如果呼叫 process() 成功，系統會將 DetectedObject 清單傳遞至成功事件監聽器。

每個 DetectedObject 都包含下列屬性：

定界框 Rect：表示物件在圖片中的位置。

追蹤 ID 用於識別跨圖像物件的整數。在 SINGLE_IMAGE_MODE 中為空值。

標籤

標籤說明	標籤的文字說明。這會是 `PredefinedCategory` 中定義的其中一個字串常數。
標籤索引	分類器支援的所有標籤中，這個標籤的索引。這是 `PredefinedCategory` 中定義的其中一個整數常數。
標籤可信度	物件分類的信心值。

Kotlin

for (detectedObject in detectedObjects) {
    val boundingBox = detectedObject.boundingBox
    val trackingId = detectedObject.trackingId
    for (label in detectedObject.labels) {
        val text = label.text
        if (PredefinedCategory.FOOD == text) {
            ...
        }
        val index = label.index
        if (PredefinedCategory.FOOD_INDEX == index) {
            ...
        }
        val confidence = label.confidence
    }
}

Java

// The list of detected objects contains one item if multiple
// object detection wasn't enabled.
for (DetectedObject detectedObject : detectedObjects) {
    Rect boundingBox = detectedObject.getBoundingBox();
    Integer trackingId = detectedObject.getTrackingId();
    for (Label label : detectedObject.getLabels()) {
        String text = label.getText();
        if (PredefinedCategory.FOOD.equals(text)) {
            ...
        }
        int index = label.getIndex();
        if (PredefinedCategory.FOOD_INDEX == index) {
            ...
        }
        float confidence = label.getConfidence();
    }
}

確保提供優質的使用者體驗

為提供最佳使用者體驗，請確保應用程式遵循下列規範：

成功偵測物件取決於物件的視覺複雜度。如要偵測視覺特徵較少的物件，可能需要讓物件在圖片中占據較大比例。請提供相關指引，說明如何擷取適合偵測物件的輸入內容。
使用分類功能時，如要偵測不屬於支援類別的物件，請針對不明物件實作特殊處理方式。

此外，也請參閱 ML Kit Material Design 展示應用程式，以及機器學習功能適用的 Material Design 模式集合。

提升效能

如要在即時應用程式中使用物件偵測功能，請按照下列指南操作，以達到最佳影格速率：

在即時應用程式中使用串流模式時，請勿使用多個物件偵測功能，因為大多數裝置無法產生足夠的影格速率。
如不需要分類功能，請停用。
如果您使用 Camera 或 camera2 API，請節流對偵測器的呼叫。如果偵測器執行期間有新的影片影格可用，請捨棄該影格。如需範例，請參閱快速入門範例應用程式中的 VisionProcessorBase 類別。
如果您使用 CameraX API，請務必將背壓策略設為預設值 ImageAnalysis.STRATEGY_KEEP_ONLY_LATEST。這可確保系統一次只會傳送一張圖片進行分析。如果分析器忙碌時產生更多圖片，系統會自動捨棄這些圖片，不會排隊等待傳送。呼叫 ImageProxy.close() 關閉要分析的圖片後，系統就會傳送下一個最新圖片。
如果使用偵測器的輸出內容，在輸入圖片上疊加圖像，請先從 ML Kit 取得結果，然後在單一步驟中算繪圖片並疊加圖像。每個輸入影格只會轉譯到顯示介面一次。如需範例，請參閱快速入門範例應用程式中的 CameraSourcePreview 和 GraphicOverlay 類別。
如果您使用 Camera2 API，請以 ImageFormat.YUV_420_888 格式擷取圖片。如果使用舊版 Camera API，請以 ImageFormat.NV21 格式擷取圖片。

在 Android 上使用 ML Kit 偵測及追蹤物件 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

立即試用

事前準備

1. 設定物件偵測器

Kotlin

Java

Kotlin

Java

2. 準備輸入圖片

使用 media.Image

Kotlin

Java

Kotlin

Java

Kotlin

Java

使用檔案 URI

Kotlin

Java

使用 ByteBuffer 或 ByteArray

Kotlin

Java

使用 Bitmap

Kotlin

Java

3. 處理圖片

Kotlin

Java

4. 取得偵測到的物件相關資訊

Kotlin

Java

確保提供優質的使用者體驗

提升效能

在 Android 上使用 ML Kit 偵測及追蹤物件

使用 `media.Image`

使用 `ByteBuffer` 或 `ByteArray`

使用 `Bitmap`