ML Kit を使用した自撮り写真のセグメンテーション（Android）

ML Kit には、自撮り写真のセグメンテーション用に最適化された SDK が用意されています。

Selfie Segmenter アセットは、ビルド時にアプリに静的にリンクされます。これにより、アプリのダウンロードサイズが約 4.5 MB 増加し、Pixel 4 で測定した API レイテンシは入力画像のサイズに応じて 25 ～ 65 ミリ秒の範囲で変動します。

試してみる

サンプルアプリを試して、この API の使用例をご覧ください。

始める前に

この API には Android API レベル 23 以上が必要です。アプリのビルドファイルで minSdkVersion の値が 23 以上になっていることを確認します。

プロジェクトレベルの build.gradle ファイルにおいて、buildscript セクションと allprojects セクションの両方に Google の Maven リポジトリを組み込みます。
ML Kit Android ライブラリの依存関係をモジュールのアプリレベルの Gradle ファイル（通常は app/build.gradle）に追加します。

dependencies {
  implementation 'com.google.mlkit:segmentation-selfie:16.0.0-beta6'
}

1. Segmenter のインスタンスを作成する

セグメンターのオプション

画像でセグメンテーションを行うには、まず次のオプションを指定して Segmenter のインスタンスを作成します。

検出モード

Segmenter は 2 つのモードで動作します。ユースケースに一致するものを選択してください。

STREAM_MODE (default)

このモードは、動画やカメラからフレームをストリーミングするように設計されています。このモードでは、セグメンターは前のフレームの結果を活用して、よりスムーズなセグメンテーション結果を返します。

SINGLE_IMAGE_MODE

このモードは、関連性のない単一の画像用に設計されています。このモードでは、セグメンターは各画像を個別に処理し、フレーム間のスムージングは行いません。

未加工のサイズマスクを有効にする

モデルの出力サイズに一致する未加工のサイズマスクを返すようセグメンターに要求します。

通常、マスクの元サイズ（256x256 など）は入力画像のサイズよりも小さくなります。このオプションを有効にする場合は、SegmentationMask#getWidth() と SegmentationMask#getHeight() を呼び出してマスクサイズを取得してください。

このオプションを指定しない場合、セグメンターは入力画像のサイズに合わせて未加工マスクをリスケールします。カスタマイズされたリスケーリングロジックを適用する場合や、ユースケースでリスケーリングが必要ない場合は、このオプションの使用を検討してください。

セグメンターオプションを指定します。

Kotlin

val options =
        SelfieSegmenterOptions.Builder()
            .setDetectorMode(SelfieSegmenterOptions.STREAM_MODE)
            .enableRawSizeMask()
            .build()

Java

SelfieSegmenterOptions options =
        new SelfieSegmenterOptions.Builder()
            .setDetectorMode(SelfieSegmenterOptions.STREAM_MODE)
            .enableRawSizeMask()
            .build();

Segmenter のインスタンスを作成します。指定したオプションを渡します。

Kotlin

val segmenter = Segmentation.getClient(options)

Java

Segmenter segmenter = Segmentation.getClient(options);

2. 入力画像を準備する

画像でセグメンテーションを実行するには、Bitmap、media.Image、ByteBuffer、バイト配列、またはデバイス上のファイルから InputImage オブジェクトを作成します。

さまざまなソースから InputImage オブジェクトを作成できます。各ソースは次のとおりです。

`media.Image` の使用

InputImage オブジェクトを media.Image オブジェクトから作成するには（デバイスのカメラから画像をキャプチャする場合など）、media.Image オブジェクトと画像の回転を InputImage.fromMediaImage() に渡します。

CameraX ライブラリを使用する場合は、OnImageCapturedListener クラスと ImageAnalysis.Analyzer クラスによって回転値が計算されます。

Kotlin

private class YourImageAnalyzer : ImageAnalysis.Analyzer {

    override fun analyze(imageProxy: ImageProxy) {
        val mediaImage = imageProxy.image
        if (mediaImage != null) {
            val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees)
            // Pass image to an ML Kit Vision API
            // ...
        }
    }
}

Java

private class YourAnalyzer implements ImageAnalysis.Analyzer {

    @Override
    public void analyze(ImageProxy imageProxy) {
        Image mediaImage = imageProxy.getImage();
        if (mediaImage != null) {
          InputImage image =
                InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees());
          // Pass image to an ML Kit Vision API
          // ...
        }
    }
}

画像の回転角度を取得するカメラライブラリを使用しない場合は、デバイスの回転角度とデバイス内のカメラセンサーの向きから計算できます。

Kotlin

private val ORIENTATIONS = SparseIntArray()

init {
    ORIENTATIONS.append(Surface.ROTATION_0, 0)
    ORIENTATIONS.append(Surface.ROTATION_90, 90)
    ORIENTATIONS.append(Surface.ROTATION_180, 180)
    ORIENTATIONS.append(Surface.ROTATION_270, 270)
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
@Throws(CameraAccessException::class)
private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    val deviceRotation = activity.windowManager.defaultDisplay.rotation
    var rotationCompensation = ORIENTATIONS.get(deviceRotation)

    // Get the device's sensor orientation.
    val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager
    val sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION)!!

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360
    }
    return rotationCompensation
}MLKitVisionImage.kt

Java

private static final SparseIntArray ORIENTATIONS = new SparseIntArray();
static {
    ORIENTATIONS.append(Surface.ROTATION_0, 0);
    ORIENTATIONS.append(Surface.ROTATION_90, 90);
    ORIENTATIONS.append(Surface.ROTATION_180, 180);
    ORIENTATIONS.append(Surface.ROTATION_270, 270);
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing)
        throws CameraAccessException {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation();
    int rotationCompensation = ORIENTATIONS.get(deviceRotation);

    // Get the device's sensor orientation.
    CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE);
    int sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION);

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360;
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360;
    }
    return rotationCompensation;
}

次に、media.Image オブジェクトと回転角度値を InputImage.fromMediaImage() に渡します。

Kotlin

val image = InputImage.fromMediaImage(mediaImage, rotation)MLKitVisionImage.kt

Java

InputImage image = InputImage.fromMediaImage(mediaImage, rotation);

ファイル URI を使用する

InputImage オブジェクトをファイルの URI から作成するには、アプリコンテキストとファイルの URI を InputImage.fromFilePath() に渡します。これは、ACTION_GET_CONTENT インテントを使用して、ギャラリーアプリから画像を選択するようにユーザーに促すときに便利です。

Kotlin

val image: InputImage
try {
    image = InputImage.fromFilePath(context, uri)
} catch (e: IOException) {
    e.printStackTrace()
}MLKitVisionImage.kt

Java

InputImage image;
try {
    image = InputImage.fromFilePath(context, uri);
} catch (IOException e) {
    e.printStackTrace();
}

`ByteBuffer` または `ByteArray` の使用

ByteBuffer または ByteArray から InputImage オブジェクトを作成するには、media.Image 入力について上記のように、まず画像の回転角度を計算します。次に、画像の高さ、幅、カラーエンコード形式、回転角度とともに、バッファまたは配列を含む InputImage オブジェクトを作成します。

Kotlin

val image = InputImage.fromByteBuffer(
        byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)MLKitVisionImage.kt
// Or:
val image = InputImage.fromByteArray(
        byteArray,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)
MLKitVisionImage.kt

Java

InputImage image = InputImage.fromByteBuffer(byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);MLKitVisionImage.java
// Or:
InputImage image = InputImage.fromByteArray(
        byteArray,
        /* image width */480,
        /* image height */360,
        rotation,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);MLKitVisionImage.java

`Bitmap` の使用

Bitmap オブジェクトから InputImage オブジェクトを作成するには、次の宣言を行います。

Kotlin

val image = InputImage.fromBitmap(bitmap, 0)MLKitVisionImage.kt

Java

InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);MLKitVisionImage.java

画像は Bitmap オブジェクトと回転角度で表されます。

3. 画像を処理する

準備した InputImage オブジェクトを Segmenter の process メソッドに渡します。

Kotlin

Task<SegmentationMask> result = segmenter.process(image)
       .addOnSuccessListener { results ->
           // Task completed successfully
           // ...
       }
       .addOnFailureListener { e ->
           // Task failed with an exception
           // ...
       }

Java

Task<SegmentationMask> result =
        segmenter.process(image)
                .addOnSuccessListener(
                        new OnSuccessListener<SegmentationMask>() {
                            @Override
                            public void onSuccess(SegmentationMask mask) {
                                // Task completed successfully
                                // ...
                            }
                        })
                .addOnFailureListener(
                        new OnFailureListener() {
                            @Override
                            public void onFailure(@NonNull Exception e) {
                                // Task failed with an exception
                                // ...
                            }
                        });

注: CameraX API を使用している場合は、使用が終わったら ImageProxy を必ず閉じてください。たとえば、process メソッドから返された Task に OnCompleteListener を追加します。例については、クイックスタートサンプルアプリの VisionProcessorBase クラスをご覧ください。

4. セグメンテーションの結果を取得する

セグメンテーションの結果は次の方法で取得できます。

Kotlin

val mask = segmentationMask.getBuffer()
val maskWidth = segmentationMask.getWidth()
val maskHeight = segmentationMask.getHeight()

for (val y = 0; y < maskHeight; y++) {
  for (val x = 0; x < maskWidth; x++) {
    // Gets the confidence of the (x,y) pixel in the mask being in the foreground.
    val foregroundConfidence = mask.getFloat()
  }
}

Java

ByteBuffer mask = segmentationMask.getBuffer();
int maskWidth = segmentationMask.getWidth();
int maskHeight = segmentationMask.getHeight();

for (int y = 0; y < maskHeight; y++) {
  for (int x = 0; x < maskWidth; x++) {
    // Gets the confidence of the (x,y) pixel in the mask being in the foreground.
    float foregroundConfidence = mask.getFloat();
  }
}

セグメンテーション結果の使用方法の完全な例については、ML Kit クイックスタートサンプルをご覧ください。

パフォーマンスを改善するためのヒント

結果の品質は、入力画像の品質によって異なります。

ML Kit で正確なセグメンテーション結果を得るには、画像が 256x256 ピクセル以上である必要があります。
画像がぼやけていると、認識精度が低下する可能性があります。満足のいく結果が得られない場合は、ユーザーに画像をキャプチャし直すよう求めてください。

リアルタイムのアプリケーションでセグメンテーションを使用する場合は、最適なフレームレートを得るために次のガイドラインに従ってください。

STREAM_MODE を使用してください。
より低い解像度で画像をキャプチャすることを検討してください。ただし、この API の画像サイズに関する要件にも留意してください。
生のサイズマスクオプションを有効にして、すべてのリスケールロジックを組み合わせることを検討してください。たとえば、API に入力画像のサイズに合わせてマスクをリスケールさせてから、表示用の View のサイズに合わせて再度リスケールするのではなく、生のサイズのマスクをリクエストして、この 2 つのステップを 1 つにまとめます。
Camera API または camera2 API を使用する場合は、検出器の呼び出しをスロットルします。検出器の実行中に新しい動画フレームが使用可能になった場合は、そのフレームをドロップします。例については、クイックスタートサンプルアプリの VisionProcessorBase クラスをご覧ください。
CameraX API を使用する場合は、バックプレッシャー戦略がデフォルト値の ImageAnalysis.STRATEGY_KEEP_ONLY_LATEST に設定されていることを確認してください。これにより、一度に分析用に配信される画像は 1 つだけになります。アナライザがビジー状態のときにさらに多くの画像が生成された場合、それらの画像は自動的にドロップされ、配信のためにキューに登録されません。ImageProxy.close() を呼び出して分析中の画像を閉じると、次の最新の画像が配信されます。
検出器の出力を使用して入力画像の上にグラフィックスをオーバーレイする場合は、まず ML Kit から検出結果を取得し、画像とオーバーレイを 1 つのステップでレンダリングします。これにより、ディスプレイサーフェスへのレンダリングは入力フレームごとに 1 回で済みます。例については、クイックスタートサンプルアプリの CameraSourcePreview クラスと GraphicOverlay クラスをご覧ください。
Camera2 API を使用する場合は、ImageFormat.YUV_420_888 形式で画像をキャプチャします。古い Camera API を使用する場合は、ImageFormat.NV21 形式で画像をキャプチャします。

ML Kit を使用した自撮り写真のセグメンテーション（Android） コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

試してみる

始める前に

1. Segmenter のインスタンスを作成する

セグメンターのオプション

検出モード

未加工のサイズマスクを有効にする

Kotlin

Java

Kotlin

Java

2. 入力画像を準備する

media.Image の使用

Kotlin

Java

Kotlin

Java

Kotlin

Java

ファイル URI を使用する

Kotlin

Java

ByteBuffer または ByteArray の使用

Kotlin

Java

Bitmap の使用

Kotlin

Java

3. 画像を処理する

Kotlin

Java

4. セグメンテーションの結果を取得する

Kotlin

Java

パフォーマンスを改善するためのヒント

ML Kit を使用した自撮り写真のセグメンテーション（Android）

`media.Image` の使用

`ByteBuffer` または `ByteArray` の使用

`Bitmap` の使用