iOS におけるユーザーの環境を把握する

独自のアプリで Scene Semantics API を使用する方法を確認する。

Scene Semantics API は、ML モデルベースのリアルタイムのセマンティック情報を提供することで、開発者がユーザーの周囲の状況を把握できるようにします。屋外の画像を指定すると、API は空、建物、木、道路、歩道、車両、人など、一連の有用なセマンティッククラスにわたる各ピクセルのラベルを返します。ピクセルラベルに加えて、Scene Semantics API は、各ピクセルラベルの信頼値と、屋外シーンにおける特定のラベルの占有率を照会する簡単な方法も提供します。

左から順に、入力画像、ピクセルラベルのセマンティック画像、対応する信頼度画像の例を示しています。

入力画像、セマンティック画像、セマンティック信頼度画像の例。

前提条件

AR の基礎的なコンセプトを理解しておいてください。と ARCore セッションを構成する方法を確認してください。

シーンのセマンティクスを有効にする

新しい ARCore セッションで、ユーザーのデバイスが Scene Semantics API をサポートしているかどうかを確認します。処理能力に制約があるため、すべての ARCore 対応デバイスが Scene Semantics API をサポートしているわけではありません。

リソースを節約するため、ARCore の Scene Semantics はデフォルトで無効になっています。アプリで Scene Semantics API を使用するには、セマンティックモードを有効にします。

GARSessionConfiguration *configuration = [[GARSessionConfiguration alloc] init];
if ([self.garSession isSemanticModeSupported:GARSemanticModeEnabled]) {
    configuration.semanticMode = GARSemanticModeEnabled;
}

NSError *error;
[self.garSession setConfiguration:configuration error:&error];

セマンティック画像を取得する

シーンのセマンティクスを有効にすると、セマンティック画像を取得できます。セマンティック画像は kCVPixelFormatType_OneComponent8 画像で、各ピクセルは GARSemanticLabel で定義されたセマンティックラベルに対応しています。

GARFrame.semanticImage を使用してセマンティック画像を取得します。

CVPixelBuffer semanticImage = garFrame.semanticImage;
if (semanticImage) {
    // Use the semantic image here
} else {
    // Semantic images are not available.
    // The output image may be missing for the first couple frames before the model has had a
    // chance to run yet.
}

デバイスに応じて、セッションの開始から約 1 ～ 3 フレーム後に出力セマンティック画像を利用できるようになる必要があります。

信頼度の画像を取得する

各ピクセルのラベルを提供するセマンティック画像に加えて、API は対応するピクセル信頼値の信頼画像も提供します。信頼度の画像は kCVPixelFormatType_OneComponent8 画像です。ここで、各ピクセルは [0, 255] の範囲の値に対応し、各ピクセルのセマンティックラベルに関連付けられた確率に対応します。

GARFrame.semanticConfidenceImage を使用して、セマンティック信頼度の画像を取得します。

CVPixelBuffer confidenceImage = garFrame.semanticConfidenceImage;
if (confidenceImage) {
    // Use the semantic image here
} else {
    // Semantic images are not available.
    // The output image may be missing for the first couple frames before the model has had a
    // chance to run yet.
}

出力信頼度の画像は、デバイスに応じて、セッションの開始から約 1 ～ 3 フレーム後に利用可能になります。

セマンティックラベルのピクセル数をクエリする

また、現在のフレーム内で Sky などの特定のクラスに属するピクセルの割合をクエリすることもできます。このクエリは、セマンティック画像を返して特定のラベルをピクセル単位で検索するよりも効率的です。返される小数は、範囲 [0.0, 1.0] 内の浮動小数点値です。

fractionForSemanticLabel: を使用して、特定のラベルに対する割合を取得します。

// Ensure that semantic data is present for the GARFrame.
if (garFrame.semanticImage) {
    float fraction = [garFrame fractionForSemanticLabel:GARSemanticLabelSky];
}