Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Detectar poses com o Kit de ML no iOS

O Kit de ML oferece dois SDKs otimizados para detecção de poses.

Nome do SDK	PoseDetection	PoseDetectionAccurate
Implementação	Os recursos do detector de base são vinculados estaticamente ao app no tempo de build.	Os recursos do detector preciso são vinculados estaticamente ao app no tempo de build.
Tamanho do app	Até 29,6 MB	Até 33,2 MB
Desempenho	iPhone X: ~45FPS	iPhone X: ~29FPS

Faça um teste

Teste o app de exemplo para conferir um exemplo de uso dessa API.

Antes de começar

Inclua os seguintes pods do Kit de ML no seu Podfile:

# If you want to use the base implementation:
pod 'GoogleMLKit/PoseDetection', '8.0.0'

# If you want to use the accurate implementation:
pod 'GoogleMLKit/PoseDetectionAccurate', '8.0.0'

Depois de instalar ou atualizar os pods do projeto, abra o projeto do Xcode usando o xcworkspace. O Kit de ML é compatível com a versão 13.2.1 ou mais recente do Xcode.

1. Criar uma instância de `PoseDetector`

Para detectar uma pose em uma imagem, primeiro crie uma instância de PoseDetector e, opcionalmente, especifique as configurações do detector.

Opções de `PoseDetector`

Modo de detecção

O PoseDetector opera em dois modos de detecção. Escolha o que corresponde ao seu caso de uso.

stream (padrão): O detector de poses primeiro detecta a pessoa mais proeminente na imagem e, em seguida, executa a detecção de poses. Nos frames subsequentes, a etapa de detecção de pessoas não será realizada, a menos que a pessoa fique obscurecida ou não seja mais detectada com alta confiança. O detector de poses vai tentar rastrear a pessoa mais proeminente e retornar a pose dela em cada inferência. Isso reduz a latência e suaviza a detecção. Use esse modo quando quiser detectar poses em um stream de vídeo.
singleImage: O detector de poses vai detectar uma pessoa e, em seguida, executar a detecção de poses. A etapa de detecção de pessoas será executada para cada imagem, então a latência será maior e não haverá rastreamento de pessoas. Use esse modo ao usar a detecção de poses em imagens estáticas ou quando o rastreamento não for desejado.

Especifique as opções do detector de poses:

Swift

// Base pose detector with streaming, when depending on the PoseDetection SDK
let options = PoseDetectorOptions()
options.detectorMode = .stream

// Accurate pose detector on static images, when depending on the
// PoseDetectionAccurate SDK
let options = AccuratePoseDetectorOptions()
options.detectorMode = .singleImage

Objective-C

// Base pose detector with streaming, when depending on the PoseDetection SDK
MLKPoseDetectorOptions *options = [[MLKPoseDetectorOptions alloc] init];
options.detectorMode = MLKPoseDetectorModeStream;

// Accurate pose detector on static images, when depending on the
// PoseDetectionAccurate SDK
MLKAccuratePoseDetectorOptions *options =
    [[MLKAccuratePoseDetectorOptions alloc] init];
options.detectorMode = MLKPoseDetectorModeSingleImage;

Por fim, receba uma instância de PoseDetector. Transmita as opções especificadas:

Swift

let poseDetector = PoseDetector.poseDetector(options: options)

Objective-C

MLKPoseDetector *poseDetector =
    [MLKPoseDetector poseDetectorWithOptions:options];

2. Preparar a imagem de entrada

Para detectar poses, siga as etapas abaixo para cada imagem ou frame de vídeo. Se você tiver ativado o modo de stream, precisará criar objetos VisionImage a partir de CMSampleBuffer.

Crie um VisionImage objeto usando um UIImage ou um CMSampleBuffer.

Se você usar um UIImage, siga estas etapas:

Crie um VisionImage objeto com o UIImage. Especifique o .orientation correto.

Swift

let image = VisionImage(image: UIImage)
visionImage.orientation = image.imageOrientation

Objective-C

MLKVisionImage *visionImage = [[MLKVisionImage alloc] initWithImage:image];
visionImage.orientation = image.imageOrientation;

Se você usar um CMSampleBuffer, siga estas etapas:

Especifique a orientação dos dados da imagem contidos no CMSampleBuffer.

Para ver a orientação da imagem:

Swift

func imageOrientation(
  deviceOrientation: UIDeviceOrientation,
  cameraPosition: AVCaptureDevice.Position
) -> UIImage.Orientation {
  switch deviceOrientation {
  case .portrait:
    return cameraPosition == .front ? .leftMirrored : .right
  case .landscapeLeft:
    return cameraPosition == .front ? .downMirrored : .up
  case .portraitUpsideDown:
    return cameraPosition == .front ? .rightMirrored : .left
  case .landscapeRight:
    return cameraPosition == .front ? .upMirrored : .down
  case .faceDown, .faceUp, .unknown:
    return .up
  }
}

Objective-C

- (UIImageOrientation)
  imageOrientationFromDeviceOrientation:(UIDeviceOrientation)deviceOrientation
                         cameraPosition:(AVCaptureDevicePosition)cameraPosition {
  switch (deviceOrientation) {
    case UIDeviceOrientationPortrait:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationLeftMirrored
                                                            : UIImageOrientationRight;

    case UIDeviceOrientationLandscapeLeft:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationDownMirrored
                                                            : UIImageOrientationUp;
    case UIDeviceOrientationPortraitUpsideDown:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationRightMirrored
                                                            : UIImageOrientationLeft;
    case UIDeviceOrientationLandscapeRight:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationUpMirrored
                                                            : UIImageOrientationDown;
    case UIDeviceOrientationUnknown:
    case UIDeviceOrientationFaceUp:
    case UIDeviceOrientationFaceDown:
      return UIImageOrientationUp;
  }
}

Crie um VisionImage objeto usando o CMSampleBuffer objeto e a orientação:

Swift

let image = VisionImage(buffer: sampleBuffer)
image.orientation = imageOrientation(
  deviceOrientation: UIDevice.current.orientation,
  cameraPosition: cameraPosition)

Objective-C

 MLKVisionImage *image = [[MLKVisionImage alloc] initWithBuffer:sampleBuffer];
 image.orientation =
   [self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation
                                cameraPosition:cameraPosition];

3. Processar a imagem

Transmita o VisionImage para um dos métodos de processamento de imagens do detector de poses. Você pode usar o método assíncrono process(image:) ou o método síncrono results().

Para detectar objetos de modo síncrono:

Swift

var results: [Pose]
do {
  results = try poseDetector.results(in: image)
} catch let error {
  print("Failed to detect pose with error: \(error.localizedDescription).")
  return
}
guard let detectedPoses = results, !detectedPoses.isEmpty else {
  print("Pose detector returned no results.")
  return
}

// Success. Get pose landmarks here.

Objective-C

NSError *error;
NSArray *poses = [poseDetector resultsInImage:image error:&error];
if (error != nil) {
  // Error.
  return;
}
if (poses.count == 0) {
  // No pose detected.
  return;
}

// Success. Get pose landmarks here.

Para detectar objetos de modo assíncrono:

Swift

poseDetector.process(image) { detectedPoses, error in
  guard error == nil else {
    // Error.
    return
  }
  guard !detectedPoses.isEmpty else {
    // No pose detected.
    return
  }

  // Success. Get pose landmarks here.
}

Objective-C

[poseDetector processImage:image
                completion:^(NSArray * _Nullable poses,
                             NSError * _Nullable error) {
                    if (error != nil) {
                      // Error.
                      return;
                    }
                    if (poses.count == 0) {
                      // No pose detected.
                      return;
                    }

                    // Success. Get pose landmarks here.
                  }];

4. Receber informações sobre a pose detectada

Se uma pessoa for detectada na imagem, a API de detecção de poses vai transmitir uma matriz de objetos Pose para o gerenciador de conclusão ou retornar a matriz, dependendo se você chamou o método assíncrono ou síncrono.

Se a pessoa não estiver completamente dentro da imagem, o modelo vai atribuir as coordenadas de pontos de referência ausentes fora do frame e dar a elas valores baixos de InFrameConfidence.

Se nenhuma pessoa for detectada, a matriz estará vazia.

Swift

for pose in detectedPoses {
  let leftAnkleLandmark = pose.landmark(ofType: .leftAnkle)
  if leftAnkleLandmark.inFrameLikelihood > 0.5 {
    let position = leftAnkleLandmark.position
  }
}

Objective-C

for (MLKPose *pose in detectedPoses) {
  MLKPoseLandmark *leftAnkleLandmark =
      [pose landmarkOfType:MLKPoseLandmarkTypeLeftAnkle];
  if (leftAnkleLandmark.inFrameLikelihood > 0.5) {
    MLKVision3DPoint *position = leftAnkleLandmark.position;
  }
}

Dicas para melhorar o desempenho

A qualidade dos resultados depende da qualidade da imagem de entrada:

Para que o Kit de ML detecte poses com precisão, a pessoa na imagem precisa ser representada por dados de pixel suficientes. Para melhor desempenho, o assunto precisa ter pelo menos 256 x 256 pixels.
Se você estiver fazendo a detecção de poses em um aplicativo em tempo real, considere as dimensões gerais das imagens de entrada. Já que imagens menores podem ser processadas mais rapidamente, para reduzir a latência, capture imagens em resoluções mais baixas, mas tenha em mente os requisitos de resolução acima e garanta que o assunto ocupe o máximo possível da imagem.
O foco inadequado da imagem também pode afetar a precisão. Se você não conseguir resultados aceitáveis, peça para o usuário recapturar a imagem.

Se você quiser usar a detecção de poses em um aplicativo em tempo real, siga estas diretrizes para conseguir as melhores taxas de frames:

Use o SDK PoseDetection de base e o modo de detecção stream.
Considere capturar imagens em uma resolução mais baixa. No entanto, também tenha em mente os requisitos de dimensão da imagem dessa API.
Para processar frames de vídeo, use a API síncrona results(in:) do detector. Chame esse método da função captureOutput(_, didOutput:from:) do AVCaptureVideoDataOutputSampleBufferDelegate's para receber resultados de forma síncrona do frame de vídeo fornecido. Mantenha AVCaptureVideoDataOutput's alwaysDiscardsLateVideoFrames como verdadeiro para limitar as chamadas ao detector. Se um novo frame de vídeo ficar disponível enquanto o detector estiver em execução, ele será descartado.
Se você estiver usando a saída do detector para sobrepor elementos gráficos na imagem de entrada, primeiro acesse o resultado do Kit de ML. Em seguida, renderize a imagem e faça a sobreposição de uma só vez. Ao fazer isso, você renderiza a superfície de exibição apenas uma vez para cada frame de entrada processado. Consulte as previewOverlayView e MLKDetectionOverlayView no app de exemplo da demonstração.

Próximas etapas

Para saber como usar pontos de referência de poses para classificar poses, consulte Dicas de classificação de poses.
Consulte a amostra do guia de início rápido do kit de ML no GitHub para ver um exemplo desta API em uso.

Detectar poses com o Kit de ML no iOS Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Faça um teste

Antes de começar

1. Criar uma instância de PoseDetector

Opções de PoseDetector

Modo de detecção

Swift

Objective-C

Swift

Objective-C

2. Preparar a imagem de entrada

Swift

Objective-C

Swift

Objective-C

Swift

Objective-C

3. Processar a imagem

Swift

Objective-C

Swift

Objective-C

4. Receber informações sobre a pose detectada

Swift

Objective-C

Dicas para melhorar o desempenho

Próximas etapas

Detectar poses com o Kit de ML no iOS

1. Criar uma instância de `PoseDetector`

Opções de `PoseDetector`