ML Kit udostępnia 2 zoptymalizowane pakiety SDK do wykrywania pozycji.
Nazwa pakietu SDK | wykrywanie pozycji | dokładne wykrywanie pozycji |
---|---|---|
Implementacja | W momencie kompilacji kod i zasoby są statycznie połączone z aplikacją. | W momencie kompilacji kod i zasoby są statycznie połączone z aplikacją. |
Wpływ na rozmiar aplikacji (w tym kod i komponenty) | Ok.10,1 MB | Ok.13,3 MB |
Wydajność | Pixel 3XL: ok. 30 kl./s | Pixel 3XL: ok. 23 kl./s z CPU, ok. 30 kl./s z GPU |
Wypróbuj
- Zapoznaj się z przykładową aplikacją, aby zobaczyć przykład użycia tego interfejsu API.
Zanim zaczniesz
- W pliku
build.gradle
na poziomie projektu dodaj repozytorium Google Maven w sekcjachbuildscript
iallprojects
. Dodaj zależności bibliotek ML Kit na Androida do pliku Gradle na poziomie aplikacji modułu, którym jest zwykle
app/build.gradle
:dependencies { // If you want to use the base sdk implementation 'com.google.mlkit:pose-detection:18.0.0-beta4' // If you want to use the accurate sdk implementation 'com.google.mlkit:pose-detection-accurate:18.0.0-beta4' }
1. Tworzenie instancji maszyny wirtualnej PoseDetector
Opcje: PoseDetector
Aby wykryć pozycję na obrazie, najpierw utwórz instancję PoseDetector
i opcjonalnie określ ustawienia detektora.
Tryb wykrywania
PoseDetector
działa w 2 trybach wykrywania. Wybierz taki, który pasuje
do Twojego przypadku użycia.
STREAM_MODE
(domyślnie)- Wykrywanie pozycji najpierw wykrywa najbardziej widoczną osobę na zdjęciu, a potem uruchamia wykrywanie pozycji. W kolejnych etapach etap wykrywania osoby nie będzie prowadzony, chyba że osoba ta zostanie zasłonięta lub nie zostanie wykryta z wysokim poziomem pewności. Wykrywanie pozycji spróbuje wyśledzić najbardziej widoczną osobę i potwierdzić jej pozycję przy każdym wnioskowaniu. Pozwala to zmniejszyć czas oczekiwania i płynnie wykrywanie. Użyj tego trybu, gdy chcesz wykryć pozę w strumieniu wideo.
SINGLE_IMAGE_MODE
- Czujnik pozycji wykryje osobę, a następnie rozpocznie wykrywanie pozycji. Krok wykrywania osoby będzie wykonywany dla każdego obrazu, więc opóźnienie będzie większe i nie będzie możliwości śledzenia osób. Używaj tego trybu, gdy używasz wykrywania pozycji na obrazach statycznych lub gdy śledzenie nie jest pożądane.
Konfiguracja sprzętu
PoseDetector
obsługuje różne konfiguracje sprzętu pozwalające optymalizować wydajność:
CPU
: uruchom detektor, używając tylko procesoraCPU_GPU
: uruchamianie wzorca do wykrywania treści, korzystając z CPU i GPU
Podczas tworzenia opcji wykrywania możesz użyć interfejsu API setPreferredHardwareConfigs
, aby kontrolować wybór sprzętu. Domyślnie wszystkie konfiguracje sprzętu są ustawione jako preferowane.
ML Kit bierze pod uwagę dostępność, stabilność, prawidłowość i czas oczekiwania każdej konfiguracji i wybiera najlepszą z nich spośród preferowanych konfiguracji. Jeśli nie ma zastosowania żadna z konfiguracji preferowanych, konfiguracja CPU
zostanie automatycznie użyta jako opcja zastępcza. ML Kit wykonuje te testy i powiązane przygotowania w sposób nieblokujący przed włączeniem akceleracji, więc najprawdopodobniej przy pierwszym uruchomieniu detektora użytkownik użyje CPU
. Gdy wszystkie przygotowania się zakończą, w kolejnych uruchomieniach zostanie użyta najlepsza konfiguracja.
Przykład użycia setPreferredHardwareConfigs
:
- Aby umożliwić ML Kit wybór najlepszej konfiguracji, nie wywoływaj tego interfejsu API.
- Jeśli nie chcesz włączać żadnego przyspieszenia, podaj tylko
CPU
. - Jeśli chcesz używać GPU do odciążania procesora, nawet jeśli GPU może działać wolniej, przekaż tylko
CPU_GPU
.
Określ opcje wykrywania pozycji:
Kotlin
// Base pose detector with streaming frames, when depending on the pose-detection sdk val options = PoseDetectorOptions.Builder() .setDetectorMode(PoseDetectorOptions.STREAM_MODE) .build() // Accurate pose detector on static images, when depending on the pose-detection-accurate sdk val options = AccuratePoseDetectorOptions.Builder() .setDetectorMode(AccuratePoseDetectorOptions.SINGLE_IMAGE_MODE) .build()
Java
// Base pose detector with streaming frames, when depending on the pose-detection sdk PoseDetectorOptions options = new PoseDetectorOptions.Builder() .setDetectorMode(PoseDetectorOptions.STREAM_MODE) .build(); // Accurate pose detector on static images, when depending on the pose-detection-accurate sdk AccuratePoseDetectorOptions options = new AccuratePoseDetectorOptions.Builder() .setDetectorMode(AccuratePoseDetectorOptions.SINGLE_IMAGE_MODE) .build();
Na koniec utwórz instancję PoseDetector
. Prześlij określone opcje:
Kotlin
val poseDetector = PoseDetection.getClient(options)
Java
PoseDetector poseDetector = PoseDetection.getClient(options);
2. Przygotowywanie obrazu wejściowego
Aby wykrywać pozy na obrazie, utwórz obiekt InputImage
na podstawie Bitmap
, media.Image
, ByteBuffer
, tablicy bajtów lub pliku na urządzeniu. Następnie przekaż obiekt InputImage
do PoseDetector
.
Do wykrywania pozycji należy użyć obrazu o wymiarach co najmniej 480 x 360 pikseli. Jeśli wykrywasz pozycje w czasie rzeczywistym, rejestrowanie klatek przy minimalnej rozdzielczości może pomóc zmniejszyć opóźnienie.
Obiekt InputImage
możesz utworzyć z różnych źródeł. Poniżej znajdziesz opis każdego z nich.
Korzystanie z: media.Image
Aby utworzyć obiekt InputImage
na podstawie obiektu media.Image
, na przykład podczas rejestrowania obrazu aparatem urządzenia, przekaż obiekt media.Image
i obrót obrazu do InputImage.fromMediaImage()
.
Jeśli używasz biblioteki
AparatuX, klasy OnImageCapturedListener
i ImageAnalysis.Analyzer
obliczają wartość obrotu za Ciebie.
Kotlin
private class YourImageAnalyzer : ImageAnalysis.Analyzer { override fun analyze(imageProxy: ImageProxy) { val mediaImage = imageProxy.image if (mediaImage != null) { val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees) // Pass image to an ML Kit Vision API // ... } } }
Java
private class YourAnalyzer implements ImageAnalysis.Analyzer { @Override public void analyze(ImageProxy imageProxy) { Image mediaImage = imageProxy.getImage(); if (mediaImage != null) { InputImage image = InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees()); // Pass image to an ML Kit Vision API // ... } } }
Jeśli nie korzystasz z biblioteki aparatu, która określa stopień obrotu obrazu, możesz go obliczyć na podstawie stopnia obrotu urządzenia i orientacji czujnika aparatu w urządzeniu:
Kotlin
private val ORIENTATIONS = SparseIntArray() init { ORIENTATIONS.append(Surface.ROTATION_0, 0) ORIENTATIONS.append(Surface.ROTATION_90, 90) ORIENTATIONS.append(Surface.ROTATION_180, 180) ORIENTATIONS.append(Surface.ROTATION_270, 270) } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) @Throws(CameraAccessException::class) private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. val deviceRotation = activity.windowManager.defaultDisplay.rotation var rotationCompensation = ORIENTATIONS.get(deviceRotation) // Get the device's sensor orientation. val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager val sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION)!! if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360 } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360 } return rotationCompensation }
Java
private static final SparseIntArray ORIENTATIONS = new SparseIntArray(); static { ORIENTATIONS.append(Surface.ROTATION_0, 0); ORIENTATIONS.append(Surface.ROTATION_90, 90); ORIENTATIONS.append(Surface.ROTATION_180, 180); ORIENTATIONS.append(Surface.ROTATION_270, 270); } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing) throws CameraAccessException { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation(); int rotationCompensation = ORIENTATIONS.get(deviceRotation); // Get the device's sensor orientation. CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE); int sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION); if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360; } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360; } return rotationCompensation; }
Następnie przekaż obiekt media.Image
i wartość stopnia obrotu do InputImage.fromMediaImage()
:
Kotlin
val image = InputImage.fromMediaImage(mediaImage, rotation)
Java
InputImage image = InputImage.fromMediaImage(mediaImage, rotation);
Za pomocą identyfikatora URI pliku
Aby utworzyć obiekt InputImage
na podstawie identyfikatora URI pliku, przekaż do InputImage.fromFilePath()
kontekst aplikacji i identyfikator URI pliku. Jest to przydatne, gdy używasz intencji ACTION_GET_CONTENT
, aby zachęcić użytkownika do wybrania obrazu z aplikacji galerii.
Kotlin
val image: InputImage try { image = InputImage.fromFilePath(context, uri) } catch (e: IOException) { e.printStackTrace() }
Java
InputImage image; try { image = InputImage.fromFilePath(context, uri); } catch (IOException e) { e.printStackTrace(); }
Przy użyciu: ByteBuffer
lub ByteArray
Aby utworzyć obiekt InputImage
na podstawie ByteBuffer
lub ByteArray
, najpierw oblicz stopień obrotu obrazu zgodnie z wcześniejszym opisem dla danych wejściowych media.Image
.
Następnie utwórz obiekt InputImage
z buforem lub tablicą i podaj wysokość, szerokość, format kodowania kolorów i stopień obrotu:
Kotlin
val image = InputImage.fromByteBuffer( byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ) // Or: val image = InputImage.fromByteArray( byteArray, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 )
Java
InputImage image = InputImage.fromByteBuffer(byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ); // Or: InputImage image = InputImage.fromByteArray( byteArray, /* image width */480, /* image height */360, rotation, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 );
Korzystanie z: Bitmap
Aby utworzyć obiekt InputImage
z obiektu Bitmap
, wypełnij tę deklarację:
Kotlin
val image = InputImage.fromBitmap(bitmap, 0)
Java
InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);
Obraz jest reprezentowany przez obiekt Bitmap
wraz z informacją o obróceniu w stopniach.
3. Przetwarzanie obrazu
Przekaż przygotowany obiekt InputImage
do metody process
interfejsu PoseDetector
.
Kotlin
Task<Pose> result = poseDetector.process(image) .addOnSuccessListener { results -> // Task completed successfully // ... } .addOnFailureListener { e -> // Task failed with an exception // ... }
Java
Task<Pose> result = poseDetector.process(image) .addOnSuccessListener( new OnSuccessListener<Pose>() { @Override public void onSuccess(Pose pose) { // Task completed successfully // ... } }) .addOnFailureListener( new OnFailureListener() { @Override public void onFailure(@NonNull Exception e) { // Task failed with an exception // ... } });
4. Uzyskaj informacje o wykrytej pozycji
Jeśli na zdjęciu zostanie wykryta osoba, interfejs API do wykrywania pozycji zwraca obiekt Pose
z 33 elementami PoseLandmark
.
Jeśli człowiek nie znalazł się w całości na zdjęciu, model przypisuje brakujące współrzędne punktów poza klatką i przypisuje mu niskie wartości InFrameConfidence.
Jeśli w ramce nie wykryto żadnej osoby, obiekt Pose
nie zawiera żadnych elementów PoseLandmark
.
Kotlin
// Get all PoseLandmarks. If no person was detected, the list will be empty val allPoseLandmarks = pose.getAllPoseLandmarks() // Or get specific PoseLandmarks individually. These will all be null if no person // was detected val leftShoulder = pose.getPoseLandmark(PoseLandmark.LEFT_SHOULDER) val rightShoulder = pose.getPoseLandmark(PoseLandmark.RIGHT_SHOULDER) val leftElbow = pose.getPoseLandmark(PoseLandmark.LEFT_ELBOW) val rightElbow = pose.getPoseLandmark(PoseLandmark.RIGHT_ELBOW) val leftWrist = pose.getPoseLandmark(PoseLandmark.LEFT_WRIST) val rightWrist = pose.getPoseLandmark(PoseLandmark.RIGHT_WRIST) val leftHip = pose.getPoseLandmark(PoseLandmark.LEFT_HIP) val rightHip = pose.getPoseLandmark(PoseLandmark.RIGHT_HIP) val leftKnee = pose.getPoseLandmark(PoseLandmark.LEFT_KNEE) val rightKnee = pose.getPoseLandmark(PoseLandmark.RIGHT_KNEE) val leftAnkle = pose.getPoseLandmark(PoseLandmark.LEFT_ANKLE) val rightAnkle = pose.getPoseLandmark(PoseLandmark.RIGHT_ANKLE) val leftPinky = pose.getPoseLandmark(PoseLandmark.LEFT_PINKY) val rightPinky = pose.getPoseLandmark(PoseLandmark.RIGHT_PINKY) val leftIndex = pose.getPoseLandmark(PoseLandmark.LEFT_INDEX) val rightIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_INDEX) val leftThumb = pose.getPoseLandmark(PoseLandmark.LEFT_THUMB) val rightThumb = pose.getPoseLandmark(PoseLandmark.RIGHT_THUMB) val leftHeel = pose.getPoseLandmark(PoseLandmark.LEFT_HEEL) val rightHeel = pose.getPoseLandmark(PoseLandmark.RIGHT_HEEL) val leftFootIndex = pose.getPoseLandmark(PoseLandmark.LEFT_FOOT_INDEX) val rightFootIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_FOOT_INDEX) val nose = pose.getPoseLandmark(PoseLandmark.NOSE) val leftEyeInner = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_INNER) val leftEye = pose.getPoseLandmark(PoseLandmark.LEFT_EYE) val leftEyeOuter = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_OUTER) val rightEyeInner = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_INNER) val rightEye = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE) val rightEyeOuter = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_OUTER) val leftEar = pose.getPoseLandmark(PoseLandmark.LEFT_EAR) val rightEar = pose.getPoseLandmark(PoseLandmark.RIGHT_EAR) val leftMouth = pose.getPoseLandmark(PoseLandmark.LEFT_MOUTH) val rightMouth = pose.getPoseLandmark(PoseLandmark.RIGHT_MOUTH)
Java
// Get all PoseLandmarks. If no person was detected, the list will be empty List<PoseLandmark> allPoseLandmarks = pose.getAllPoseLandmarks(); // Or get specific PoseLandmarks individually. These will all be null if no person // was detected PoseLandmark leftShoulder = pose.getPoseLandmark(PoseLandmark.LEFT_SHOULDER); PoseLandmark rightShoulder = pose.getPoseLandmark(PoseLandmark.RIGHT_SHOULDER); PoseLandmark leftElbow = pose.getPoseLandmark(PoseLandmark.LEFT_ELBOW); PoseLandmark rightElbow = pose.getPoseLandmark(PoseLandmark.RIGHT_ELBOW); PoseLandmark leftWrist = pose.getPoseLandmark(PoseLandmark.LEFT_WRIST); PoseLandmark rightWrist = pose.getPoseLandmark(PoseLandmark.RIGHT_WRIST); PoseLandmark leftHip = pose.getPoseLandmark(PoseLandmark.LEFT_HIP); PoseLandmark rightHip = pose.getPoseLandmark(PoseLandmark.RIGHT_HIP); PoseLandmark leftKnee = pose.getPoseLandmark(PoseLandmark.LEFT_KNEE); PoseLandmark rightKnee = pose.getPoseLandmark(PoseLandmark.RIGHT_KNEE); PoseLandmark leftAnkle = pose.getPoseLandmark(PoseLandmark.LEFT_ANKLE); PoseLandmark rightAnkle = pose.getPoseLandmark(PoseLandmark.RIGHT_ANKLE); PoseLandmark leftPinky = pose.getPoseLandmark(PoseLandmark.LEFT_PINKY); PoseLandmark rightPinky = pose.getPoseLandmark(PoseLandmark.RIGHT_PINKY); PoseLandmark leftIndex = pose.getPoseLandmark(PoseLandmark.LEFT_INDEX); PoseLandmark rightIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_INDEX); PoseLandmark leftThumb = pose.getPoseLandmark(PoseLandmark.LEFT_THUMB); PoseLandmark rightThumb = pose.getPoseLandmark(PoseLandmark.RIGHT_THUMB); PoseLandmark leftHeel = pose.getPoseLandmark(PoseLandmark.LEFT_HEEL); PoseLandmark rightHeel = pose.getPoseLandmark(PoseLandmark.RIGHT_HEEL); PoseLandmark leftFootIndex = pose.getPoseLandmark(PoseLandmark.LEFT_FOOT_INDEX); PoseLandmark rightFootIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_FOOT_INDEX); PoseLandmark nose = pose.getPoseLandmark(PoseLandmark.NOSE); PoseLandmark leftEyeInner = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_INNER); PoseLandmark leftEye = pose.getPoseLandmark(PoseLandmark.LEFT_EYE); PoseLandmark leftEyeOuter = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_OUTER); PoseLandmark rightEyeInner = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_INNER); PoseLandmark rightEye = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE); PoseLandmark rightEyeOuter = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_OUTER); PoseLandmark leftEar = pose.getPoseLandmark(PoseLandmark.LEFT_EAR); PoseLandmark rightEar = pose.getPoseLandmark(PoseLandmark.RIGHT_EAR); PoseLandmark leftMouth = pose.getPoseLandmark(PoseLandmark.LEFT_MOUTH); PoseLandmark rightMouth = pose.getPoseLandmark(PoseLandmark.RIGHT_MOUTH);
Wskazówki dotyczące poprawy skuteczności
Jakość obrazu zależy od jakości obrazu wejściowego:
- Aby ML Kit mógł dokładnie wykryć pozę, osobę na zdjęciu powinna być reprezentowana przez wystarczającą ilość danych pikseli. Aby uzyskać najlepszą wydajność, obiekt powinien mieć co najmniej 256 x 256 pikseli.
- Jeśli wykryjesz pozę w aplikacji działającej w czasie rzeczywistym, warto też wziąć pod uwagę ogólne wymiary obrazów wejściowych. Mniejsze obrazy mogą być przetwarzane szybciej, więc aby zmniejszyć opóźnienia, rób zdjęcia w mniejszej rozdzielczości, ale pamiętaj o powyższych wymaganiach dotyczących rozdzielczości i upewnij się, że obiekt zajmuje jak najwięcej miejsca na zdjęciu.
- Słaba ostrość obrazu również może mieć wpływ na dokładność. Jeśli wyniki nie są zadowalające, poproś użytkownika o ponowne przechwycenie obrazu.
Jeśli chcesz korzystać z wykrywania pozycji w aplikacjach w czasie rzeczywistym, postępuj zgodnie z tymi wskazówkami, aby uzyskać najlepszą liczbę klatek na sekundę:
- Użyj pakietu SDK do wykrywania pozycji podstawowej oraz pakietu
STREAM_MODE
. - Rozważ robienie zdjęć w niższej rozdzielczości. Pamiętaj jednak o wymaganiach tego interfejsu API dotyczących wymiarów zdjęć.
- Jeśli używasz interfejsu API
Camera
lubcamera2
, ograniczaj wywołania detektora. Jeśli podczas działania detektora pojawi się nowa klatka wideo, upuść ją. Przykład znajdziesz w klasieVisionProcessorBase
w przykładowej aplikacji z krótkim wprowadzeniem. - Jeśli używasz interfejsu API
CameraX
, upewnij się, że strategia obciążenia zwrotnego jest ustawiona na wartość domyślnąImageAnalysis.STRATEGY_KEEP_ONLY_LATEST
. Gwarantuje to, że do analizy zostanie dostarczony tylko 1 obraz naraz. Jeśli zostanie utworzonych więcej obrazów, gdy analizator jest zajęty, zostaną one automatycznie usunięte i nie trafią do kolejki dostarczania. Gdy analizowany obraz zostanie zamknięty przez wywołanie metody ImageProxy.close(), zostanie wyświetlony następny najnowszy obraz. - Jeśli używasz danych wyjściowych detektora do nakładania grafiki na obraz wejściowy, najpierw pobierz wynik z ML Kit, a potem wyrenderuj obraz i nakładkę w jednym kroku. Powoduje to renderowanie na powierzchni wyświetlania tylko raz na każdą klatkę wejściową. Przykład znajdziesz w klasach
CameraSourcePreview
iGraphicOverlay
w przykładowej aplikacji z krótkim wprowadzeniem. - Jeśli używasz interfejsu Camera2 API, rób zdjęcia w formacie
ImageFormat.YUV_420_888
. Jeśli używasz starszej wersji interfejsu Camera API, rób zdjęcia w formacieImageFormat.NV21
.
Dalsze kroki
- Aby dowiedzieć się, jak używać punktów orientacyjnych do klasyfikowania póz, przeczytaj Wskazówki dotyczące klasyfikacji pozycji.