Objekterkennung und -tracking

Mit der On-Device-API zur Objekterkennung und zum Objekt-Tracking von ML Kit können Sie Objekte in einem Bild oder Live-Kamerabild erkennen und verfolgen.

Optional können Sie erkannte Objekte klassifizieren. Dazu können Sie entweder den in die API integrierten groben Klassifikator oder Ihr eigenes benutzerdefiniertes Bildklassifizierungsmodell verwenden. Weitere Informationen finden Sie unter Benutzerdefiniertes LiteRT-Modell verwenden.

Da die Objekterkennung und das Tracking auf dem Gerät erfolgen, eignet sich die Funktion gut als Frontend der visuellen Suchpipeline. Nachdem Sie Objekte erkannt und gefiltert haben, können Sie sie an ein Cloud-Backend wie die Cloud Vision-Produktsuche übergeben.

iOS Android

Hauptmerkmale

  • Schnelle Objekterkennung und ‑verfolgung Objekte erkennen und ihre Positionen im Bild abrufen. Objekte in aufeinanderfolgenden Bildern verfolgen.
  • Für das Gerät optimiertes Modell Das Modell zur Objekterkennung und zum Objekt-Tracking ist für Mobilgeräte optimiert und für die Verwendung in Echtzeitanwendungen vorgesehen, auch auf Geräten der unteren Preisklasse.
  • Prominente Objekterkennung Das prominenteste Objekt in einem Bild wird automatisch ermittelt.
  • Grobe Klassifizierung Objekte in allgemeine Kategorien einteilen, mit denen Sie Objekte herausfiltern können, die Sie nicht interessieren. Die folgenden Kategorien werden unterstützt: Haushaltswaren, Modeartikel, Lebensmittel, Pflanzen und Orte.
  • Klassifizierung mit einem benutzerdefinierten Modell Verwenden Sie Ihr eigenes benutzerdefiniertes Bildklassifizierungsmodell, um bestimmte Objektkategorien zu identifizieren oder zu filtern. Sie können die Leistung Ihres benutzerdefinierten Modells verbessern, indem Sie den Hintergrund des Bildes weglassen.

Beispielergebnisse

Das wichtigste Objekt in Bildern verfolgen

Im folgenden Beispiel sehen Sie die Tracking-Daten aus drei aufeinanderfolgenden Frames mit dem standardmäßigen groben Klassifikator von ML Kit.

Tracking-ID 0
Grenzwerte (95, 45), (496, 45), (496, 240), (95, 240)
Kategorie PLACE
Konfidenz bei der Klassifizierung 0,9296875
Tracking-ID 0
Grenzwerte (84, 46), (478, 46), (478, 247), (84, 247)
Kategorie PLACE
Konfidenz bei der Klassifizierung 0,8710938
Tracking-ID 0
Grenzwerte (53, 45), (519, 45), (519, 240), (53, 240)
Kategorie PLACE
Konfidenz bei der Klassifizierung 0,8828125

Foto: Christian Ferrer [CC BY-SA 4.0]

Mehrere Objekte in einem statischen Bild

Im folgenden Beispiel sehen Sie die Daten für die vier Objekte, die im Bild mit dem standardmäßigen groben Klassifikator von ML Kit erkannt wurden.

Schuhe

Objekt 0
Grenzwerte (1, 97), (332, 97), (332, 332), (1, 332)
Kategorie FASHION_GOOD
Konfidenz bei der Klassifizierung 0,95703125
Objekt 1
Grenzwerte (186, 80), (337, 80), (337, 226), (186, 226)
Kategorie FASHION_GOOD
Konfidenz bei der Klassifizierung 0,84375
Object 2
Grenzwerte (296, 80), (472, 80), (472, 388), (296, 388)
Kategorie FASHION_GOOD
Konfidenz bei der Klassifizierung 0,94921875
Object 3
Grenzwerte (439, 83), (615, 83), (615, 306), (439, 306)
Kategorie FASHION_GOOD
Konfidenz bei der Klassifizierung 0,9375

Benutzerdefiniertes LiteRT-Modell verwenden

Der standardmäßige grobe Klassifikator ist für fünf Kategorien konzipiert und liefert nur begrenzte Informationen zu den erkannten Objekten. Möglicherweise benötigen Sie ein spezialisierteres Klassifikatormodell, das einen engeren Bereich von Konzepten detaillierter abdeckt, z. B. ein Modell zur Unterscheidung zwischen Blumenarten oder Lebensmitteltypen.

Mit dieser API können Sie ein bestimmtes Anwendungsbeispiel anpassen, indem Sie benutzerdefinierte Bildklassifizierungsmodelle aus einer Vielzahl von Quellen unterstützen. Weitere Informationen finden Sie unter Benutzerdefinierte Modelle mit ML Kit. Benutzerdefinierte Modelle können mit Ihrer App gebündelt oder dynamisch aus Cloud Storage heruntergeladen werden.

iOS Android

Vorverarbeitung von Eingabebildern

Bei Bedarf werden für die Objekterkennung und ‑verfolgung die Bildgröße und das Seitenverhältnis des Eingabebilds mithilfe von bilinearer Bildskalierung und ‑streckung an die Anforderungen des zugrunde liegenden Modells angepasst.