Objekterkennung und -tracking

Mit der On-Device-Objekterkennungs- und -Tracking-API von ML Kit können Sie Objekte in einem Bild- oder Live-Kamerafeed erkennen und verfolgen.

Optional können Sie erkannte Objekte klassifizieren, entweder mit dem in der API integrierten groben Klassifikator oder mit Ihrem eigenen benutzerdefinierten Bildklassifizierungsmodell. Weitere Informationen finden Sie unter Benutzerdefiniertes TensorFlow Lite-Modell verwenden.

Da die Objekterkennung und -verfolgung auf dem Gerät erfolgt, funktioniert sie gut als Front-End der visuellen Suchpipeline. Nachdem Sie Objekte erkannt und gefiltert haben, können Sie sie an ein Cloud-Back-End wie die Cloud Vision-Produktsuche übergeben.

iOS Android

Hauptmerkmale

  • Schnelle Objekterkennung und -verfolgung Erkennt Objekte und zeigt ihre Position im Bild an. Sie können Objekte in mehreren aufeinanderfolgenden Frames verfolgen.
  • Optimiertes On-Device-Modell Das Objekterkennungs- und -Tracking-Modell ist für Mobilgeräte optimiert und für den Einsatz in Echtzeit-Apps bestimmt, selbst auf Low-End-Geräten.
  • Auffällige Objekterkennung Sie können automatisch das auffälligste Objekt in einem Bild ermitteln.
  • Grobe Klassifizierung Sie können Objekte in weit gefasste Kategorien klassifizieren, mit denen sich Objekte herausfiltern lassen, die Sie nicht interessieren. Die folgenden Kategorien werden unterstützt: Haushaltswaren, Modeartikel, Lebensmittel, Pflanzen und Orte.
  • Klassifizierung mit einem benutzerdefinierten Modell Verwenden Sie Ihr eigenes benutzerdefiniertes Bildklassifizierungsmodell, um bestimmte Objektkategorien zu identifizieren oder zu filtern. Verbessern Sie die Leistung Ihres benutzerdefinierten Modells, indem Sie den Hintergrund des Bilds weglassen.

Beispielergebnisse

Das auffälligste Objekt auf den Bildern verfolgen

Das folgende Beispiel zeigt die Tracking-Daten aus drei aufeinanderfolgenden Frames mit dem von ML Kit bereitgestellten standardmäßigen groben Klassifikator.

Tracking-ID 0
Grenzwerte (95, 45), (496, 45), (496, 240), (95, 240)
Kategorie ORT
Klassifizierungskonfidenz 0,9296875
Tracking-ID 0
Grenzwerte (84, 46), (478, 46), (478, 247), (84, 247)
Kategorie ORT
Klassifizierungskonfidenz 0,8710938
Tracking-ID 0
Grenzwerte (53, 45), (519, 45), (519, 240), (53, 240)
Kategorie ORT
Klassifizierungskonfidenz 0,8828125

Foto: Christian Ferrer [CC BY-SA 4.0]

Mehrere Objekte in einem statischen Bild

Das folgende Beispiel zeigt die Daten für die vier im Bild erkannten Objekte mit dem von ML Kit bereitgestellten standardmäßigen groben Klassifikator.

Objekt 0
Grenzwerte (1, 97), (332, 97), (332, 332), (1, 332)
Kategorie FASHION_GOOD
Klassifizierungskonfidenz 0,95703125
Object 1
Grenzwerte (186, 80), (337, 80), (337, 226), (186, 226)
Kategorie FASHION_GOOD
Klassifizierungskonfidenz 0,84375
Object 2
Grenzwerte (296, 80), (472, 80), (472, 388), (296, 388)
Kategorie FASHION_GOOD
Klassifizierungskonfidenz 0,94921875
Object 3
Grenzwerte (439, 83), (615, 83), (615, 306), (439, 306)
Kategorie FASHION_GOOD
Klassifizierungskonfidenz 0,9375

Benutzerdefiniertes TensorFlow Lite-Modell verwenden

Der standardmäßige grobe Klassifikator wird für fünf Kategorien erstellt und liefert begrenzte Informationen zu den erkannten Objekten. Möglicherweise benötigen Sie ein spezialisierteres Klassifizierungsmodell, das einen engeren Bereich von Konzepten im Detail abdeckt, z. B. ein Modell, um zwischen Blumenarten oder Lebensmittelarten zu unterscheiden.

Mit dieser API können Sie Anpassungen an einen bestimmten Anwendungsfall vornehmen, indem Sie benutzerdefinierte Bildklassifizierungsmodelle aus einer Vielzahl von Quellen unterstützen. Weitere Informationen finden Sie unter Benutzerdefinierte Modelle mit ML Kit. Benutzerdefinierte Modelle können mit Ihrer Anwendung gebündelt oder mithilfe des Modellbereitstellungsdienstes von Firebase Machine Learning dynamisch aus der Cloud heruntergeladen werden.

iOS Android

Bildvorverarbeitung der Eingabe

Bei Bedarf werden für die Objekterkennung und das Objekt-Tracking bilineare Bildskalierung und -Stretchung verwendet, um die Größe und das Seitenverhältnis des Eingabebilds so anzupassen, dass sie den Anforderungen des zugrunde liegenden Modells entsprechen.