Bildbeschriftung

Mit den Bildlabeling-APIs von ML Kit können Sie Informationen zu Entitäten unterschiedlichster Kategorien in einem Bild erkennen und extrahieren. Das Standardmodell für das Bildlabeling kann allgemeine Objekte, Orte, Aktivitäten, Tierarten, Produkte und vieles mehr identifizieren.

Sie können auch ein benutzerdefiniertes Bildklassifizierungsmodell verwenden, um die Erkennung an einen bestimmten Anwendungsfall anzupassen. Weitere Informationen finden Sie unter Benutzerdefiniertes LiteRT-Modell verwenden.

Hauptmerkmale

  • Leistungsstarker Klassifikator für allgemeine Zwecke: Erkennt mehr als 400 Kategorien, die die am häufigsten in Fotos gefundenen Objekte beschreiben.
  • Mit benutzerdefinierten Modellen an Ihren Anwendungsfall anpassen : Verwenden Sie andere vortrainierte Modelle aus TensorFlow Hub oder Ihr eigenes benutzerdefiniertes Modell, das mit TensorFlow, AutoML oder LiteRT trainiert wurde.
  • Einfach zu verwendende APIs auf hoher Ebene : Sie müssen sich nicht mit der Ein- und Ausgabe von Modellen auf niedriger Ebene, der Vor- und Nachverarbeitung von Bildern oder dem Erstellen einer Verarbeitungspipeline befassen. ML Kit extrahiert die Labels aus dem LiteRT-Modell und stellt sie als Textbeschreibung bereit.

Diese API ist für Bildklassifizierungsmodelle vorgesehen, die das gesamte Bild beschreiben. Wenn Sie ein oder mehrere Objekte in einem Bild klassifizieren möchten, z. B. Schuhe oder Möbelstücke, ist die API für Objekterkennung und ‑tracking möglicherweise besser geeignet.

Unterstützte Bildklassifizierungsmodelle

Die Bildlabeling-APIs unterstützen verschiedene Bildklassifizierungsmodelle:

Unterstützte Bildklassifizierungsmodelle
Basismodell Standardmäßig verwendet die API ein leistungsstarkes Modell für die Bilderkennung für allgemeine Zwecke, das mehr als 400 Entitäten erkennt, die die am häufigsten in Fotos gefundenen Konzepte abdecken.
Benutzerdefinierte LiteRT-Modelle Um anwendungsspezifische Konzepte zu berücksichtigen, akzeptiert die API benutzerdefinierte Bildklassifizierungsmodelle aus einer Vielzahl von Quellen. Dabei kann es sich um vortrainierte Modelle handeln, die aus TensorFlow Hub heruntergeladen wurden, oder um Ihre eigenen Modelle, die mit AutoML, LiteRT oder TensorFlow selbst trainiert wurden. Modelle können mit Ihrer App gebündelt oder in Cloud Storage gehostet und zur Laufzeit heruntergeladen werden.

Basismodell verwenden

Das Basismodell von ML Kit gibt eine Liste von Entitäten zurück, die Personen, Dinge, Orte, Aktivitäten usw. identifizieren. Jeder Entität ist ein Wert zugeordnet, der die Zuverlässigkeit des ML-Modells in Bezug auf die Relevanz angibt. Mit diesen Informationen können Sie Aufgaben wie die automatische Metadatengenerierung und die Inhaltsmoderation ausführen. Das Standardmodell von ML Kit erkennt mehr als 400 verschiedene Entitäten.

iOS Android

Beispiellabels

Das Basismodell in der Bildlabeling-API unterstützt mehr als 400 Labels, z. B. die folgenden:

KategorieBeispiellabels
Personen Crowd
Selfie
Smile
Aktivitäten Dancing
Eating
Surfing
Dinge Car
Piano
Receipt
Tiere Bird
Cat
Dog
Pflanzen Flower
Fruit
Vegetable
Orte Beach
Lake
Mountain

Beispielergebnisse

Hier ein Beispiel für die Entitäten, die auf dem begleitenden Foto erkannt wurden.

Foto: Clément Bucco-Lechat / Wikimedia Commons / CC BY-SA 3.0
Label 0
Text Stadion
Konfidenz 0.9205354
Label 1
Text Sport
Konfidenz 0.7531109
Label 2
Text Ereignis
Konfidenz 0.66905296
Label 3
Text Freizeit
Konfidenz 0.59904146
Label 4
Text Fußball
Konfidenz 0.56384534
Label 5
Text Netto
Konfidenz 0.54679185
Label 6
Text Pflanze
Konfidenz 0.524364

Benutzerdefiniertes LiteRT-Modell verwenden

Das Basismodell für das Bildlabeling von ML Kit ist für allgemeine Zwecke konzipiert. Es wurde trainiert, um 400 Kategorien zu erkennen, die die am häufigsten in Fotos gefundenen Objekte beschreiben. Ihre App benötigt möglicherweise ein spezielles Bildklassifizierungsmodell, das eine kleinere Anzahl von Kategorien detaillierter erkennt, z. B. ein Modell, das zwischen Blumenarten oder Arten von Lebensmitteln unterscheidet.

Mit dieser API können Sie die Erkennung an einen bestimmten Anwendungsfall anpassen, indem Sie benutzerdefinierte Bildklassifizierungsmodelle aus einer Vielzahl von Quellen verwenden. Weitere Informationen finden Sie unter Benutzerdefinierte Modelle mit ML Kit. Benutzerdefinierte Modelle können mit Ihrer App gebündelt oder dynamisch aus Cloud Storage heruntergeladen werden.

iOS Android

Vorverarbeitung von Eingabebildern

Bei Bedarf verwendet das Bildlabeling die bilineare Bildskalierung und ‑streckung, um die Bildgröße und das Seitenverhältnis des Eingabebildes so anzupassen, dass sie den Anforderungen des zugrunde liegenden Modells entsprechen.