Dodawanie etykiet do obrazów

Interfejsy API ML Kit do etykietowania obrazów umożliwiają wykrywanie i wyodrębnianie informacji o obiektach na obrazie w szerokim zakresie kategorii. Domyślny model etykietowania obrazów może identyfikować ogólne obiekty, miejsca, aktywności, gatunki zwierząt, produkty i inne elementy.

Możesz też użyć niestandardowego modelu klasyfikacji obrazów, aby dostosować wykrywanie do konkretnego zastosowania. Więcej informacji znajdziesz w artykule Korzystanie z niestandardowego modelu LiteRT.

Najważniejsze funkcje

  • Zaawansowany klasyfikator ogólnego przeznaczenia Rozpoznaje ponad 400 kategorii opisujących najczęściej występujące obiekty na zdjęciach.
  • Dostosowywanie do konkretnego przypadku użycia za pomocą modeli niestandardowych Używaj innych wstępnie wytrenowanych modeli z TensorFlow Hub lub własnego modelu niestandardowego wytrenowanego za pomocą TensorFlow, AutoML lub LiteRT.
  • Łatwe w użyciu interfejsy API wysokiego poziomu Nie musisz zajmować się danymi wejściowymi i wyjściowymi modelu niskiego poziomu, wstępnym i końcowym przetwarzaniem obrazów ani tworzeniem potoku przetwarzania. ML Kit wyodrębnia etykiety z modelu LiteRT i udostępnia je w postaci opisu tekstowego.

Pamiętaj, że to interfejs API jest przeznaczony dla modeli klasyfikacji obrazów, które opisują cały obraz. Jeśli chcesz klasyfikować jeden lub więcej obiektów na obrazie, np. buty lub meble, lepszym rozwiązaniem może być interfejs Object Detection & Tracking API.

Obsługiwane modele klasyfikacji obrazów

Interfejsy API do etykietowania obrazów obsługują różne modele klasyfikacji obrazów:

Obsługiwane modele klasyfikacji obrazów
Model podstawowy Domyślnie interfejs API używa zaawansowanego modelu etykietowania obrazów do zwykłych obciążeń, który rozpoznaje ponad 400 obiektów obejmujących najczęściej występujące elementy na zdjęciach.
Modele Custom LiteRT Aby kierować reklamy na pojęcia związane z konkretną aplikacją, interfejs API akceptuje niestandardowe modele klasyfikacji obrazów z różnych źródeł. Mogą to być wstępnie wytrenowane modele pobrane z TensorFlow Hub lub Twoje własne modele wytrenowane za pomocą AutoML, LiteRT lub samego TensorFlow. Modele można dołączyć do aplikacji lub hostować w Cloud Storage i pobierać w czasie działania.

Korzystanie z modelu podstawowego

Model podstawowy ML Kit zwraca listę jednostek, które identyfikują osoby, rzeczy, miejsca, działania itp. Każda jednostka ma przypisany wynik, który wskazuje, jak bardzo model ML jest pewny jej trafności. Dzięki tym informacjom możesz wykonywać zadania takie jak automatyczne generowanie metadanych i moderowanie treści. Domyślny model dostarczany z ML Kit rozpoznaje ponad 400 różnych jednostek.

iOS Android

Przykładowe etykiety

Model podstawowy w interfejsie Image Labeling API obsługuje ponad 400 etykiet, np.:

KategoriaPrzykładowe etykiety
Osoby Crowd
Selfie
Smile
Działania Dancing
Eating
Surfing
Rzeczy Car
Piano
Receipt
Zwierzęta Bird
Cat
Dog
Rośliny Flower
Fruit
Vegetable
Miejsca Beach
Lake
Mountain

Przykładowe wyniki

Oto przykład elementów rozpoznanych na załączonym zdjęciu.

Zdjęcie: Clément Bucco-Lechat / Wikimedia Commons / CC BY-SA 3.0
Etykieta 0
Text Stadion
Poufność 0,9205354
Etykieta 1
Text Sport
Poufność 0,7531109
Etykieta 2
Text Zdarzenie
Poufność 0,66905296
Etykieta 3
Text Rozrywka
Poufność 0,59904146
Etykieta 4
Text Piłka nożna
Poufność 0,56384534
Etykieta 5
Text Netto
Poufność 0,54679185
Etykieta 6
Text Roślina
Poufność 0,524364

Korzystanie z niestandardowego modelu LiteRT

Podstawowy model etykietowania obrazów ML Kit jest przeznaczony do zwykłych obciążeń. Jest ona wytrenowana w zakresie rozpoznawania 400 kategorii opisujących najczęściej występujące obiekty na zdjęciach. Aplikacja może potrzebować specjalistycznego modelu klasyfikacji obrazów, który rozpoznaje mniejszą liczbę kategorii, ale bardziej szczegółowo, np. model, który rozróżnia gatunki kwiatów lub rodzaje żywności.

Ten interfejs API umożliwia dostosowywanie do konkretnego przypadku użycia dzięki obsłudze niestandardowych modeli klasyfikacji obrazów z szerokiej gamy źródeł. Więcej informacji znajdziesz w artykule Modele niestandardowe w ML Kit. Modele niestandardowe można dołączyć do aplikacji lub pobrać dynamicznie z Cloud Storage.

iOS Android

Przetwarzanie wstępne obrazu wejściowego

W razie potrzeby usługa Image Labeling używa dwuliniowego skalowania i rozciągania obrazu, aby dostosować rozmiar i format obrazu wejściowego do wymagań modelu bazowego.