Dzięki dostępnym na urządzeniu interfejsowi API do wykrywania i śledzenia obiektów w ML Kit możesz wykrywać i śledzić obiekty na obrazie lub w transmisji na żywo z kamery.
Opcjonalnie możesz klasyfikować wykryte obiekty, korzystając z wbudowanego w interfejs API przybliżonego klasyfikatora lub z własnego niestandardowego modelu klasyfikacji obrazów. Więcej informacji znajdziesz w artykule Używanie niestandardowego modelu TensorFlow Lite.
Wykrywanie i śledzenie obiektów odbywa się na urządzeniu, dlatego działa również w interfejsie potoku wyszukiwania wizualnego. Po wykryciu i odfiltrowaniu obiektów możesz przekazać je do backendu w chmurze, na przykład do wyszukiwarki produktów Cloud Vision.
Najważniejsze funkcje
- Szybkie wykrywanie i śledzenie obiektów Wykrywaj obiekty i określaj ich lokalizację na obrazie. Śledzenie obiektów w kolejnych klatkach obrazu.
- Zoptymalizowany model na urządzeniu Model wykrywania i śledzenia obiektów jest zoptymalizowany pod kątem urządzeń mobilnych i może być używany w aplikacjach w czasie rzeczywistym, nawet na słabszych urządzeniach.
- Wykrywanie widocznych obiektów Automatyczne określenie najbardziej widocznego obiektu na zdjęciu.
- Klasyfikacja przybliżona Klasyfikuj obiekty w szerokich kategoriach, dzięki którym można odfiltrowywać obiekty, które Cię nie interesują. Obsługujemy te kategorie: artykuły gospodarstwa domowego, odzież, żywność, rośliny i miejsca.
- Klasyfikacja z użyciem modelu niestandardowego Użyj własnego modelu klasyfikacji obrazów do identyfikowania i filtrowania konkretnych kategorii obiektów. Aby Twój model niestandardowy działał lepiej, pomijaj tło obrazu.
Przykładowe wyniki
Śledzenie najbardziej widocznego obiektu na obrazach
Przykład poniżej pokazuje dane śledzenia z 3 kolejnych ramek z domyślnym klasyfikatorem przybliżonym udostępnionym przez ML Kit.
|
|||||||||
|
|||||||||
|
Zdjęcie: Christian Ferrer [CC BY-SA 4.0]
Wiele obiektów na obrazie statycznym
Przykład poniżej pokazuje dane dotyczące 4 obiektów wykrytych na obrazie za pomocą domyślnego klasyfikatora przybliżonego udostępnionego przez ML Kit.
Obiekt 0 | |
---|---|
Ograniczenia | (1, 97), (332, 97), (332, 332), (1, 332) |
Kategoria | FASHION_GOOD |
Poziom ufności klasyfikacji | 0,95703125 |
Obiekt 1 | |
Ograniczenia | (186, 80), (337, 80), (337, 226), (186, 226) |
Kategoria | FASHION_GOOD |
Poziom ufności klasyfikacji | 0,84375 |
Obiekt 2 | |
Ograniczenia | (296, 80), (472, 80), (472, 388), (296, 388) |
Kategoria | FASHION_GOOD |
Poziom ufności klasyfikacji | 0,94921875 |
Obiekt 3 | |
Ograniczenia | (439, 83), (615, 83), (615, 306), (439, 306) |
Kategoria | FASHION_GOOD |
Poziom ufności klasyfikacji | 0,9375 |
Używanie niestandardowego modelu TensorFlow Lite
Domyślny klasyfikator przybliżony jest oparty na 5 kategoriach i dostarcza ograniczone informacje o wykrytych obiektach. Może być potrzebny bardziej wyspecjalizowany model klasyfikujący, który dokładniej obejmuje węższą domenę pojęć, na przykład model do rozróżniania gatunków kwiatów lub rodzajów żywności.
Ten interfejs API umożliwia dostosowanie do konkretnego przypadku użycia dzięki obsłudze niestandardowych modeli klasyfikacji obrazów pochodzących z wielu źródeł. Więcej informacji znajdziesz w artykule Modele niestandardowe z użyciem ML Kit. Modele niestandardowe można połączyć w pakiet z aplikacją lub dynamicznie pobierać z chmury za pomocą usługi wdrażania modeli w Firebase Machine Learning.
Wstępne przetwarzanie obrazu wejściowego
W razie potrzeby wykrywanie i śledzenie obiektów wykorzystuje dwukierunkowe skalowanie obrazu i rozciąganie w celu dostosowania rozmiaru i współczynnika proporcji obrazu wejściowego, tak aby pasował do wymagań modelu bazowego.