Wykrywanie i śledzenie obiektów

Interfejs ML Kit do wykrywania i śledzenia obiektów na urządzeniu umożliwia wykrywanie i śledzenie obiektów w obrazie lub na żywo obrazu z kamery.

Opcjonalnie możesz sklasyfikować wykryte obiekty za pomocą prostego klasyfikatora wbudowanego w interfejs API lub własnego modelu klasyfikacji obrazów. Więcej informacji znajdziesz w artykule o używaniu niestandardowego modelu TensorFlow Lite.

Ponieważ wykrywanie i śledzenie obiektów odbywa się na urządzeniu, działa ono dobrze tylko jako interfejs wizualnego potoku wyszukiwania. Po wykryciu i odfiltrowaniu obiektów możesz przekazać je do backendu Cloud, takiego jak Cloud Vision Product Search.

iOS Android

Kluczowe funkcje

  • Szybkie wykrywanie i śledzenie obiektów Wykrywaj obiekty i pobieraj ich lokalizacje na zdjęciu. Śledź obiekty w kolejnych obrazach.
  • Zoptymalizowany model na urządzeniu Model wykrywania i śledzenia obiektów jest zoptymalizowany pod kątem urządzeń mobilnych i należy go używać w aplikacjach w czasie rzeczywistym, nawet na urządzeniach z niższej półki.
  • Wykrywanie widocznych obiektów Automatycznie określa najbardziej widoczny obiekt na obrazie.
  • Ogólna klasyfikacja Klasyfikuj obiekty w ogólne kategorie, których możesz używać do filtrowania obiektów, które Cię nie interesują. Obsługiwane są te kategorie: artykuły gospodarstwa domowego, moda, jedzenie, rośliny i miejsca.
  • Klasyfikacja z użyciem modelu niestandardowego Używaj własnego, niestandardowego modelu klasyfikacji obrazów do identyfikowania lub filtrowania określonych kategorii obiektów. Ulepsz skuteczność swojego modelu, pomijając tło obrazu.

Przykładowe wyniki

Śledzenie najbardziej widocznego obiektu na obrazach

Przykład poniżej pokazuje dane śledzenia z 3 kolejnych klatek z domyślnym grubym klasyfikatorem udostępnionym przez ML Kit.

Identyfikator śledzenia 0
Ograniczenia (95, 45), (496, 45), (496, 240), (95, 240)
Kategoria MIEJSCE
Pewność klasyfikacji 0,9296875
Identyfikator śledzenia 0
Ograniczenia (84, 46), (478, 46), (478, 247), (84, 247).
Kategoria MIEJSCE
Pewność klasyfikacji 0,8710938
Identyfikator śledzenia 0
Ograniczenia (53, 45), (519, 45), (519, 240), (53, 240)
Kategoria MIEJSCE
Pewność klasyfikacji 0,8828125

Zdjęcie: Christian Ferrer [CC BY-SA 4.0]

Wiele obiektów na obrazie statycznym

Przykład poniżej pokazuje dane dla 4 obiektów wykrytych na obrazie za pomocą domyślnego klasyfikatora przybliżonego udostępnionego przez ML Kit.

Obiekt 0
Ograniczenia (1, 97), (332, 97), (332, 332), (1, 332)
Kategoria DOBRA_MODA
Pewność klasyfikacji 0,95703125
Obiekt 1
Ograniczenia (186, 80), (337, 80), (337, 226), (186, 226).
Kategoria DOBRA_MODA
Pewność klasyfikacji 0,84375
Obiekt 2
Ograniczenia (296, 80), (472, 80), (472, 388), (296, 388)
Kategoria DOBRA_MODA
Pewność klasyfikacji 0,94921875
Obiekt 3
Ograniczenia (439, 83), (615, 83), (615, 306), (439, 306)
Kategoria DOBRA_MODA
Pewność klasyfikacji 0,9375

za pomocą niestandardowego modelu TensorFlow Lite,

Domyślny przybliżony klasyfikator jest przeznaczony dla 5 kategorii i zawiera ograniczone informacje o wykrytych obiektach. Być może potrzebny jest bardziej wyspecjalizowany model klasyfikujący, który pozwala na jeszcze węższą kategorię pojęć, na przykład model służący do rozróżniania gatunków kwiatów lub rodzajów żywności.

Interfejs API umożliwia dostosowanie działania do konkretnych potrzeb dzięki obsłudze niestandardowych modeli klasyfikacji obrazów z wielu różnych źródeł. Więcej informacji znajdziesz w artykule Modele niestandardowe z zestawem ML. Modele niestandardowe można połączyć w pakiet z aplikacją lub dynamicznie pobierać z chmury za pomocą usługi wdrażania modeli systemów uczących się Firebase.

iOS Android

Wstępne przetwarzanie obrazu

W razie potrzeby wykrywanie i śledzenie obiektów używa dwukierunkowego skalowania i rozciągania obrazów, aby dostosowywać rozmiar wejściowego obrazu i współczynnik proporcji, tak aby były zgodne z wymaganiami podstawowego modelu.