
Với API phát hiện đối tượng và theo dõi đối tượng trên thiết bị của Bộ công cụ học máy, bạn có thể phát hiện và theo dõi đối tượng trong một hình ảnh hoặc nguồn cấp dữ liệu từ camera trực tiếp.
Bạn có thể phân loại các vật thể được phát hiện (không bắt buộc), bằng cách sử dụng trình phân loại thô được tích hợp trong API hoặc sử dụng mô hình phân loại hình ảnh tuỳ chỉnh của riêng bạn. Hãy xem bài viết Sử dụng mô hình LiteRT tuỳ chỉnh để biết thêm thông tin.
Vì tính năng phát hiện đối tượng và theo dõi diễn ra trên thiết bị, nên tính năng này hoạt động tốt ở phần đầu của quy trình tìm kiếm bằng hình ảnh. Sau khi phát hiện và lọc các vật thể, bạn có thể chuyển các vật thể đó sang một phần phụ trợ trên đám mây, chẳng hạn như Cloud Vision Product Search.
Các khả năng chính
- Phát hiện và theo dõi đối tượng nhanh chóng Phát hiện đối tượng và xác định vị trí của chúng trong hình ảnh. Theo dõi vật thể trên các khung hình ảnh liên tiếp.
- Mô hình được tối ưu hoá trên thiết bị Mô hình phát hiện đối tượng và theo dõi được tối ưu hoá cho thiết bị di động và dùng trong các ứng dụng theo thời gian thực, ngay cả trên các thiết bị cấp thấp.
- Phát hiện đối tượng nổi bật Tự động xác định đối tượng nổi bật nhất trong một hình ảnh.
- Phân loại thô Phân loại vật thể thành các danh mục rộng, mà bạn có thể dùng để lọc ra những vật thể mà bạn không quan tâm. Các danh mục sau đây được hỗ trợ: đồ gia dụng, đồ thời trang, thực phẩm, cây cối và địa điểm.
- Phân loại bằng mô hình tuỳ chỉnh Sử dụng mô hình phân loại hình ảnh tuỳ chỉnh của riêng bạn để xác định hoặc lọc các danh mục vật thể cụ thể. Giúp mô hình tuỳ chỉnh hoạt động hiệu quả hơn bằng cách loại bỏ nền của hình ảnh.
Kết quả mẫu
Theo dõi vật thể nổi bật nhất trên các hình ảnh
Ví dụ sau đây cho thấy dữ liệu theo dõi từ 3 khung hình liên tiếp bằng thuật toán phân loại thô mặc định do Bộ công cụ học máy cung cấp.
![]() |
|
||||||||
![]() |
|
||||||||
![]() |
|
Ảnh: Christian Ferrer [CC BY-SA 4.0]
Nhiều vật thể trong một hình ảnh tĩnh
Ví dụ sau đây cho thấy dữ liệu của 4 vật thể được phát hiện trong hình ảnh bằng trình phân loại thô mặc định do Bộ công cụ học máy cung cấp.

| Vật thể 0 | |
|---|---|
| Ranh giới | (1, 97), (332, 97), (332, 332), (1, 332) |
| Danh mục | FASHION_GOOD |
| Độ tin cậy của việc phân loại | 0.95703125 |
| Vật thể 1 | |
| Ranh giới | (186, 80), (337, 80), (337, 226), (186, 226) |
| Danh mục | FASHION_GOOD |
| Độ tin cậy của việc phân loại | 0.84375 |
| Vật thể 2 | |
| Ranh giới | (296, 80), (472, 80), (472, 388), (296, 388) |
| Danh mục | FASHION_GOOD |
| Độ tin cậy của việc phân loại | 0.94921875 |
| Vật thể 3 | |
| Ranh giới | (439, 83), (615, 83), (615, 306), (439, 306) |
| Danh mục | FASHION_GOOD |
| Độ tin cậy của việc phân loại | 0.9375 |
Sử dụng mô hình LiteRT tuỳ chỉnh
Trình phân loại thô mặc định được xây dựng cho 5 danh mục, cung cấp thông tin hạn chế về các vật thể được phát hiện. Bạn có thể cần một mô hình phân loại chuyên biệt hơn, bao gồm một phạm vi khái niệm hẹp hơn một cách chi tiết hơn; ví dụ: một mô hình để phân biệt giữa các loài hoa hoặc các loại thực phẩm.
API này cho phép bạn điều chỉnh theo một trường hợp sử dụng cụ thể bằng cách hỗ trợ các mô hình phân loại hình ảnh tuỳ chỉnh từ nhiều nguồn. Hãy tham khảo bài viết Mô hình tuỳ chỉnh bằng Bộ công cụ học máy để tìm hiểu thêm. Bạn có thể gói các mô hình tuỳ chỉnh với ứng dụng của mình hoặc tải các mô hình đó xuống một cách linh động từ Cloud Storage.
Xử lý trước hình ảnh đầu vào
Nếu cần, tính năng phát hiện đối tượng và theo dõi sẽ sử dụng tính năng kéo giãn và điều chỉnh tỷ lệ hình ảnh song tuyến tính để điều chỉnh kích thước hình ảnh và tỷ lệ khung hình của hình ảnh đầu vào sao cho phù hợp với các yêu cầu của mô hình cơ bản.


