Маркировка изображения

С помощью API-интерфейсов маркировки изображений ML Kit вы можете обнаруживать и извлекать информацию об объектах на изображении по широкой группе категорий. Модель маркировки изображений по умолчанию может идентифицировать общие объекты, места, виды деятельности, виды животных, продукты и многое другое.

Вы также можете использовать собственную модель классификации изображений, чтобы адаптировать обнаружение к конкретному варианту использования. Дополнительную информацию см. в разделе «Использование пользовательской модели TensorFlow Lite» .

Ключевые возможности

  • Мощный базовый классификатор общего назначения. Распознает более 400 категорий, описывающих наиболее часто встречающиеся объекты на фотографиях.
  • Адаптируйтесь к своему варианту использования с помощью пользовательских моделей. Используйте другие предварительно обученные модели из TensorFlow Hub или свою собственную модель, обученную с помощью TensorFlow, AutoML Vision Edge или TensorFlow Lite Model maker.
  • Простые в использовании API высокого уровня. Нет необходимости заниматься вводом/выводом низкоуровневых моделей, предварительной и последующей обработкой изображений или построением конвейера обработки. ML Kit извлекает метки из модели TensorFlow Lite и предоставляет их в виде текстового описания.

Обратите внимание, что этот API предназначен для моделей классификации изображений, описывающих полное изображение. Для классификации одного или нескольких объектов на изображении, например обуви или предметов мебели, лучше подойдет API обнаружения и отслеживания объектов .

Поддерживаемые модели классификации изображений

API-интерфейсы маркировки изображений поддерживают различные модели классификации изображений:

Поддерживаемые модели классификации изображений
Базовая модель По умолчанию API использует мощную модель маркировки изображений общего назначения, которая распознает более 400 объектов, охватывающих наиболее часто встречающиеся понятия на фотографиях.
Пользовательские модели TensorFlow Lite Чтобы ориентироваться на концепции, специфичные для приложения, API принимает пользовательские модели классификации изображений из широкого спектра источников. Это могут быть предварительно обученные модели, загруженные из TensorFlow Hub, или ваши собственные модели, обученные с помощью AutoML Vision Edge, TensorFlow Lite Model Maker или самого TensorFlow. Модели могут быть объединены с вашим приложением или размещены с помощью Firebase Machine Learning и загружены во время выполнения.

Использование базовой модели

Базовая модель ML Kit возвращает список объектов, которые идентифицируют людей, вещи, места, действия и т. д. Каждому объекту присваивается оценка, которая указывает на уверенность модели ML в ее актуальности. С помощью этой информации вы можете выполнять такие задачи, как автоматическое создание метаданных и модерация контента. Модель по умолчанию, поставляемая с ML Kit, распознает более 400 различных объектов .

iOS Android

Примеры этикеток

Базовая модель в API маркировки изображений поддерживает более 400 меток, как показано в следующих примерах:

Категория Примеры этикеток
Люди Crowd
Selfie
Smile
Деятельность Dancing
Eating
Surfing
Вещи Car
Piano
Receipt
Животные Bird
Cat
Dog
Растения Flower
Fruit
Vegetable
Места Beach
Lake
Mountain

Примеры результатов

Вот пример объектов, которые были опознаны на сопроводительной фотографии.

Фото: Клеман Букко-Леша / Wikimedia Commons / CC BY-SA 3.0
Этикетка 0
Текст Стадион
Уверенность 0,9205354
Этикетка 1
Текст Виды спорта
Уверенность 0,7531109
Этикетка 2
Текст Событие
Уверенность 0,66905296
Этикетка 3
Текст Досуг
Уверенность 0,59904146
Этикетка 4
Текст Футбольный
Уверенность 0,56384534
Этикетка 5
Текст Сеть
Уверенность 0,54679185
Этикетка 6
Текст Растение
Уверенность 0,524364

Использование собственной модели TensorFlow Lite.

Базовая модель маркировки изображений ML Kit создана для универсального использования. Он обучен распознавать 400 категорий, описывающих наиболее часто встречающиеся объекты на фотографиях. Вашему приложению может потребоваться специализированная модель классификации изображений, которая более детально распознает более узкое количество категорий, например модель, которая различает виды цветов или типы продуктов питания.

Этот API позволяет адаптироваться к конкретному варианту использования, поддерживая пользовательские модели классификации изображений из широкого спектра источников. Дополнительную информацию см. в разделе Пользовательские модели с комплектом ML . Пользовательские модели можно объединить с вашим приложением или динамически загрузить из облака с помощью службы развертывания моделей Firebase Machine Learning.

iOS Android

Предварительная обработка входного изображения

При необходимости маркировка изображений использует билинейное масштабирование и растяжение изображения для настройки размера и соотношения сторон входного изображения так, чтобы они соответствовали требованиям базовой модели.