Эта страница переведена с помощью Cloud Translation API.

Распознавайте текст на изображениях с помощью ML Kit на iOS

С помощью ML Kit можно распознавать текст на изображениях или видео, например, текст на дорожном знаке. Основные характеристики этой функции:

API распознавания текста версии 2
Описание	Распознавание текста на изображениях или видео, поддержка латинского, китайского, деванагари, японского и корейского алфавитов, а также широкого спектра языков .
названия SDK	`GoogleMLKit/TextRecognition GoogleMLKit/TextRecognitionChinese GoogleMLKit/TextRecognitionDevanagari GoogleMLKit/TextRecognitionJapanese GoogleMLKit/TextRecognitionKorean`
Выполнение	Ресурсы статически связываются с вашим приложением во время сборки.
влияние размера приложения	Примерно 38 МБ на один скрипт SDK
Производительность	На большинстве устройств SDK для латинского алфавита работает в режиме реального времени, на других — медленнее.

Попробуйте!

Поэкспериментируйте с примером приложения , чтобы увидеть, как используется этот API.
Попробуйте сами выполнить код с помощью Codelab .

Прежде чем начать

Включите следующие модули ML Kit в свой Podfile:

# To recognize Latin script
pod 'GoogleMLKit/TextRecognition', '8.0.0'
# To recognize Chinese script
pod 'GoogleMLKit/TextRecognitionChinese', '8.0.0'
# To recognize Devanagari script
pod 'GoogleMLKit/TextRecognitionDevanagari', '8.0.0'
# To recognize Japanese script
pod 'GoogleMLKit/TextRecognitionJapanese', '8.0.0'
# To recognize Korean script
pod 'GoogleMLKit/TextRecognitionKorean', '8.0.0'

После установки или обновления Pods вашего проекта откройте проект Xcode, используя его .xcworkspace . ML Kit поддерживается в Xcode версии 12.4 и выше.

1. Создайте экземпляр класса `TextRecognizer`

Создайте экземпляр TextRecognizer , вызвав метод +textRecognizer(options:) , передав параметры, относящиеся к SDK, который вы указали в качестве зависимости выше:

Быстрый

// When using Latin script recognition SDK
let latinOptions = TextRecognizerOptions()
let latinTextRecognizer = TextRecognizer.textRecognizer(options:options)

// When using Chinese script recognition SDK
let chineseOptions = ChineseTextRecognizerOptions()
let chineseTextRecognizer = TextRecognizer.textRecognizer(options:options)

// When using Devanagari script recognition SDK
let devanagariOptions = DevanagariTextRecognizerOptions()
let devanagariTextRecognizer = TextRecognizer.textRecognizer(options:options)

// When using Japanese script recognition SDK
let japaneseOptions = JapaneseTextRecognizerOptions()
let japaneseTextRecognizer = TextRecognizer.textRecognizer(options:options)

// When using Korean script recognition SDK
let koreanOptions = KoreanTextRecognizerOptions()
let koreanTextRecognizer = TextRecognizer.textRecognizer(options:options)

Objective-C

// When using Latin script recognition SDK
MLKTextRecognizerOptions *latinOptions = [[MLKTextRecognizerOptions alloc] init];
MLKTextRecognizer *latinTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options];

// When using Chinese script recognition SDK
MLKChineseTextRecognizerOptions *chineseOptions = [[MLKChineseTextRecognizerOptions alloc] init];
MLKTextRecognizer *chineseTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options];

// When using Devanagari script recognition SDK
MLKDevanagariTextRecognizerOptions *devanagariOptions = [[MLKDevanagariTextRecognizerOptions alloc] init];
MLKTextRecognizer *devanagariTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options];

// When using Japanese script recognition SDK
MLKJapaneseTextRecognizerOptions *japaneseOptions = [[MLKJapaneseTextRecognizerOptions alloc] init];
MLKTextRecognizer *japaneseTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options];

// When using Korean script recognition SDK
MLKKoreanTextRecognizerOptions *koreanOptions = [[MLKKoreanTextRecognizerOptions alloc] init];
MLKTextRecognizer *koreanTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options];

2. Подготовьте входное изображение.

Передайте изображение в виде UIImage или CMSampleBufferRef в метод process(_:completion:) объекта TextRecognizer :

Создайте объект VisionImage , используя UIImage или CMSampleBuffer .

Если вы используете UIImage , выполните следующие действия:

Создайте объект VisionImage с использованием UIImage . Убедитесь, что указана правильная .orientation ).

Быстрый

let image = VisionImage(image: UIImage)
visionImage.orientation = image.imageOrientation

Objective-C

MLKVisionImage *visionImage = [[MLKVisionImage alloc] initWithImage:image];
visionImage.orientation = image.imageOrientation;

Если вы используете CMSampleBuffer , выполните следующие действия:

Укажите ориентацию данных изображения, содержащихся в CMSampleBuffer .

Чтобы определить ориентацию изображения:

Быстрый

func imageOrientation(
  deviceOrientation: UIDeviceOrientation,
  cameraPosition: AVCaptureDevice.Position
) -> UIImage.Orientation {
  switch deviceOrientation {
  case .portrait:
    return cameraPosition == .front ? .leftMirrored : .right
  case .landscapeLeft:
    return cameraPosition == .front ? .downMirrored : .up
  case .portraitUpsideDown:
    return cameraPosition == .front ? .rightMirrored : .left
  case .landscapeRight:
    return cameraPosition == .front ? .upMirrored : .down
  case .faceDown, .faceUp, .unknown:
    return .up
  }
}

Objective-C

- (UIImageOrientation)
  imageOrientationFromDeviceOrientation:(UIDeviceOrientation)deviceOrientation
                         cameraPosition:(AVCaptureDevicePosition)cameraPosition {
  switch (deviceOrientation) {
    case UIDeviceOrientationPortrait:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationLeftMirrored
                                                            : UIImageOrientationRight;

    case UIDeviceOrientationLandscapeLeft:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationDownMirrored
                                                            : UIImageOrientationUp;
    case UIDeviceOrientationPortraitUpsideDown:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationRightMirrored
                                                            : UIImageOrientationLeft;
    case UIDeviceOrientationLandscapeRight:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationUpMirrored
                                                            : UIImageOrientationDown;
    case UIDeviceOrientationUnknown:
    case UIDeviceOrientationFaceUp:
    case UIDeviceOrientationFaceDown:
      return UIImageOrientationUp;
  }
}

Создайте объект VisionImage , используя объект CMSampleBuffer и заданную ориентацию:

Быстрый

let image = VisionImage(buffer: sampleBuffer)
image.orientation = imageOrientation(
  deviceOrientation: UIDevice.current.orientation,
  cameraPosition: cameraPosition)

Objective-C

 MLKVisionImage *image = [[MLKVisionImage alloc] initWithBuffer:sampleBuffer];
 image.orientation =
   [self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation
                                cameraPosition:cameraPosition];

3. Обработка изображения

Затем передайте изображение методу process(_:completion:) :

Быстрый

textRecognizer.process(visionImage) { result, error in
  guard error == nil, let result = result else {
    // Error handling
    return
  }
  // Recognized text
}

Objective-C

[textRecognizer processImage:image
                  completion:^(MLKText *_Nullable result,
                               NSError *_Nullable error) {
  if (error != nil || result == nil) {
    // Error handling
    return;
  }
  // Recognized text
}];

4. Извлечение текста из блоков распознанного текста.

Если операция распознавания текста прошла успешно, она возвращает объект Text . Объект Text содержит полный распознанный текст на изображении и ноль или более объектов TextBlock .

Каждый TextBlock представляет собой прямоугольный блок текста, содержащий ноль или более объектов TextLine . Каждый объект TextLine содержит ноль или более объектов TextElement , представляющих слова и словесные сущности, такие как даты и числа.

Для каждого объекта TextBlock , TextLine и TextElement можно получить текст, распознанный в данной области, и ограничивающие координаты этой области.

Например:

Быстрый

let resultText = result.text
for block in result.blocks {
    let blockText = block.text
    let blockLanguages = block.recognizedLanguages
    let blockCornerPoints = block.cornerPoints
    let blockFrame = block.frame
    for line in block.lines {
        let lineText = line.text
        let lineLanguages = line.recognizedLanguages
        let lineCornerPoints = line.cornerPoints
        let lineFrame = line.frame
        for element in line.elements {
            let elementText = element.text
            let elementCornerPoints = element.cornerPoints
            let elementFrame = element.frame
        }
    }
}

Objective-C

NSString *resultText = result.text;
for (MLKTextBlock *block in result.blocks) {
  NSString *blockText = block.text;
  NSArray<MLKTextRecognizedLanguage *> *blockLanguages = block.recognizedLanguages;
  NSArray<NSValue *> *blockCornerPoints = block.cornerPoints;
  CGRect blockFrame = block.frame;
  for (MLKTextLine *line in block.lines) {
    NSString *lineText = line.text;
    NSArray<MLKTextRecognizedLanguage *> *lineLanguages = line.recognizedLanguages;
    NSArray<NSValue *> *lineCornerPoints = line.cornerPoints;
    CGRect lineFrame = line.frame;
    for (MLKTextElement *element in line.elements) {
      NSString *elementText = element.text;
      NSArray<NSValue *> *elementCornerPoints = element.cornerPoints;
      CGRect elementFrame = element.frame;
    }
  }
}

Советы по повышению производительности

Для обработки видеокадров используйте синхронный API results(in:) детектора. Вызовите этот метод из функции captureOutput(_, didOutput:from:) в AVCaptureVideoDataOutputSampleBufferDelegate , чтобы синхронно получить результаты из заданного видеокадра. Установите параметр alwaysDiscardsLateVideoFrames в AVCaptureVideoDataOutput в значение true , чтобы ограничить количество вызовов детектора. Если во время работы детектора появится новый видеокадр, он будет отброшен.
Если вы используете выходные данные детектора для наложения графики на входное изображение, сначала получите результат от ML Kit, а затем отрендерите изображение и наложение за один шаг. Таким образом, вы будете отрендеривать изображение на поверхности дисплея только один раз для каждого обработанного входного кадра. Пример можно увидеть в функции updatePreviewOverlayViewWithLastFrame в примере быстрого запуска ML Kit.
Рекомендуется делать снимки с более низким разрешением. Однако также следует учитывать требования к размерам изображений, предъявляемые этим API.
Во избежание возможного снижения производительности не запускайте одновременно несколько экземпляров TextRecognizer с различными параметрами скрипта.

Распознавайте текст на изображениях с помощью ML Kit на iOS Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

Попробуйте!

Прежде чем начать

1. Создайте экземпляр класса TextRecognizer

Быстрый

Objective-C

2. Подготовьте входное изображение.

Быстрый

Objective-C

Быстрый

Objective-C

Быстрый

Objective-C

3. Обработка изображения

Быстрый

Objective-C

4. Извлечение текста из блоков распознанного текста.

Быстрый

Objective-C

рекомендации по входным изображениям

Советы по повышению производительности

Распознавайте текст на изображениях с помощью ML Kit на iOS

1. Создайте экземпляр класса `TextRecognizer`