Resimlerdeki veya videolardaki metinleri (ör. sokak tabelalarındaki metinler) tanımak için ML Kit'i kullanabilirsiniz. Bu özelliğin temel özellikleri şunlardır:
Metin Tanıma v2 API'si | |
---|---|
Açıklama | Resimler veya videolardaki metinleri tanıyabilme, Latince, Çince, Devanagari, Japonca ve Korece alfabeler için destek ve çok çeşitli diller desteği sunacaktır. |
SDK adları | GoogleMLKit/TextRecognition |
Uygulama | Öğeler, derleme sırasında uygulamanıza statik olarak bağlıdır |
Uygulama boyutu etkisi | Komut dosyası SDK'sı başına yaklaşık 38 MB |
Performans | Çoğu cihazda Latin komut dosyası SDK'sı için gerçek zamanlı, diğerleri için daha yavaştır. |
Deneyin
- Bu API'nin örnek kullanımını görmek için örnek uygulamayı inceleyin.
- codelab ile kodu kendiniz deneyin.
Başlamadan önce
- Aşağıdaki ML Kit kapsüllerini Podfile'ınıza ekleyin:
# To recognize Latin script pod 'GoogleMLKit/TextRecognition', '3.2.0' # To recognize Chinese script pod 'GoogleMLKit/TextRecognitionChinese', '3.2.0' # To recognize Devanagari script pod 'GoogleMLKit/TextRecognitionDevanagari', '3.2.0' # To recognize Japanese script pod 'GoogleMLKit/TextRecognitionJapanese', '3.2.0' # To recognize Korean script pod 'GoogleMLKit/TextRecognitionKorean', '3.2.0'
- Projenizin kapsüllerini yükledikten veya güncelledikten sonra
.xcworkspace
kullanarak Xcode projenizi açın. ML Kit, Xcode 12.4 veya sonraki sürümlerde desteklenir.
1. TextRecognizer
örneği oluşturun
+textRecognizer(options:)
çağrısı yaparak yukarıda bağımlılık olarak beyan ettiğiniz SDK ile ilgili seçenekleri ileterek TextRecognizer
örneği oluşturun:
Swift
// When using Latin script recognition SDK let latinOptions = TextRecognizerOptions() let latinTextRecognizer = TextRecognizer.textRecognizer(options:options) // When using Chinese script recognition SDK let chineseOptions = ChineseTextRecognizerOptions() let chineseTextRecognizer = TextRecognizer.textRecognizer(options:options) // When using Devanagari script recognition SDK let devanagariOptions = DevanagariTextRecognizerOptions() let devanagariTextRecognizer = TextRecognizer.textRecognizer(options:options) // When using Japanese script recognition SDK let japaneseOptions = JapaneseTextRecognizerOptions() let japaneseTextRecognizer = TextRecognizer.textRecognizer(options:options) // When using Korean script recognition SDK let koreanOptions = KoreanTextRecognizerOptions() let koreanTextRecognizer = TextRecognizer.textRecognizer(options:options)
Objective-C
// When using Latin script recognition SDK MLKTextRecognizerOptions *latinOptions = [[MLKTextRecognizerOptions alloc] init]; MLKTextRecognizer *latinTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options]; // When using Chinese script recognition SDK MLKChineseTextRecognizerOptions *chineseOptions = [[MLKChineseTextRecognizerOptions alloc] init]; MLKTextRecognizer *chineseTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options]; // When using Devanagari script recognition SDK MLKDevanagariTextRecognizerOptions *devanagariOptions = [[MLKDevanagariTextRecognizerOptions alloc] init]; MLKTextRecognizer *devanagariTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options]; // When using Japanese script recognition SDK MLKJapaneseTextRecognizerOptions *japaneseOptions = [[MLKJapaneseTextRecognizerOptions alloc] init]; MLKTextRecognizer *japaneseTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options]; // When using Korean script recognition SDK MLKKoreanTextRecognizerOptions *koreanOptions = [[MLKKoreanTextRecognizerOptions alloc] init]; MLKTextRecognizer *koreanTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options];
2. Giriş resmini hazırlama
Resmi,TextRecognizer
'in process(_:completion:)
yöntemine UIImage
veya CMSampleBufferRef
olarak iletin:
UIImage
veya CMSampleBuffer
kullanarak VisionImage
nesnesi oluşturun.
UIImage
kullanıyorsanız şu adımları uygulayın:
UIImage
ile birVisionImage
nesnesi oluşturun. Doğru.orientation
değerini belirttiğinizden emin olun.Swift
let image = VisionImage(image: UIImage) visionImage.orientation = image.imageOrientation
Objective-C
MLKVisionImage *visionImage = [[MLKVisionImage alloc] initWithImage:image]; visionImage.orientation = image.imageOrientation;
CMSampleBuffer
kullanıyorsanız şu adımları uygulayın:
-
CMSampleBuffer
içinde yer alan resim verilerinin yönünü belirtin.Resmin yönünü öğrenmek için:
Swift
func imageOrientation( deviceOrientation: UIDeviceOrientation, cameraPosition: AVCaptureDevice.Position ) -> UIImage.Orientation { switch deviceOrientation { case .portrait: return cameraPosition == .front ? .leftMirrored : .right case .landscapeLeft: return cameraPosition == .front ? .downMirrored : .up case .portraitUpsideDown: return cameraPosition == .front ? .rightMirrored : .left case .landscapeRight: return cameraPosition == .front ? .upMirrored : .down case .faceDown, .faceUp, .unknown: return .up } }
Objective-C
- (UIImageOrientation) imageOrientationFromDeviceOrientation:(UIDeviceOrientation)deviceOrientation cameraPosition:(AVCaptureDevicePosition)cameraPosition { switch (deviceOrientation) { case UIDeviceOrientationPortrait: return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationLeftMirrored : UIImageOrientationRight; case UIDeviceOrientationLandscapeLeft: return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationDownMirrored : UIImageOrientationUp; case UIDeviceOrientationPortraitUpsideDown: return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationRightMirrored : UIImageOrientationLeft; case UIDeviceOrientationLandscapeRight: return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationUpMirrored : UIImageOrientationDown; case UIDeviceOrientationUnknown: case UIDeviceOrientationFaceUp: case UIDeviceOrientationFaceDown: return UIImageOrientationUp; } }
CMSampleBuffer
nesnesini ve yönünü kullanarak birVisionImage
nesnesi oluşturun:Swift
let image = VisionImage(buffer: sampleBuffer) image.orientation = imageOrientation( deviceOrientation: UIDevice.current.orientation, cameraPosition: cameraPosition)
Objective-C
MLKVisionImage *image = [[MLKVisionImage alloc] initWithBuffer:sampleBuffer]; image.orientation = [self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation cameraPosition:cameraPosition];
3. Resmi işleyin
Ardından resmi process(_:completion:)
yöntemine iletin:
Swift
textRecognizer.process(visionImage) { result, error in guard error == nil, let result = result else { // Error handling return } // Recognized text }
Objective-C
[textRecognizer processImage:image completion:^(MLKText *_Nullable result, NSError *_Nullable error) { if (error != nil || result == nil) { // Error handling return; } // Recognized text }];
4. Tanınan metin bloklarındaki metni ayıkla
Metin tanıma işlemi başarılı olursa bir Text
nesnesi döndürür. Text
nesnesi, resimde tanınan tam metni ve sıfır veya daha fazla TextBlock
nesneyi içerir.
Her TextBlock
, sıfır veya daha fazla TextLine
nesne içeren dikdörtgen bir metin blokunu temsil eder. Her TextLine
nesnesi, sıfır veya daha fazla TextElement
nesne içerir. Bunlar, kelimeleri ve tarih ve sayılar gibi kelime benzeri varlıkları temsil eder.
Her TextBlock
, TextLine
ve TextElement
nesnesi için metnin bölgede ve bölgenin sınırlayıcı koordinatlarının tanınmasını sağlayabilirsiniz.
Örneğin:
Swift
let resultText = result.text for block in result.blocks { let blockText = block.text let blockLanguages = block.recognizedLanguages let blockCornerPoints = block.cornerPoints let blockFrame = block.frame for line in block.lines { let lineText = line.text let lineLanguages = line.recognizedLanguages let lineCornerPoints = line.cornerPoints let lineFrame = line.frame for element in line.elements { let elementText = element.text let elementCornerPoints = element.cornerPoints let elementFrame = element.frame } } }
Objective-C
NSString *resultText = result.text; for (MLKTextBlock *block in result.blocks) { NSString *blockText = block.text; NSArray<MLKTextRecognizedLanguage *> *blockLanguages = block.recognizedLanguages; NSArray<NSValue *> *blockCornerPoints = block.cornerPoints; CGRect blockFrame = block.frame; for (MLKTextLine *line in block.lines) { NSString *lineText = line.text; NSArray<MLKTextRecognizedLanguage *> *lineLanguages = line.recognizedLanguages; NSArray<NSValue *> *lineCornerPoints = line.cornerPoints; CGRect lineFrame = line.frame; for (MLKTextElement *element in line.elements) { NSString *elementText = element.text; NSArray<NSValue *> *elementCornerPoints = element.cornerPoints; CGRect elementFrame = element.frame; } } }
Giriş resmi kuralları
-
Makine Öğrenimi Kiti'nin metni doğru bir şekilde tanıyabilmesi için giriş resimleri, yeterli piksel verisiyle temsil edilen metin içermelidir. İdeal olarak her karakter en az 16x16 piksel olmalıdır. Karakterlerin 24x24 pikselden büyük olması genellikle doğruluk açısından bir avantaj sağlamaz.
Bu nedenle, örneğin, 640x480 boyutundaki bir resim, resmin tam genişliğini kaplayan bir kartviziti taramak için iyi sonuç verebilir. Harf boyutunda kağıda basılı bir dokümanı taramak için 720x1280 piksel boyutunda bir resim gerekli olabilir.
-
Kötü resim odağı, metin tanıma doğruluğunu etkileyebilir. Kabul edilebilir sonuçlar alamıyorsanız kullanıcıdan resmi yeniden çekmesini isteyin.
-
Metinleri gerçek zamanlı bir uygulamada tanıyorsanız giriş resimlerinin genel boyutlarını dikkate almalısınız. Daha küçük resimler daha hızlı işlenebilir. Gecikmeyi azaltmak için metnin resmin olabildiğince büyük bir kısmını kapladığından emin olun ve resimleri düşük çözünürlüklerde yakalayın (yukarıda belirtilen doğruluk şartlarını göz önünde bulundurun). Daha fazla bilgi için Performansı iyileştirmeye yönelik ipuçları bölümüne bakın.
Performansı artırmaya yönelik ipuçları
- Video karelerini işlemek için algılayıcının
results(in:)
eşzamanlı API'sini kullanın. Belirtilen video karesinden eşzamanlı olarak sonuçlar almak içinAVCaptureVideoDataOutputSampleBufferDelegate
captureOutput(_, didOutput:from:)
işlevinden bu yöntemi çağırın. Algılayıcıya yapılan çağrıları kısmak içinAVCaptureVideoDataOutput
adlı kullanıcınınalwaysDiscardsLateVideoFrames
değerinitrue
olarak tutun. Algılayıcı çalışırken yeni bir video karesi kullanılabilir hale gelirse bu kare atlanır. - Algılayıcının çıkışını, giriş görüntüsünün üzerine grafik yerleştirmek için kullanırsanız önce ML Kit'ten sonucu alın, ardından görüntüyü oluşturun ve tek bir adımda bindirme yapın. Böylece, işlenen her giriş karesi için görüntüleme yüzeyinde yalnızca bir kez oluşturma işlemi gerçekleştirirsiniz. Örnek için ML Kit hızlı başlangıç örneğindeki updatePreviewOverlayViewWithLastFrame bölümüne bakın.
- Görüntüleri daha düşük çözünürlükte çekmeyi düşünün. Ancak bu API'nin resim boyutu şartlarını da göz önünde bulundurun.
- Olası performans düşüşlerini önlemek için farklı komut dosyası seçenekleriyle birden fazla
TextRecognizer
örneğini aynı anda çalıştırmayın.