Możesz używać pakietu ML Kit do rozpoznawania tekstu na obrazach lub w filmach, np. na znakach drogowych. Główne cechy tej funkcji:
Interfejs Text Recognition API w wersji 2 | |
---|---|
Opis | Rozpoznawanie tekstu na obrazach i filmach, obsługa pisma łacińskiego, chińskiego, dewanagari, japońskiego i koreańskiego oraz wielu języków. |
Nazwy pakietów SDK | GoogleMLKit/TextRecognition |
Implementacja | Zasoby są statycznie połączone z aplikacją w momencie kompilacji. |
Wpływ rozmiaru aplikacji | Około 38 MB na pakiet SDK skryptu |
Wydajność | w czasie rzeczywistym na większości urządzeń w przypadku pakietu SDK w języku łacińskim, a w przypadku innych – wolniej. |
Wypróbuj
- Zapoznaj się z przykładową aplikacją, aby zobaczyć przykład użycia tego interfejsu API.
- Wypróbuj kod samodzielnie w ramach ćwiczeń z programowania.
Zanim zaczniesz
- W pliku Podfile umieść te pody ML Kit:
# To recognize Latin script pod 'GoogleMLKit/TextRecognition', '3.2.0' # To recognize Chinese script pod 'GoogleMLKit/TextRecognitionChinese', '3.2.0' # To recognize Devanagari script pod 'GoogleMLKit/TextRecognitionDevanagari', '3.2.0' # To recognize Japanese script pod 'GoogleMLKit/TextRecognitionJapanese', '3.2.0' # To recognize Korean script pod 'GoogleMLKit/TextRecognitionKorean', '3.2.0'
- Po zainstalowaniu lub zaktualizowaniu podów projektu otwórz projekt Xcode za pomocą pliku
.xcworkspace
. ML Kit jest obsługiwany w Xcode w wersji 12.4 lub nowszej.
1. Tworzenie instancji maszyny wirtualnej TextRecognizer
Utwórz instancję TextRecognizer
, wywołując funkcję +textRecognizer(options:)
i przekazując opcje związane z pakietem SDK zadeklarowane powyżej jako zależność:
Swift
// When using Latin script recognition SDK let latinOptions = TextRecognizerOptions() let latinTextRecognizer = TextRecognizer.textRecognizer(options:options) // When using Chinese script recognition SDK let chineseOptions = ChineseTextRecognizerOptions() let chineseTextRecognizer = TextRecognizer.textRecognizer(options:options) // When using Devanagari script recognition SDK let devanagariOptions = DevanagariTextRecognizerOptions() let devanagariTextRecognizer = TextRecognizer.textRecognizer(options:options) // When using Japanese script recognition SDK let japaneseOptions = JapaneseTextRecognizerOptions() let japaneseTextRecognizer = TextRecognizer.textRecognizer(options:options) // When using Korean script recognition SDK let koreanOptions = KoreanTextRecognizerOptions() let koreanTextRecognizer = TextRecognizer.textRecognizer(options:options)
Objective-C
// When using Latin script recognition SDK MLKTextRecognizerOptions *latinOptions = [[MLKTextRecognizerOptions alloc] init]; MLKTextRecognizer *latinTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options]; // When using Chinese script recognition SDK MLKChineseTextRecognizerOptions *chineseOptions = [[MLKChineseTextRecognizerOptions alloc] init]; MLKTextRecognizer *chineseTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options]; // When using Devanagari script recognition SDK MLKDevanagariTextRecognizerOptions *devanagariOptions = [[MLKDevanagariTextRecognizerOptions alloc] init]; MLKTextRecognizer *devanagariTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options]; // When using Japanese script recognition SDK MLKJapaneseTextRecognizerOptions *japaneseOptions = [[MLKJapaneseTextRecognizerOptions alloc] init]; MLKTextRecognizer *japaneseTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options]; // When using Korean script recognition SDK MLKKoreanTextRecognizerOptions *koreanOptions = [[MLKKoreanTextRecognizerOptions alloc] init]; MLKTextRecognizer *koreanTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options];
2. Przygotowywanie obrazu wejściowego
Przekaż obraz jakoUIImage
lub CMSampleBufferRef
do metody process(_:completion:)
TextRecognizer
:
Utwórz obiekt VisionImage
za pomocą UIImage
lub CMSampleBuffer
.
Jeśli używasz UIImage
, wykonaj te czynności:
- Utwórz obiekt
VisionImage
za pomocąUIImage
. Pamiętaj, by określić prawidłowy.orientation
.Swift
let image = VisionImage(image: UIImage) visionImage.orientation = image.imageOrientation
Objective-C
MLKVisionImage *visionImage = [[MLKVisionImage alloc] initWithImage:image]; visionImage.orientation = image.imageOrientation;
Jeśli używasz CMSampleBuffer
, wykonaj te czynności:
-
Określ orientację danych obrazu zawartych w pliku
CMSampleBuffer
.Aby sprawdzić orientację obrazu:
Swift
func imageOrientation( deviceOrientation: UIDeviceOrientation, cameraPosition: AVCaptureDevice.Position ) -> UIImage.Orientation { switch deviceOrientation { case .portrait: return cameraPosition == .front ? .leftMirrored : .right case .landscapeLeft: return cameraPosition == .front ? .downMirrored : .up case .portraitUpsideDown: return cameraPosition == .front ? .rightMirrored : .left case .landscapeRight: return cameraPosition == .front ? .upMirrored : .down case .faceDown, .faceUp, .unknown: return .up } }
Objective-C
- (UIImageOrientation) imageOrientationFromDeviceOrientation:(UIDeviceOrientation)deviceOrientation cameraPosition:(AVCaptureDevicePosition)cameraPosition { switch (deviceOrientation) { case UIDeviceOrientationPortrait: return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationLeftMirrored : UIImageOrientationRight; case UIDeviceOrientationLandscapeLeft: return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationDownMirrored : UIImageOrientationUp; case UIDeviceOrientationPortraitUpsideDown: return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationRightMirrored : UIImageOrientationLeft; case UIDeviceOrientationLandscapeRight: return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationUpMirrored : UIImageOrientationDown; case UIDeviceOrientationUnknown: case UIDeviceOrientationFaceUp: case UIDeviceOrientationFaceDown: return UIImageOrientationUp; } }
- Utwórz obiekt
VisionImage
, używając obiektuCMSampleBuffer
i orientacji:Swift
let image = VisionImage(buffer: sampleBuffer) image.orientation = imageOrientation( deviceOrientation: UIDevice.current.orientation, cameraPosition: cameraPosition)
Objective-C
MLKVisionImage *image = [[MLKVisionImage alloc] initWithBuffer:sampleBuffer]; image.orientation = [self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation cameraPosition:cameraPosition];
3. Przetwarzanie obrazu
Następnie przekaż obraz do metody process(_:completion:)
:
Swift
textRecognizer.process(visionImage) { result, error in guard error == nil, let result = result else { // Error handling return } // Recognized text }
Objective-C
[textRecognizer processImage:image completion:^(MLKText *_Nullable result, NSError *_Nullable error) { if (error != nil || result == nil) { // Error handling return; } // Recognized text }];
4. Wyodrębnianie tekstu z bloków rozpoznanego tekstu
Jeśli operacja rozpoznawania tekstu się powiedzie, zwraca obiekt Text
. Obiekt Text
zawiera pełny tekst rozpoznany na obrazie i 0 lub więcej obiektów TextBlock
.
Każdy obiekt TextBlock
to prostokątny blok tekstu, który nie zawiera żadnych obiektów TextLine
. Każdy obiekt TextLine
zawiera co najmniej 0 obiektów TextElement
, które reprezentują słowa i obiekty słowne, takie jak daty i liczby.
W przypadku każdego obiektu TextBlock
, TextLine
i TextElement
można sprawdzić, czy tekst zostanie rozpoznany w regionie, a także jego współrzędne ograniczające region.
Na przykład:
Swift
let resultText = result.text for block in result.blocks { let blockText = block.text let blockLanguages = block.recognizedLanguages let blockCornerPoints = block.cornerPoints let blockFrame = block.frame for line in block.lines { let lineText = line.text let lineLanguages = line.recognizedLanguages let lineCornerPoints = line.cornerPoints let lineFrame = line.frame for element in line.elements { let elementText = element.text let elementCornerPoints = element.cornerPoints let elementFrame = element.frame } } }
Objective-C
NSString *resultText = result.text; for (MLKTextBlock *block in result.blocks) { NSString *blockText = block.text; NSArray<MLKTextRecognizedLanguage *> *blockLanguages = block.recognizedLanguages; NSArray<NSValue *> *blockCornerPoints = block.cornerPoints; CGRect blockFrame = block.frame; for (MLKTextLine *line in block.lines) { NSString *lineText = line.text; NSArray<MLKTextRecognizedLanguage *> *lineLanguages = line.recognizedLanguages; NSArray<NSValue *> *lineCornerPoints = line.cornerPoints; CGRect lineFrame = line.frame; for (MLKTextElement *element in line.elements) { NSString *elementText = element.text; NSArray<NSValue *> *elementCornerPoints = element.cornerPoints; CGRect elementFrame = element.frame; } } }
Wytyczne dotyczące obrazu wejściowego
-
Aby ML Kit dokładnie rozpoznawał tekst, obrazy wejściowe muszą zawierać tekst reprezentowany przez wystarczającą ilość danych pikseli. Najlepiej, aby każdy znak miał rozmiar co najmniej 16 x 16 pikseli. Zazwyczaj nie zwiększa się dokładność w przypadku znaków większych niż 24 x 24 piksele.
Na przykład obraz o wymiarach 640 x 480 może dobrze sprawdzić się do zeskanowania wizytówki, która zajmuje całą szerokość obrazu. Aby zeskanować dokument wydrukowany na papierze w formacie literowym, wymagany może być obraz o rozdzielczości 720 x 1280 pikseli.
-
Słaba ostrość obrazu może zmniejszyć dokładność rozpoznawania tekstu. Jeśli nie uzyskujesz akceptowalnych wyników, poproś użytkownika o ponowne przechwycenie obrazu.
-
Jeśli rozpoznajesz tekst w aplikacji czasu rzeczywistego, musisz wziąć pod uwagę ogólne wymiary obrazów wejściowych. Mniejsze obrazy mogą być przetwarzane szybciej. Aby skrócić czas oczekiwania, zadbaj o to, aby tekst zajmował jak największą część obrazu i przechwytuj obrazy w niższej rozdzielczości (pamiętając o powyższych wymaganiach dotyczących dokładności). Więcej informacji znajdziesz w artykule Wskazówki pozwalające zwiększyć wydajność.
Wskazówki dotyczące poprawy skuteczności
- Do przetwarzania klatek wideo używaj synchronicznego interfejsu API
results(in:)
detektora. Wywołaj tę metodę z funkcjicaptureOutput(_, didOutput:from:)
wAVCaptureVideoDataOutputSampleBufferDelegate
, aby synchronicznie uzyskać wyniki z danej klatki wideo. ZachowajalwaysDiscardsLateVideoFrames
kontaAVCaptureVideoDataOutput
jakotrue
, aby ograniczyć wywołania detektora. Jeśli dostępna będzie nowa klatka wideo, gdy działa detektor, zostanie usunięta. - Jeśli używasz danych wyjściowych detektora do nakładania grafiki na obraz wejściowy, najpierw pobierz wynik z ML Kit, a potem wyrenderuj obraz i nakładkę w jednym kroku. W ten sposób renderowanie na powierzchni wyświetlania będzie odbywać się tylko raz na każdą przetworzoną klatkę wejściową. Przykład znajdziesz w opisie updatePreviewOverlayViewWithLastFrame w krótkim wprowadzeniu do narzędzia ML Kit.
- Rozważ robienie zdjęć w niższej rozdzielczości. Pamiętaj jednak o wymaganiach tego interfejsu dotyczących wymiarów obrazów.
- Aby uniknąć potencjalnego spadku wydajności, nie uruchamiaj jednocześnie wielu instancji
TextRecognizer
z różnymi opcjami skryptów.