ML Kit를 사용하면 이미지 또는 동영상의 거리 표지판 텍스트와 같은 텍스트를 인식할 수 있습니다. 이 기능의 주요 특징은 다음과 같습니다.
텍스트 인식 API | |
---|---|
설명 | 이미지 또는 동영상의 라틴 자모 텍스트 인식 |
라이브러리 이름 | com.google.android.gms:play-services-mlkit-text-recognition |
구현 | 라이브러리는 Google Play 서비스를 통해 동적으로 다운로드됩니다. |
앱 크기 영향 | 260KB |
초기화 시간 | 처음 사용하기 전에 라이브러리가 다운로드될 때까지 기다려야 할 수 있습니다. |
성능 | 대부분의 기기에서 실시간으로 작동합니다. |
사용해 보기
시작하기 전에
- 프로젝트 수준
build.gradle
파일의buildscript
및allprojects
섹션에 Google의 Maven 저장소가 포함되어야 합니다. - 모듈의 앱 수준 Gradle 파일(일반적으로
app/build.gradle
)에 ML Kit Android 라이브러리의 종속 항목을 추가합니다.dependencies { // ... implementation 'com.google.android.gms:play-services-mlkit-text-recognition:18.0.2' }
-
선택사항이지만 권장함: Play 스토어에서 앱을 설치한 후 기기에 ML 모델을 자동으로 다운로드하도록 앱을 구성할 수 있습니다. 이렇게 하려면 다음 선언을 앱의
AndroidManifest.xml
파일에 추가합니다.<application ...> ... <meta-data android:name="com.google.mlkit.vision.DEPENDENCIES" android:value="ocr" /> <!-- To use multiple models: android:value="ocr,model2,model3" --> </application>
설치 시간 모델 다운로드를 사용 설정하지 않으면 기기 내 감지기를 처음 실행할 때 모델이 다운로드됩니다. 다운로드가 완료되기 전에 요청하면 결과가 나오지 않습니다.
1. TextRecognizer
인스턴스 만들기
TextRecognizer
의 인스턴스를 만듭니다.
Kotlin
val recognizer = TextRecognition.getClient(TextRecognizerOptions.DEFAULT_OPTIONS)
자바
TextRecognizer recognizer = TextRecognition.getClient(TextRecognizerOptions.DEFAULT_OPTIONS);
2. 입력 이미지 준비
이미지 속 텍스트를 인식하려면 Bitmap
, media.Image
, ByteBuffer
, 바이트 배열, 기기의 파일에서 InputImage
객체를 만듭니다. 그런 다음 InputImage
객체를 TextRecognizer
의 processImage
메서드에 전달합니다.
다양한 소스에서 InputImage
객체를 만들 수 있습니다. 각 소스는 아래에 설명되어 있습니다.
media.Image
사용
기기 카메라에서 이미지를 캡처할 때와 같이 media.Image
객체에서 InputImage
객체를 만들려면 media.Image
객체 및 이미지 회전을 InputImage.fromMediaImage()
에 전달합니다.
CameraX 라이브러리를 사용하는 경우 OnImageCapturedListener
및 ImageAnalysis.Analyzer
클래스가 회전 값을 자동으로 계산합니다.
Kotlin
private class YourImageAnalyzer : ImageAnalysis.Analyzer { override fun analyze(imageProxy: ImageProxy) { val mediaImage = imageProxy.image if (mediaImage != null) { val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees) // Pass image to an ML Kit Vision API // ... } } }
자바
private class YourAnalyzer implements ImageAnalysis.Analyzer { @Override public void analyze(ImageProxy imageProxy) { Image mediaImage = imageProxy.getImage(); if (mediaImage != null) { InputImage image = InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees()); // Pass image to an ML Kit Vision API // ... } } }
이미지의 회전 각도를 제공하는 카메라 라이브러리를 사용하지 않는 경우 기기의 카메라 센서 방향 및 기기 회전 각도로 이미지 회전 각도를 계산할 수 있습니다.
Kotlin
private val ORIENTATIONS = SparseIntArray() init { ORIENTATIONS.append(Surface.ROTATION_0, 0) ORIENTATIONS.append(Surface.ROTATION_90, 90) ORIENTATIONS.append(Surface.ROTATION_180, 180) ORIENTATIONS.append(Surface.ROTATION_270, 270) } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) @Throws(CameraAccessException::class) private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. val deviceRotation = activity.windowManager.defaultDisplay.rotation var rotationCompensation = ORIENTATIONS.get(deviceRotation) // Get the device's sensor orientation. val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager val sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION)!! if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360 } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360 } return rotationCompensation }
자바
private static final SparseIntArray ORIENTATIONS = new SparseIntArray(); static { ORIENTATIONS.append(Surface.ROTATION_0, 0); ORIENTATIONS.append(Surface.ROTATION_90, 90); ORIENTATIONS.append(Surface.ROTATION_180, 180); ORIENTATIONS.append(Surface.ROTATION_270, 270); } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing) throws CameraAccessException { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation(); int rotationCompensation = ORIENTATIONS.get(deviceRotation); // Get the device's sensor orientation. CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE); int sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION); if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360; } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360; } return rotationCompensation; }
그런 다음 media.Image
객체 및 회전 각도 값을 InputImage.fromMediaImage()
에 전달합니다.
Kotlin
val image = InputImage.fromMediaImage(mediaImage, rotation)
Java
InputImage image = InputImage.fromMediaImage(mediaImage, rotation);
파일 URI 사용
파일 URI에서 InputImage
객체를 만들려면 앱 컨텍스트 및 파일 URI를 InputImage.fromFilePath()
에 전달합니다. 이 기능은 ACTION_GET_CONTENT
인텐트를 사용하여 사용자에게 갤러리 앱에서 이미지를 선택하라는 메시지를 표시할 때 유용합니다.
Kotlin
val image: InputImage try { image = InputImage.fromFilePath(context, uri) } catch (e: IOException) { e.printStackTrace() }
Java
InputImage image; try { image = InputImage.fromFilePath(context, uri); } catch (IOException e) { e.printStackTrace(); }
ByteBuffer
또는 ByteArray
사용
ByteBuffer
또는 ByteArray
에서 InputImage
객체를 만들려면 먼저 media.Image
입력에 대해 앞서 설명한 대로 이미지 회전 각도를 계산합니다.
그런 다음 이미지의 높이, 너비, 색상 인코딩 형식, 회전 각도와 함께 버퍼 또는 배열을 사용하여 InputImage
객체를 만듭니다.
Kotlin
val image = InputImage.fromByteBuffer( byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ) // Or: val image = InputImage.fromByteArray( byteArray, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 )
자바
InputImage image = InputImage.fromByteBuffer(byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ); // Or: InputImage image = InputImage.fromByteArray( byteArray, /* image width */480, /* image height */360, rotation, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 );
Bitmap
사용
Bitmap
객체에서 InputImage
객체를 만들려면 다음과 같이 선언합니다.
Kotlin
val image = InputImage.fromBitmap(bitmap, 0)
Java
InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);
이미지는 회전 각도와 함께 Bitmap
객체로 표시됩니다.
3. 이미지 처리
이미지를 process
메서드에 전달합니다.
Kotlin
val result = recognizer.process(image) .addOnSuccessListener { visionText -> // Task completed successfully // ... } .addOnFailureListener { e -> // Task failed with an exception // ... }
자바
Task<Text> result = recognizer.process(image) .addOnSuccessListener(new OnSuccessListener<Text>() { @Override public void onSuccess(Text visionText) { // Task completed successfully // ... } }) .addOnFailureListener( new OnFailureListener() { @Override public void onFailure(@NonNull Exception e) { // Task failed with an exception // ... } });
4. 인식된 텍스트 블록에서 텍스트 추출
텍스트 인식 작업이 성공하면 Text
객체가 성공 리스너에 전달됩니다. Text
객체는 이미지에서 인식된 전체 텍스트 및 0개 이상의 TextBlock
객체를 포함합니다.
각 TextBlock
은 Line
객체를 0개 이상 포함하는 사각형 모양의 텍스트 블록을 나타냅니다. 각 Line
객체는 0개 이상의 Element
객체를 포함하는 텍스트 줄을 나타냅니다. 각 Element
객체는 단어 또는 단어와 유사한 항목을 나타내며, 0개 이상의 Symbol
객체를 포함합니다. 각 Symbol
객체는 문자, 숫자 또는 단어와 유사한 항목을 나타냅니다.
각 TextBlock
, Line
, Element
, Symbol
객체에 대해 해당 영역에서 인식된 텍스트, 영역의 경계 좌표, 회전 정보, 신뢰도 점수 등과 같은 기타 여러 속성을 가져올 수 있습니다.
예를 들면 다음과 같습니다.
Kotlin
val resultText = result.text for (block in result.textBlocks) { val blockText = block.text val blockCornerPoints = block.cornerPoints val blockFrame = block.boundingBox for (line in block.lines) { val lineText = line.text val lineCornerPoints = line.cornerPoints val lineFrame = line.boundingBox for (element in line.elements) { val elementText = element.text val elementCornerPoints = element.cornerPoints val elementFrame = element.boundingBox } } }
자바
String resultText = result.getText(); for (Text.TextBlock block : result.getTextBlocks()) { String blockText = block.getText(); Point[] blockCornerPoints = block.getCornerPoints(); Rect blockFrame = block.getBoundingBox(); for (Text.Line line : block.getLines()) { String lineText = line.getText(); Point[] lineCornerPoints = line.getCornerPoints(); Rect lineFrame = line.getBoundingBox(); for (Text.Element element : line.getElements()) { String elementText = element.getText(); Point[] elementCornerPoints = element.getCornerPoints(); Rect elementFrame = element.getBoundingBox(); for (Text.Symbol symbol : element.getSymbols()) { String symbolText = symbol.getText(); Point[] symbolCornerPoints = symbol.getCornerPoints(); Rect symbolFrame = symbol.getBoundingBox(); } } } }
입력 이미지 가이드라인
-
ML Kit가 텍스트를 정확하게 인식하려면 입력 이미지에 충분한 픽셀 데이터로 표시된 텍스트가 있어야 합니다. 각 문자가 16x16픽셀 이상인 것이 좋습니다. 일반적으로 문자가 24x24픽셀보다 크면 정확도가 더 이상 향상되지 않습니다.
예를 들어 640x480 이미지는 이미지의 전체 너비를 차지하는 명함을 스캔하는 데 적합합니다. 편지 용지에 인쇄된 문서를 스캔하려면 720x1280픽셀 이미지가 필요할 수 있습니다.
-
이미지 초점이 잘 맞지 않으면 텍스트 인식 정확도가 저하될 수 있습니다. 허용 가능한 수준의 결과를 얻지 못하는 경우 사용자에게 이미지를 다시 캡처하도록 요청합니다.
-
실시간 애플리케이션에서 텍스트를 인식하는 경우 입력 이미지의 전체 크기를 고려해야 합니다. 작은 이미지는 더 빠르게 처리할 수 있습니다. 지연 시간을 줄이려면 텍스트가 가능한 한 많은 이미지를 차지하도록 하고 낮은 해상도에서 이미지를 캡처합니다 (위에서 언급한 정확도 요구사항에 유의). 자세한 내용은 성능 개선을 위한 팁을 참고하세요.
실적 개선을 위한 도움말
Camera
또는camera2
API를 사용하는 경우 감지기 호출을 제한합니다. 인식기가 실행 중일 때 새 동영상 프레임이 제공되는 경우 프레임을 낮춥니다. 예는 빠른 시작 샘플 앱에서VisionProcessorBase
클래스를 참조하세요.CameraX
API를 사용하는 경우 백프레셔 전략이 기본값인ImageAnalysis.STRATEGY_KEEP_ONLY_LATEST
로 설정되어 있는지 확인합니다. 이렇게 하면 분석을 위해 한 번에 하나의 이미지만 전송됩니다. 분석 도구가 사용 중일 때 더 많은 이미지가 생성되면 이미지가 자동으로 삭제되고 전송을 위해 대기열에 추가되지 않습니다. ImageProxy.close()를 호출하여 분석 중인 이미지를 닫으면 다음 최신 이미지가 전송됩니다.- 인식기 출력을 사용하여 입력 이미지에 그래픽을 오버레이하는 경우 먼저 ML Kit에서 결과를 가져온 후 이미지를 렌더링하고 단일 단계로 오버레이합니다. 이는 각 입력 프레임에 대해 한 번만 디스플레이 표면에 렌더링됩니다. 관련 예시는 빠른 시작 샘플 앱에서
CameraSourcePreview
및GraphicOverlay
클래스를 참조하세요. - Camera2 API를 사용할 경우
ImageFormat.YUV_420_888
형식으로 이미지를 캡처합니다. 이전 Camera API를 사용할 경우ImageFormat.NV21
형식으로 이미지를 캡처합니다. - 낮은 해상도에서 이미지 캡처를 고려합니다. 하지만 이 API의 이미지 크기 요구사항도 유의해야 합니다.