Mit ML Kit können Sie Text in Bildern oder Videos erkennen, z. B. den Text eines Straßenschilds. Die wichtigsten Merkmale dieser Funktion sind:
Funktion | Nicht in Paketen | Gebündelt |
---|---|---|
Name der Bibliothek | com.google.android.gms:play-services-mlkit-text-recognition
com.google.android.gms:play-services-mlkit-text-recognition-chinese com.google.android.gms:play-services-mlkit-text-recognition-devanagari com.google.android.gms:play-services-mlkit-text-recognition-japanese com.google.android.gms:play-services-mlkit-text-recognition-korean |
com.google.mlkit:text-recognition
com.google.mlkit:text-recognition-chinese com.google.mlkit:text-recognition-devanagari com.google.mlkit:text-recognition-japanese com.google.mlkit:text-recognition-korean |
Implementierung | Das Modell wird dynamisch über die Google Play-Dienste heruntergeladen. | Das Modell wird zur Buildzeit statisch mit Ihrer App verknüpft. |
App-Größe | Pro Skriptarchitektur wird die Größe um etwa 260 KB erhöht. | Die Größe der Scripts erhöht sich um etwa 4 MB pro Architektur. |
Initialisierungszeit | Vor der ersten Verwendung kann es möglicherweise etwas dauern, bis das Modell heruntergeladen wurde. | Modell ist sofort verfügbar. |
Leistung | Auf den meisten Geräten in Echtzeit für die lateinische Schriftbibliothek, auf anderen langsamer. | Echtzeit auf den meisten Geräten für die lateinamerikanische Skriptbibliothek, auf anderen langsamer |
Jetzt ausprobieren
- In der Beispielanwendung sehen Sie ein Beispiel für die Verwendung dieser API.
- Testen Sie den Code selbst mit dem Codelab.
Vorbereitung
- In die Datei
build.gradle
auf Projektebene muss das Maven-Repository von Google in die Abschnittebuildscript
undallprojects
aufgenommen werden. Fügen Sie der Gradle-Datei Ihres Moduls auf App-Ebene (in der Regel
app/build.gradle
) die Abhängigkeiten für die ML Kit-Android-Bibliotheken hinzu:So bündeln Sie das Modell mit Ihrer App:
dependencies { // To recognize Latin script implementation 'com.google.mlkit:text-recognition:16.0.1' // To recognize Chinese script implementation 'com.google.mlkit:text-recognition-chinese:16.0.1' // To recognize Devanagari script implementation 'com.google.mlkit:text-recognition-devanagari:16.0.1' // To recognize Japanese script implementation 'com.google.mlkit:text-recognition-japanese:16.0.1' // To recognize Korean script implementation 'com.google.mlkit:text-recognition-korean:16.0.1' }
Verwendung des Modells in Google Play-Diensten:
dependencies { // To recognize Latin script implementation 'com.google.android.gms:play-services-mlkit-text-recognition:19.0.1' // To recognize Chinese script implementation 'com.google.android.gms:play-services-mlkit-text-recognition-chinese:16.0.1' // To recognize Devanagari script implementation 'com.google.android.gms:play-services-mlkit-text-recognition-devanagari:16.0.1' // To recognize Japanese script implementation 'com.google.android.gms:play-services-mlkit-text-recognition-japanese:16.0.1' // To recognize Korean script implementation 'com.google.android.gms:play-services-mlkit-text-recognition-korean:16.0.1' }
Wenn Sie das Modell in Google Play-Diensten verwenden, können Sie Ihre App so konfigurieren, dass das Modell automatisch auf das Gerät heruntergeladen wird, nachdem Ihre App aus dem Play Store installiert wurde. Fügen Sie dazu der Datei
AndroidManifest.xml
Ihrer App die folgende Deklaration hinzu:<application ...> ... <meta-data android:name="com.google.mlkit.vision.DEPENDENCIES" android:value="ocr" > <!-- To use multiple models: android:value="ocr,ocr_chinese,ocr_devanagari,ocr_japanese,ocr_korean,..." --> </application>
Sie können die Verfügbarkeit des Modells auch explizit prüfen und den Download über die ModuleInstallClient API von Google Play-Diensten anfordern. Wenn Sie das Installationszeitmodell nicht aktivieren herunterladen oder expliziten Download anfordern, wird das Modell zuerst wenn Sie den Scanner ausführen. Anfragen, die Sie stellen, bevor der Download Fertigstellen, erzeugen keine Ergebnisse.
1. Instanz von TextRecognizer
erstellen
Erstellen Sie eine Instanz von TextRecognizer
und übergeben Sie die Optionen.
zu der Bibliothek, für die Sie oben eine Abhängigkeit erklärt haben:
Kotlin
// When using Latin script library val recognizer = TextRecognition.getClient(TextRecognizerOptions.DEFAULT_OPTIONS) // When using Chinese script library val recognizer = TextRecognition.getClient(ChineseTextRecognizerOptions.Builder().build()) // When using Devanagari script library val recognizer = TextRecognition.getClient(DevanagariTextRecognizerOptions.Builder().build()) // When using Japanese script library val recognizer = TextRecognition.getClient(JapaneseTextRecognizerOptions.Builder().build()) // When using Korean script library val recognizer = TextRecognition.getClient(KoreanTextRecognizerOptions.Builder().build())
Java
// When using Latin script library TextRecognizer recognizer = TextRecognition.getClient(TextRecognizerOptions.DEFAULT_OPTIONS); // When using Chinese script library TextRecognizer recognizer = TextRecognition.getClient(new ChineseTextRecognizerOptions.Builder().build()); // When using Devanagari script library TextRecognizer recognizer = TextRecognition.getClient(new DevanagariTextRecognizerOptions.Builder().build()); // When using Japanese script library TextRecognizer recognizer = TextRecognition.getClient(new JapaneseTextRecognizerOptions.Builder().build()); // When using Korean script library TextRecognizer recognizer = TextRecognition.getClient(new KoreanTextRecognizerOptions.Builder().build());
2. Eingabebild vorbereiten
Um Text in einem Bild zu erkennen, erstellen Sie ein InputImage
-Objekt aus
ein Bitmap
-, media.Image
-, ByteBuffer
-, Byte-Array oder eine Datei im
. Übergeben Sie dann das InputImage
-Objekt an den
Die Methode processImage
von TextRecognizer
.
Sie können ein InputImage
-Objekt aus verschiedenen Quellen erstellen. Im Folgenden werden die einzelnen Quellen erläutert.
Mit einem media.Image
So erstellen Sie eine InputImage
:
media.Image
-Objekts erstellen, beispielsweise wenn Sie ein Bild von einem
des Geräts an, übergeben Sie das media.Image
-Objekt und die
Drehung auf InputImage.fromMediaImage()
.
Wenn Sie die CameraX-Bibliothek verwenden, wird der Drehwert von den Klassen OnImageCapturedListener
und ImageAnalysis.Analyzer
für Sie berechnet.
Kotlin
private class YourImageAnalyzer : ImageAnalysis.Analyzer { override fun analyze(imageProxy: ImageProxy) { val mediaImage = imageProxy.image if (mediaImage != null) { val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees) // Pass image to an ML Kit Vision API // ... } } }
Java
private class YourAnalyzer implements ImageAnalysis.Analyzer { @Override public void analyze(ImageProxy imageProxy) { Image mediaImage = imageProxy.getImage(); if (mediaImage != null) { InputImage image = InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees()); // Pass image to an ML Kit Vision API // ... } } }
Wenn Sie keine Kamerabibliothek verwenden, die Ihnen den Drehungsgrad des Bildes anzeigt, lässt sich anhand des Drehungsgrads des Geräts und der Ausrichtung der Kamera berechnen. Sensor im Gerät:
Kotlin
private val ORIENTATIONS = SparseIntArray() init { ORIENTATIONS.append(Surface.ROTATION_0, 0) ORIENTATIONS.append(Surface.ROTATION_90, 90) ORIENTATIONS.append(Surface.ROTATION_180, 180) ORIENTATIONS.append(Surface.ROTATION_270, 270) } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) @Throws(CameraAccessException::class) private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. val deviceRotation = activity.windowManager.defaultDisplay.rotation var rotationCompensation = ORIENTATIONS.get(deviceRotation) // Get the device's sensor orientation. val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager val sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION)!! if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360 } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360 } return rotationCompensation }
Java
private static final SparseIntArray ORIENTATIONS = new SparseIntArray(); static { ORIENTATIONS.append(Surface.ROTATION_0, 0); ORIENTATIONS.append(Surface.ROTATION_90, 90); ORIENTATIONS.append(Surface.ROTATION_180, 180); ORIENTATIONS.append(Surface.ROTATION_270, 270); } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing) throws CameraAccessException { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation(); int rotationCompensation = ORIENTATIONS.get(deviceRotation); // Get the device's sensor orientation. CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE); int sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION); if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360; } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360; } return rotationCompensation; }
Übergeben Sie dann das media.Image
-Objekt und den Wert für den Drehungsgrad an InputImage.fromMediaImage()
:
Kotlin
val image = InputImage.fromMediaImage(mediaImage, rotation)
Java
InputImage image = InputImage.fromMediaImage(mediaImage, rotation);
Datei-URI verwenden
Wenn du ein InputImage
-Objekt aus einem Datei-URI erstellen möchtest, übergebe den App-Kontext und den Datei-URI an InputImage.fromFilePath()
. Dies ist nützlich, wenn Sie
Verwenden Sie den Intent ACTION_GET_CONTENT
, um den Nutzer zur Auswahl aufzufordern
ein Bild aus ihrer Galerie-App.
Kotlin
val image: InputImage try { image = InputImage.fromFilePath(context, uri) } catch (e: IOException) { e.printStackTrace() }
Java
InputImage image; try { image = InputImage.fromFilePath(context, uri); } catch (IOException e) { e.printStackTrace(); }
ByteBuffer
oder ByteArray
verwenden
Wenn Sie ein InputImage
-Objekt aus einem ByteBuffer
oder ByteArray
erstellen möchten, berechnen Sie zuerst den Drehwinkel des Bildes, wie oben für die media.Image
-Eingabe beschrieben.
Erstellen Sie dann das InputImage
-Objekt mit dem Zwischenspeicher oder Array
Höhe, Breite, Farbcodierungsformat und Drehungsgrad:
Kotlin
val image = InputImage.fromByteBuffer( byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ) // Or: val image = InputImage.fromByteArray( byteArray, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 )
Java
InputImage image = InputImage.fromByteBuffer(byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ); // Or: InputImage image = InputImage.fromByteArray( byteArray, /* image width */480, /* image height */360, rotation, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 );
Mit einem Bitmap
So erstellen Sie eine InputImage
:
Bitmap
-Objekt zu erstellen, nehmen Sie folgende Deklaration vor:
Kotlin
val image = InputImage.fromBitmap(bitmap, 0)
Java
InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);
Das Bild wird durch ein Bitmap
-Objekt in Verbindung mit Drehungsgrad dargestellt.
3. Bild verarbeiten
Übergeben Sie das Bild an die Methode process
:
Kotlin
val result = recognizer.process(image) .addOnSuccessListener { visionText -> // Task completed successfully // ... } .addOnFailureListener { e -> // Task failed with an exception // ... }
Java
Task<Text> result = recognizer.process(image) .addOnSuccessListener(new OnSuccessListener<Text>() { @Override public void onSuccess(Text visionText) { // Task completed successfully // ... } }) .addOnFailureListener( new OnFailureListener() { @Override public void onFailure(@NonNull Exception e) { // Task failed with an exception // ... } });
4. Text aus erkannten Textblöcken extrahieren
Wenn die Texterkennung erfolgreich ist, wird ein Text
-Objekt an
die Zuhörer zu präsentieren. Ein Text
-Objekt enthält den vollständigen im Bild erkannten Text und null oder mehr TextBlock
-Objekte.
Jedes TextBlock
steht für einen rechteckigen Textblock.
die null oder mehr Line
-Objekte enthält. Jedes
Das Objekt Line
stellt eine Textzeile dar, die null enthält
oder mehr Element
-Objekte. Jedes Element
-Objekt steht für ein Wort oder eine wortähnliche Entität, die null oder mehr Symbol
-Objekte enthält. Jedes Symbol
-Objekt ein Zeichen, eine Zahl oder eine wortähnliche Entität darstellt.
Für jedes TextBlock
-, Line
-, Element
- und Symbol
-Objekt können Sie den in der Region erkannten Text, die Begrenzungskoordinaten der Region und viele andere Attribute wie Drehungsinformationen und den Konfidenzwert abrufen.
Beispiel:
Kotlin
val resultText = result.text for (block in result.textBlocks) { val blockText = block.text val blockCornerPoints = block.cornerPoints val blockFrame = block.boundingBox for (line in block.lines) { val lineText = line.text val lineCornerPoints = line.cornerPoints val lineFrame = line.boundingBox for (element in line.elements) { val elementText = element.text val elementCornerPoints = element.cornerPoints val elementFrame = element.boundingBox } } }
Java
String resultText = result.getText(); for (Text.TextBlock block : result.getTextBlocks()) { String blockText = block.getText(); Point[] blockCornerPoints = block.getCornerPoints(); Rect blockFrame = block.getBoundingBox(); for (Text.Line line : block.getLines()) { String lineText = line.getText(); Point[] lineCornerPoints = line.getCornerPoints(); Rect lineFrame = line.getBoundingBox(); for (Text.Element element : line.getElements()) { String elementText = element.getText(); Point[] elementCornerPoints = element.getCornerPoints(); Rect elementFrame = element.getBoundingBox(); for (Text.Symbol symbol : element.getSymbols()) { String symbolText = symbol.getText(); Point[] symbolCornerPoints = symbol.getCornerPoints(); Rect symbolFrame = symbol.getBoundingBox(); } } } }
Richtlinien für Eingabebilder
-
Damit ML Kit Text genau erkennen kann, müssen Eingabebilder Text enthalten, der durch ausreichende Pixeldaten dargestellt wird. Idealerweise sollte jedes Zeichen mindestens 16 × 16 Pixel groß sein. In der Regel gibt es keine Verbesserung der Genauigkeit bei Zeichen, die größer als 24 x 24 Pixel sind.
So eignet sich beispielsweise ein Bild mit einer Auflösung von 640 × 480 Pixeln gut zum Scannen einer Visitenkarte, die die gesamte Breite des Bildes einnimmt. Wenn Sie ein Dokument scannen möchten, das auf Papier im Letter-Format gedruckt wurde, ist möglicherweise ein Bild mit 720 × 1.280 Pixeln erforderlich.
-
Ein unscharfer Bildfokus kann die Genauigkeit der Texterkennung beeinträchtigen. Wenn Sie keine zufriedenstellenden Ergebnisse erhalten, bitten Sie den Nutzer, das Bild noch einmal aufzunehmen.
-
Wenn Sie Text in einer Echtzeitanwendung erkennen, sollten Sie die Gesamtabmessungen der Eingabebilder berücksichtigen. Kleinere Bilder können schneller verarbeitet werden. Um die Latenz zu verringern, sollte der Text möglichst viel Platz im Bild einnehmen. Außerdem sollten Sie Bilder mit niedrigerer Auflösung aufnehmen, wobei Sie die oben genannten Anforderungen an die Genauigkeit beachten. Weitere Informationen finden Sie unter Tipps zur Leistungssteigerung.
Tipps zur Leistungsverbesserung
- Wenn Sie den
Camera
odercamera2
API, drosselt Aufrufe an den Detektor. Wenn ein neues Video wenn der Detektor ausgeführt wird, lassen Sie den Frame weg. Ein Beispiel finden Sie in der KlasseVisionProcessorBase
in der Beispiel-App für die Schnellstartanleitung. - Wenn Sie die
CameraX
API verwenden, Achten Sie darauf, dass die Rückstaustrategie auf den Standardwert eingestellt istImageAnalysis.STRATEGY_KEEP_ONLY_LATEST
Dadurch wird garantiert, dass jeweils nur ein Bild zur Analyse geliefert wird. Wenn mehr Bilder erstellt werden, während der Analyser beschäftigt ist, werden sie automatisch gelöscht und nicht für die Übermittlung in die Warteschlange gestellt. Sobald das zu analysierende Bild durch Aufrufen ImageProxy.close() wird das nächste Bild geliefert. - Wenn Sie die Ausgabe des Detektors verwenden, um Grafiken auf das Eingabebild zu legen, rufen Sie zuerst das Ergebnis aus ML Kit ab und rendern Sie dann das Bild und das Overlay in einem einzigen Schritt. Dadurch wird die Anzeigeoberfläche gerendert,
für jeden Eingabe-Frame nur einmal. Weitere Informationen finden Sie in der
CameraSourcePreview
undGraphicOverlay
-Klassen in der Schnellstart-Beispiel-App als Beispiel. - Wenn Sie die Camera2 API verwenden, nehmen Sie Bilder in
ImageFormat.YUV_420_888
-Format. Wenn Sie die ältere Camera API verwenden, nehmen Sie Bilder inImageFormat.NV21
-Format. - Sie können auch Bilder mit niedrigerer Auflösung aufnehmen. Denken Sie jedoch auch daran, Anforderungen an die Bildabmessungen dieser API.