Texterkennung Version 2

Die ML Kit Text Recognition v2 API kann Text in jedem Zeichensatz aus Chinesisch, Devanagari, Japanisch, Koreanisch und Latein erkennen. Die API kann auch verwendet werden, um Dateneingabeaufgaben wie die Verarbeitung von Kreditkarten, Belegen und Visitenkarten zu automatisieren.

iOS Android

Hauptmerkmale

  • Texterkennung in verschiedenen Schriftsystemen und Sprachen Unterstützt die Erkennung von Text in chinesischen, Devanagari-, japanischen, koreanischen und lateinischen Schriftzeichen
  • Analysiert die Textstruktur Unterstützt die Erkennung von Symbolen, Elementen, Linien und Absätzen
  • Sprache des Textes erkennen Identifiziert die Sprache des erkannten Textes
  • Echtzeiterkennung: Erkennung von Text in Echtzeit auf einer Vielzahl von Geräten

Textstruktur

Die Texterkennung unterteilt Text in Blöcke, Linien, Elemente und Symbole. Ganz allgemein:

  • ist ein Block ein zusammenhängender Satz von Textzeilen, z. B. ein Absatz oder eine Spalte.

  • Eine Linie ist eine zusammenhängende Gruppe von Wörtern auf derselben Achse und

  • Ein Element ist in den meisten lateinischen Sprachen ein zusammenhängender Satz alphanumerischer Zeichen ("Wort") auf derselben Achse und in anderen Sprachen ein Wort

  • Ein Symbol ist in den meisten lateinischen Sprachen ein einzelnes alphanumerisches Zeichen auf derselben Achse, in anderen Sprachen ein Zeichen

In der Abbildung unten sehen Sie jeweils ein Beispiel in absteigender Reihenfolge. Der erste hervorgehobene Block in Cyan ist ein Textblock. Die zweite Gruppe hervorgehobener Blöcke in Blau sind Textzeilen. Die dritte Gruppe hervorgehobener Blöcke in Dunkelblau sind „Words“.

Für alle erkannten Blöcke, Linien, Elemente und Symbole gibt die API die Begrenzungsrahmen, Eckpunkte, Rotationsinformationen, den Konfidenzwert, die erkannten Sprachen und den erkannten Text zurück.

Beispielergebnisse


Foto: Dietmar Rabich, Wikimedia Commons, „Düsseldorf, Wege der parlamentarischen Demokratie – 2015 – 8123“, CC BY-SA 4.0
Erkannter Text
Text Wege
der parlamentarischen
Demokratie
Blocks (1 Block)
Block 0
Text Wege der parlamentarischen Demokratie
Frame (296, 665–796, 882)
Eckpunkte (296, 719), (778, 665), (796, 828), (314, 882)
Erkannter Sprachcode de
Zeilen (3 Zeilen)
Zeile 0
Text Wege der
Frame (434, 678–670, 749)
Eckpunkte (434, 705), (665, 678), (670, 722), (439, 749)
Erkannter Sprachcode de
Konfidenzwert 0,8766741
Rotationsgrad -6,6116457
Elemente (2 Elemente)
Element 0
Text Wege
Frame (434, 689–575, 749)
Eckpunkte (434, 705), (570, 689), (575, 733), (439, 749)
Erkannter Sprachcode de
Konfidenzwert 0,8964844
Rotationsgrad -6,6116457
Elemente (4 Elemente)
Symbol 0
Text W
Frame (434, 698–500, 749)
Eckpunkte (434, 706), (495, 698), (500, 741), (439, 749)
Konfidenzwert 0,87109375
Rotationsgrad -6,611646