テキスト認識 v2

ML Kit Text Recognition v2 API は、中国語、デバナーガリ語、日本語、韓国語、ラテン文字セットのテキストを認識できます。また、クレジット カード、領収書、名刺の処理などのデータ入力タスクを自動化するためにも使用できます。

iOS Android

主な機能

  • さまざまな文字と言語のテキストを認識 中国語、デバナーガリ文字、日本語、韓国語、ラテン文字のテキストの認識をサポートします。
  • テキストの構造の分析記号、要素、行、段落の検出をサポートします。
  • テキストの言語の確認 認識したテキストの言語を指定します
  • リアルタイム認識 さまざまなデバイスでテキストをリアルタイムで認識できます。

テキストの構造

テキスト認識ツールは、テキストをブロック、線、要素、記号に分割します。大まかな流れは次のとおりです。

  • ブロックは段落や列などの連続したテキスト行であり、

  • Line は、同じ軸上で連続した単語のセットです。

  • 要素は、ほとんどのラテン言語では同じ軸上に連続した英数字(「単語」)の集合であり、それ以外の言語では 1 つの単語です。

  • Symbol は、ほとんどのラテン文字で同じ軸に 1 つの英数字(その他の言語では 1 文字)です。

以下の画像は、それぞれの例を降順で示しています。最初にハイライトされたシアンのブロックは、テキストのブロックです。青色のハイライト表示されたブロックの 2 つ目のセットは、テキスト行です。最後に、濃い青色でハイライト表示された 3 つ目のブロックは単語です。

検出されたすべてのブロック、線、要素、記号について、API は境界ボックス、角のポイント、回転情報、信頼スコア、認識された言語、認識されたテキストを返します。

検索結果の例


写真: Dietmar RabichWikimedia Commons"Düsseldorf, Wege der parlamentarischen Demokratie -- 2015 -- 8123"CC BY-SA 4.0
認識されたテキスト
テキスト Wege
der parlamentarischen
民主主義者
ブロック (1 ブロック)
ブロック 0
テキスト ウェゲ デル パラメンタリッシェン デモクラティエ
フレーム (296, 665 ~ 796, 882)
角のポイント (296, 719)、(778, 665)、(796, 828)、(314, 882)
認識された言語コード de
(3 行)
行 0
テキスト ヴェーゲ デル
フレーム (434、678 ~ 670、749)
角のポイント (434, 705)、(665, 678)、(670, 722)、(439, 749)
認識された言語コード de
信頼スコア 0.8766741
回転の度数 -6.6116457
要素 (2 要素)
要素 0
テキスト ウェージ
フレーム (434、689 ~ 575、749)
角のポイント (434, 705)、(570, 689)、(575, 733)、(439, 749)
認識された言語コード de
信頼スコア 0.8964844
回転の度数 -6.6116457
要素 (4 要素)
記号 0
テキスト W
フレーム (434、698 ~ 500、749)
角のポイント (434, 706)、(495, 698)、(500, 741)、(439, 749)
信頼スコア 0.87109375
回転の度数 -6.611646