文字辨識 v2

ML Kit Text Recognition v2 API 可辨識任何中文、梵文、日文、韓文和拉丁文字元集的文字。這個 API 也可用來自動執行資料輸入工作,例如處理信用卡、收據和名片。

iOS Android

主要功能

  • 辨識各種字集和語言的文字 支援中文、梵文、日文、韓文和拉丁字母文字辨識
  • 分析文字結構支援偵測符號、元素、行和段落
  • 識別文字的語言:識別所辨識文字的語言
  • 即時辨識:可在多種裝置上即時辨識文字

文字結構

文字辨識工具會將文字分成多個區塊、行、元素和符號。粗略說話:

  • Block 是一組連續的文字行,例如段落或資料欄。

  • 線條是同軸上的一組連續字詞

  • 「元素」是一組連續英數字元 (「字詞」),在大部分的拉丁語系中,是同軸的一個字詞

  • 「符號」是同軸上的一個英數字元,在大部分拉丁語系中都是一個英數字元,在其他情況下則是一個字元

下圖按遞減順序顯示每種範例。青色的第一個醒目顯示區塊是文字區塊。第二組醒目顯示的區塊是文字行。最後,第三組以深藍色醒目顯示的區塊是 Words

針對所有偵測到的區塊、線條、元素和符號,API 會傳回定界框、邊角點、旋轉資訊、可信度分數、辨識的語言和已辨識的文字。

搜尋結果範例


相片: Dietmar RabichWikimedia Commons"Düsseldorf, Wege der parlamentarischen Demokratie -- 2015 -- 8123"CC BY-SA 4.0
已識別的文字
文字 Wege
der parlamentarischen
Demokratie
阻攻次數 (1 個區塊)
區塊 0
文字 威爾斯 (Wege der parlamentarischen Demokratie)
頁框 (296、665 到 796、882)
邊角 (296、719)、(778、665)、(796、828)、(314、882)
可識別的語言代碼 de
路線 (3 行)
第 0 行
文字 Wege der
頁框 (434、678 到 670、749)
邊角 (434、705)、(665、678)、(670、722)、(439、749)
可識別的語言代碼 de
可信度分數 0.8766741
旋轉度 -6.6116457
元素 (2 個元素)
元素 0
文字 Wege
頁框 (434、689 到 575、749)
邊角 (434、705)、(570、689)、(575、733)、(439、749)
可識別的語言代碼 de
可信度分數 0.8964844
旋轉度 -6.6116457
元素 (4 個元素)
符號 0
文字
頁框 (434、698 到 500、749)
邊角 (434、706)、(495、698)、(500、741)、(439、749)
可信度分數 0.87109375
旋轉度 -6.611646