Nhận dạng mực kỹ thuật số bằng Bộ công cụ học máy trên Android

Với tính năng nhận dạng mực kỹ thuật số của Bộ công cụ học máy, bạn có thể nhận dạng văn bản viết tay trên bề mặt kỹ thuật số bằng hàng trăm ngôn ngữ, cũng như phân loại các bản phác thảo.

Dùng thử

Trước khi bắt đầu

  1. Trong tệp build.gradle ở cấp dự án, hãy nhớ đưa kho lưu trữ Maven của Google vào cả hai phần buildscriptallprojects.
  2. Thêm các phần phụ thuộc cho thư viện Android Bộ công cụ học máy vào tệp Gradle cấp ứng dụng của mô-đun, thường là app/build.gradle:
dependencies {
  // ...
  implementation 'com.google.mlkit:digital-ink-recognition:18.1.0'
}

Giờ đây, bạn đã sẵn sàng bắt đầu nhận dạng văn bản trong các đối tượng Ink.

Tạo một đối tượng Ink

Cách chính để tạo đối tượng Ink là vẽ đối tượng đó trên màn hình cảm ứng. Trên Android, bạn có thể sử dụng Canvas cho mục đích này. Trình xử lý sự kiện chạm phải gọi phương thức addNewTouchEvent() hiển thị đoạn mã sau đây để lưu trữ các điểm trong nét mà người dùng vẽ vào đối tượng Ink.

Mẫu chung này được minh hoạ trong đoạn mã sau. Hãy xem mẫu bắt đầu nhanh của Bộ công cụ học máy để biết ví dụ đầy đủ hơn.

Kotlin

var inkBuilder = Ink.builder()
lateinit var strokeBuilder: Ink.Stroke.Builder

// Call this each time there is a new event.
fun addNewTouchEvent(event: MotionEvent) {
  val action = event.actionMasked
  val x = event.x
  val y = event.y
  var t = System.currentTimeMillis()

  // If your setup does not provide timing information, you can omit the
  // third paramater (t) in the calls to Ink.Point.create
  when (action) {
    MotionEvent.ACTION_DOWN -> {
      strokeBuilder = Ink.Stroke.builder()
      strokeBuilder.addPoint(Ink.Point.create(x, y, t))
    }
    MotionEvent.ACTION_MOVE -> strokeBuilder!!.addPoint(Ink.Point.create(x, y, t))
    MotionEvent.ACTION_UP -> {
      strokeBuilder.addPoint(Ink.Point.create(x, y, t))
      inkBuilder.addStroke(strokeBuilder.build())
    }
    else -> {
      // Action not relevant for ink construction
    }
  }
}

...

// This is what to send to the recognizer.
val ink = inkBuilder.build()

Java

Ink.Builder inkBuilder = Ink.builder();
Ink.Stroke.Builder strokeBuilder;

// Call this each time there is a new event.
public void addNewTouchEvent(MotionEvent event) {
  float x = event.getX();
  float y = event.getY();
  long t = System.currentTimeMillis();

  // If your setup does not provide timing information, you can omit the
  // third paramater (t) in the calls to Ink.Point.create
  int action = event.getActionMasked();
  switch (action) {
    case MotionEvent.ACTION_DOWN:
      strokeBuilder = Ink.Stroke.builder();
      strokeBuilder.addPoint(Ink.Point.create(x, y, t));
      break;
    case MotionEvent.ACTION_MOVE:
      strokeBuilder.addPoint(Ink.Point.create(x, y, t));
      break;
    case MotionEvent.ACTION_UP:
      strokeBuilder.addPoint(Ink.Point.create(x, y, t));
      inkBuilder.addStroke(strokeBuilder.build());
      strokeBuilder = null;
      break;
  }
}

...

// This is what to send to the recognizer.
Ink ink = inkBuilder.build();

Tải một phiên bản của DigitalInkRecognitionr

Để nhận dạng, hãy gửi thực thể Ink đến đối tượng DigitalInkRecognizer. Đoạn mã dưới đây cho biết cách tạo thực thể của một trình nhận dạng như vậy từ thẻ BCP-47.

Kotlin

// Specify the recognition model for a language
var modelIdentifier: DigitalInkRecognitionModelIdentifier
try {
  modelIdentifier = DigitalInkRecognitionModelIdentifier.fromLanguageTag("en-US")
} catch (e: MlKitException) {
  // language tag failed to parse, handle error.
}
if (modelIdentifier == null) {
  // no model was found, handle error.
}
var model: DigitalInkRecognitionModel =
    DigitalInkRecognitionModel.builder(modelIdentifier).build()


// Get a recognizer for the language
var recognizer: DigitalInkRecognizer =
    DigitalInkRecognition.getClient(
        DigitalInkRecognizerOptions.builder(model).build())

Java

// Specify the recognition model for a language
DigitalInkRecognitionModelIdentifier modelIdentifier;
try {
  modelIdentifier =
    DigitalInkRecognitionModelIdentifier.fromLanguageTag("en-US");
} catch (MlKitException e) {
  // language tag failed to parse, handle error.
}
if (modelIdentifier == null) {
  // no model was found, handle error.
}

DigitalInkRecognitionModel model =
    DigitalInkRecognitionModel.builder(modelIdentifier).build();

// Get a recognizer for the language
DigitalInkRecognizer recognizer =
    DigitalInkRecognition.getClient(
        DigitalInkRecognizerOptions.builder(model).build());

Xử lý đối tượng Ink

Kotlin

recognizer.recognize(ink)
    .addOnSuccessListener { result: RecognitionResult ->
      // `result` contains the recognizer's answers as a RecognitionResult.
      // Logs the text from the top candidate.
      Log.i(TAG, result.candidates[0].text)
    }
    .addOnFailureListener { e: Exception ->
      Log.e(TAG, "Error during recognition: $e")
    }

Java

recognizer.recognize(ink)
    .addOnSuccessListener(
        // `result` contains the recognizer's answers as a RecognitionResult.
        // Logs the text from the top candidate.
        result -> Log.i(TAG, result.getCandidates().get(0).getText()))
    .addOnFailureListener(
        e -> Log.e(TAG, "Error during recognition: " + e));

Mã mẫu ở trên giả định rằng mô hình nhận dạng đã được tải xuống, như mô tả trong phần tiếp theo.

Quản lý lượt tải mô hình xuống

Mặc dù API nhận dạng mực kỹ thuật số hỗ trợ hàng trăm ngôn ngữ, nhưng mỗi ngôn ngữ yêu cầu tải một số dữ liệu xuống trước khi nhận dạng bất kỳ ngôn ngữ nào. Cần có khoảng 20 MB dung lượng lưu trữ cho mỗi ngôn ngữ. Việc này do đối tượng RemoteModelManager xử lý.

Tải mô hình mới xuống

Kotlin

import com.google.mlkit.common.model.DownloadConditions
import com.google.mlkit.common.model.RemoteModelManager

var model: DigitalInkRecognitionModel =  ...
val remoteModelManager = RemoteModelManager.getInstance()

remoteModelManager.download(model, DownloadConditions.Builder().build())
    .addOnSuccessListener {
      Log.i(TAG, "Model downloaded")
    }
    .addOnFailureListener { e: Exception ->
      Log.e(TAG, "Error while downloading a model: $e")
    }

Java

import com.google.mlkit.common.model.DownloadConditions;
import com.google.mlkit.common.model.RemoteModelManager;

DigitalInkRecognitionModel model = ...;
RemoteModelManager remoteModelManager = RemoteModelManager.getInstance();

remoteModelManager
    .download(model, new DownloadConditions.Builder().build())
    .addOnSuccessListener(aVoid -> Log.i(TAG, "Model downloaded"))
    .addOnFailureListener(
        e -> Log.e(TAG, "Error while downloading a model: " + e));

Kiểm tra xem mô hình đã được tải xuống hay chưa

Kotlin

var model: DigitalInkRecognitionModel =  ...
remoteModelManager.isModelDownloaded(model)

Java

DigitalInkRecognitionModel model = ...;
remoteModelManager.isModelDownloaded(model);

Xoá mô hình đã tải xuống

Việc xoá một kiểu máy khỏi bộ nhớ của thiết bị sẽ giải phóng dung lượng.

Kotlin

var model: DigitalInkRecognitionModel =  ...
remoteModelManager.deleteDownloadedModel(model)
    .addOnSuccessListener {
      Log.i(TAG, "Model successfully deleted")
    }
    .addOnFailureListener { e: Exception ->
      Log.e(TAG, "Error while deleting a model: $e")
    }

Java

DigitalInkRecognitionModel model = ...;
remoteModelManager.deleteDownloadedModel(model)
                  .addOnSuccessListener(
                      aVoid -> Log.i(TAG, "Model successfully deleted"))
                  .addOnFailureListener(
                      e -> Log.e(TAG, "Error while deleting a model: " + e));

Mẹo cải thiện độ chính xác của tính năng nhận dạng văn bản

Độ chính xác của tính năng nhận dạng văn bản có thể khác nhau giữa các ngôn ngữ. Độ chính xác cũng phụ thuộc vào phong cách viết. Mặc dù công nghệ Nhận dạng mực kỹ thuật số được huấn luyện để xử lý nhiều loại kiểu viết, nhưng kết quả có thể khác nhau tuỳ theo người dùng.

Sau đây là một số cách cải thiện độ chính xác của trình nhận dạng văn bản. Xin lưu ý rằng những kỹ thuật này không áp dụng cho thuật toán phân loại bản vẽ đối với biểu tượng cảm xúc, tính năng tự động vẽ và hình dạng.

Khu vực viết

Nhiều ứng dụng có vùng viết được xác định rõ ràng cho thao tác nhập của người dùng. Ý nghĩa của biểu tượng được xác định một phần dựa trên kích thước tương ứng với kích thước của vùng viết chứa ký hiệu đó. Ví dụ: sự khác biệt giữa chữ cái viết thường hoặc viết hoa "o" hoặc "c", dấu phẩy so với dấu gạch chéo lên.

Việc cho trình nhận dạng biết chiều rộng và chiều cao của vùng viết có thể cải thiện độ chính xác. Tuy nhiên, trình nhận dạng sẽ giả định rằng vùng viết chỉ chứa một dòng văn bản. Nếu vùng viết thực tế đủ lớn để cho phép người dùng viết 2 dòng trở lên, bạn có thể nhận được kết quả tốt hơn bằng cách truyền vào một WriteArea có chiều cao là ước tính chính xác nhất về chiều cao của một dòng văn bản. Đối tượng WriteArea mà bạn truyền đến trình nhận dạng không cần phải tương ứng chính xác với vùng viết thực trên màn hình. Việc thay đổi chiều cao của WriteArea theo cách này sẽ hoạt động tốt hơn ở một số ngôn ngữ so với các ngôn ngữ khác.

Khi bạn chỉ định vùng viết, hãy chỉ định chiều rộng và chiều cao của vùng đó bằng cùng đơn vị với toạ độ nét vẽ. Đối số toạ độ x,y không có yêu cầu về đơn vị – API chuẩn hoá tất cả đơn vị, vì vậy, điều duy nhất quan trọng là kích thước và vị trí tương đối của nét. Bạn có thể truyền toạ độ theo bất kỳ tỷ lệ nào phù hợp với hệ thống của mình.

Bối cảnh trước

Ngữ cảnh trước là văn bản đứng ngay trước nét chữ trong Ink mà bạn đang cố gắng nhận dạng. Bạn có thể giúp trình nhận dạng bằng cách nói về bối cảnh trước.

Ví dụ: các chữ cái viết tay "n" và "u" thường bị nhầm lẫn với nhau. Nếu người dùng đã nhập một phần từ "arg", họ có thể tiếp tục bằng các nét vẽ có thể được nhận dạng là "ument" hoặc "nment". Việc chỉ định "arg" trước ngữ cảnh sẽ giải quyết sự không rõ ràng, vì từ "đối số" có nhiều khả năng hơn "argnment".

Bối cảnh trước cũng có thể giúp trình nhận dạng xác định dấu ngắt từ, dấu cách giữa các từ. Bạn có thể nhập một ký tự dấu cách nhưng không thể vẽ một ký tự, vậy làm thế nào trình nhận dạng có thể xác định thời điểm một từ kết thúc và từ tiếp theo bắt đầu? Nếu người dùng đã viết "hello" và tiếp tục với từ "world" (thế giới), nếu không có ngữ cảnh trước thì trình nhận dạng sẽ trả về chuỗi "world". Tuy nhiên, nếu bạn chỉ định chữ "hello" trước ngữ cảnh, thì mô hình sẽ trả về chuỗi "world" (thế giới), với một dấu cách ở đầu, vì "helloworld" sẽ có ý nghĩa hơn "helloword".

Bạn nên cung cấp chuỗi dài nhất có thể theo ngữ cảnh trước, tối đa 20 ký tự, bao gồm cả dấu cách. Nếu chuỗi dài hơn thì trình nhận dạng chỉ sử dụng 20 ký tự cuối cùng.

Mã mẫu dưới đây cho biết cách xác định một vùng viết và sử dụng đối tượng RecognitionContext để chỉ định ngữ cảnh trước.

Kotlin

var preContext : String = ...;
var width : Float = ...;
var height : Float = ...;
val recognitionContext : RecognitionContext =
    RecognitionContext.builder()
        .setPreContext(preContext)
        .setWritingArea(WritingArea(width, height))
        .build()

recognizer.recognize(ink, recognitionContext)

Java

String preContext = ...;
float width = ...;
float height = ...;
RecognitionContext recognitionContext =
    RecognitionContext.builder()
                      .setPreContext(preContext)
                      .setWritingArea(new WritingArea(width, height))
                      .build();

recognizer.recognize(ink, recognitionContext);

Thứ tự nét vẽ

Độ chính xác của tính năng nhận dạng phụ thuộc vào thứ tự nét vẽ. Trình nhận dạng mong muốn các nét vẽ sẽ xảy ra theo thứ tự mà mọi người sẽ viết một cách tự nhiên; ví dụ: từ trái sang phải đối với tiếng Anh. Mọi trường hợp khởi hành từ mẫu này, chẳng hạn như viết một câu tiếng Anh bắt đầu bằng từ cuối cùng, sẽ cho kết quả kém chính xác hơn.

Ví dụ khác là trường hợp một từ ở giữa Ink bị xoá và thay thế bằng một từ khác. Bản sửa đổi có thể nằm ở giữa câu, nhưng các nét của bản sửa đổi lại ở cuối trình tự nét vẽ. Trong trường hợp này, bạn nên gửi riêng từ mới viết tới API và hợp nhất kết quả với những nhận dạng trước đó bằng cách sử dụng logic của riêng bạn.

Xử lý những hình dạng mơ hồ

Có những trường hợp ý nghĩa của hình dạng được cung cấp cho trình nhận dạng là không rõ ràng. Ví dụ: một hình chữ nhật có các cạnh rất tròn có thể được xem là hình chữ nhật hoặc hình elip.

Bạn có thể xử lý những trường hợp không rõ ràng này bằng cách sử dụng điểm số nhận dạng (nếu có). Chỉ các thuật toán phân loại hình dạng mới cung cấp điểm. Nếu mô hình rất tự tin, điểm số của kết quả hàng đầu sẽ cao hơn nhiều so với kết quả tốt thứ hai. Nếu không chắc chắn, điểm số cho hai kết quả hàng đầu sẽ sát nhau. Ngoài ra, hãy lưu ý rằng các thuật toán phân loại hình dạng sẽ diễn giải toàn bộ Ink là một hình dạng duy nhất. Ví dụ: nếu Ink chứa một hình chữ nhật và một hình elip nằm cạnh nhau, thì trình nhận dạng có thể trả về kết quả là một hình chữ nhật (hoặc một hình dạng hoàn toàn khác), vì một đề xuất nhận dạng duy nhất không thể biểu thị hai hình dạng.