التعرّف على النص في الصور باستخدام حزمة تعلّم الآلة على نظام التشغيل iOS

يمكنك استخدام ML Kit للتعرّف على النص في الصور أو الفيديوهات، مثل نص لافتة شارع. في ما يلي الخصائص الرئيسية لهذه الميزة:

الإصدار 2 من Text Recognition API
الوصف	التعرّف على النص في الصور أو الفيديوهات، مع إتاحة استخدام النصوص اللاتينية والصينية والديفاناغارية واليابانية والكورية ومجموعة كبيرة من اللغات
أسماء حِزم تطوير البرامج (SDK)	`GoogleMLKit/TextRecognition GoogleMLKit/TextRecognitionChinese GoogleMLKit/TextRecognitionDevanagari GoogleMLKit/TextRecognitionJapanese GoogleMLKit/TextRecognitionKorean`
التنفيذ	يتم ربط مواد العرض بتطبيقك بشكل ثابت في وقت الإنشاء
تأثير حجم التطبيق	حوالي 38 ميغابايت لكل حزمة SDK للبرامج النصية
الأداء	في الوقت الفعلي على معظم الأجهزة التي تستخدم حزمة تطوير البرامج (SDK) للغات اللاتينية، وأبطأ بالنسبة إلى الأجهزة الأخرى

جرِّبه الآن

يمكنك تجربة التطبيق النموذجي للاطّلاع على مثال على استخدام واجهة برمجة التطبيقات هذه.
يمكنك تجربة الرمز بنفسك من خلال الدرس التطبيقي حول الترميز.

قبل البدء

أدرِج مجموعات ML Kit التالية في ملف Podfile:

# To recognize Latin script
pod 'GoogleMLKit/TextRecognition', '8.0.0'
# To recognize Chinese script
pod 'GoogleMLKit/TextRecognitionChinese', '8.0.0'
# To recognize Devanagari script
pod 'GoogleMLKit/TextRecognitionDevanagari', '8.0.0'
# To recognize Japanese script
pod 'GoogleMLKit/TextRecognitionJapanese', '8.0.0'
# To recognize Korean script
pod 'GoogleMLKit/TextRecognitionKorean', '8.0.0'

بعد تثبيت أو تعديل Pods في مشروعك، افتح مشروع Xcode باستخدام .xcworkspace. تتوافق حزمة ML Kit مع الإصدار 12.4 من Xcode أو الإصدارات الأحدث.

1. إنشاء مثيل من `TextRecognizer`

أنشئ مثيلاً من TextRecognizer عن طريق استدعاء +textRecognizer(options:)، مع تمرير الخيارات ذات الصلة بحزمة تطوير البرامج (SDK) التي حدّدتها على أنّها عنصر تابع على النحو التالي:

Swift

// When using Latin script recognition SDK
let latinOptions = TextRecognizerOptions()
let latinTextRecognizer = TextRecognizer.textRecognizer(options:options)

// When using Chinese script recognition SDK
let chineseOptions = ChineseTextRecognizerOptions()
let chineseTextRecognizer = TextRecognizer.textRecognizer(options:options)

// When using Devanagari script recognition SDK
let devanagariOptions = DevanagariTextRecognizerOptions()
let devanagariTextRecognizer = TextRecognizer.textRecognizer(options:options)

// When using Japanese script recognition SDK
let japaneseOptions = JapaneseTextRecognizerOptions()
let japaneseTextRecognizer = TextRecognizer.textRecognizer(options:options)

// When using Korean script recognition SDK
let koreanOptions = KoreanTextRecognizerOptions()
let koreanTextRecognizer = TextRecognizer.textRecognizer(options:options)

Objective-C

// When using Latin script recognition SDK
MLKTextRecognizerOptions *latinOptions = [[MLKTextRecognizerOptions alloc] init];
MLKTextRecognizer *latinTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options];

// When using Chinese script recognition SDK
MLKChineseTextRecognizerOptions *chineseOptions = [[MLKChineseTextRecognizerOptions alloc] init];
MLKTextRecognizer *chineseTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options];

// When using Devanagari script recognition SDK
MLKDevanagariTextRecognizerOptions *devanagariOptions = [[MLKDevanagariTextRecognizerOptions alloc] init];
MLKTextRecognizer *devanagariTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options];

// When using Japanese script recognition SDK
MLKJapaneseTextRecognizerOptions *japaneseOptions = [[MLKJapaneseTextRecognizerOptions alloc] init];
MLKTextRecognizer *japaneseTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options];

// When using Korean script recognition SDK
MLKKoreanTextRecognizerOptions *koreanOptions = [[MLKKoreanTextRecognizerOptions alloc] init];
MLKTextRecognizer *koreanTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options];

2. إعداد الصورة المصدر

مرِّر الصورة كـ UIImage أو CMSampleBufferRef إلى طريقة process(_:completion:) في TextRecognizer:

أنشئ عنصر VisionImage باستخدام UIImage أو CMSampleBuffer.

إذا كنت تستخدم UIImage، اتّبِع الخطوات التالية:

أنشئ عنصر VisionImage باستخدام UIImage. احرص على تحديد .orientation الصحيح.

Swift

let image = VisionImage(image: UIImage)
visionImage.orientation = image.imageOrientation

Objective-C

MLKVisionImage *visionImage = [[MLKVisionImage alloc] initWithImage:image];
visionImage.orientation = image.imageOrientation;

إذا كنت تستخدم CMSampleBuffer، اتّبِع الخطوات التالية:

حدِّد اتجاه بيانات الصورة الواردة في CMSampleBuffer.

للحصول على اتجاه الصورة، اتّبِع الخطوات التالية:

Swift

func imageOrientation(
  deviceOrientation: UIDeviceOrientation,
  cameraPosition: AVCaptureDevice.Position
) -> UIImage.Orientation {
  switch deviceOrientation {
  case .portrait:
    return cameraPosition == .front ? .leftMirrored : .right
  case .landscapeLeft:
    return cameraPosition == .front ? .downMirrored : .up
  case .portraitUpsideDown:
    return cameraPosition == .front ? .rightMirrored : .left
  case .landscapeRight:
    return cameraPosition == .front ? .upMirrored : .down
  case .faceDown, .faceUp, .unknown:
    return .up
  }
}

Objective-C

- (UIImageOrientation)
  imageOrientationFromDeviceOrientation:(UIDeviceOrientation)deviceOrientation
                         cameraPosition:(AVCaptureDevicePosition)cameraPosition {
  switch (deviceOrientation) {
    case UIDeviceOrientationPortrait:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationLeftMirrored
                                                            : UIImageOrientationRight;

    case UIDeviceOrientationLandscapeLeft:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationDownMirrored
                                                            : UIImageOrientationUp;
    case UIDeviceOrientationPortraitUpsideDown:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationRightMirrored
                                                            : UIImageOrientationLeft;
    case UIDeviceOrientationLandscapeRight:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationUpMirrored
                                                            : UIImageOrientationDown;
    case UIDeviceOrientationUnknown:
    case UIDeviceOrientationFaceUp:
    case UIDeviceOrientationFaceDown:
      return UIImageOrientationUp;
  }
}

أنشئ كائن VisionImage باستخدام الكائن CMSampleBuffer والاتجاه:

Swift

let image = VisionImage(buffer: sampleBuffer)
image.orientation = imageOrientation(
  deviceOrientation: UIDevice.current.orientation,
  cameraPosition: cameraPosition)

Objective-C

 MLKVisionImage *image = [[MLKVisionImage alloc] initWithBuffer:sampleBuffer];
 image.orientation =
   [self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation
                                cameraPosition:cameraPosition];

3- معالجة الصورة

بعد ذلك، مرِّر الصورة إلى طريقة process(_:completion:):

Swift

textRecognizer.process(visionImage) { result, error in
  guard error == nil, let result = result else {
    // Error handling
    return
  }
  // Recognized text
}

Objective-C

[textRecognizer processImage:image
                  completion:^(MLKText *_Nullable result,
                               NSError *_Nullable error) {
  if (error != nil || result == nil) {
    // Error handling
    return;
  }
  // Recognized text
}];

4. استخراج النص من كتل النص التي تم التعرّف عليها

في حال نجاح عملية التعرّف على النص، يتم عرض عنصر Text. يحتوي عنصر Text على النص الكامل الذي تم التعرّف عليه في الصورة، بالإضافة إلى صفر أو أكثر من عناصر TextBlock.

يمثّل كل TextBlock مستطيلاً نصيًا يحتوي على صفر أو أكثر من كائنات TextLine. يحتوي كل عنصر TextLine على صفر أو أكثر من عناصر TextElement، التي تمثّل الكلمات والكيانات الشبيهة بالكلمات، مثل التواريخ والأرقام.

بالنسبة إلى كل عنصر TextBlock وTextLine وTextElement، يمكنك الحصول على النص الذي تم التعرّف عليه في المنطقة وإحداثيات حدود المنطقة.

على سبيل المثال:

Swift

let resultText = result.text
for block in result.blocks {
    let blockText = block.text
    let blockLanguages = block.recognizedLanguages
    let blockCornerPoints = block.cornerPoints
    let blockFrame = block.frame
    for line in block.lines {
        let lineText = line.text
        let lineLanguages = line.recognizedLanguages
        let lineCornerPoints = line.cornerPoints
        let lineFrame = line.frame
        for element in line.elements {
            let elementText = element.text
            let elementCornerPoints = element.cornerPoints
            let elementFrame = element.frame
        }
    }
}

Objective-C

NSString *resultText = result.text;
for (MLKTextBlock *block in result.blocks) {
  NSString *blockText = block.text;
  NSArray<MLKTextRecognizedLanguage *> *blockLanguages = block.recognizedLanguages;
  NSArray<NSValue *> *blockCornerPoints = block.cornerPoints;
  CGRect blockFrame = block.frame;
  for (MLKTextLine *line in block.lines) {
    NSString *lineText = line.text;
    NSArray<MLKTextRecognizedLanguage *> *lineLanguages = line.recognizedLanguages;
    NSArray<NSValue *> *lineCornerPoints = line.cornerPoints;
    CGRect lineFrame = line.frame;
    for (MLKTextElement *element in line.elements) {
      NSString *elementText = element.text;
      NSArray<NSValue *> *elementCornerPoints = element.cornerPoints;
      CGRect elementFrame = element.frame;
    }
  }
}

إرشادات حول الصورة المدخَلة

لكي يتعرّف ML Kit على النص بدقة، يجب أن تحتوي الصور المدخلة على نص يمثّله عدد كافٍ من وحدات البكسل. من المفترض أن يكون حجم كل حرف 16×16 بكسل على الأقل. بشكل عام، لا تتحسّن الدقة إذا كان حجم الأحرف أكبر من 24×24 بكسل.

على سبيل المثال، قد تكون صورة بحجم 640×480 مناسبة لمسح بطاقة عمل ضوئيًا تشغل العرض الكامل للصورة. لمسح مستند ضوئيًا مطبوع على ورق بحجم الرسالة، قد تحتاج إلى صورة بحجم 720x1280 بكسل.
يمكن أن يؤثر التركيز الضعيف للصورة في دقة التعرّف على النص. إذا لم تحصل على نتائج مقبولة، اطلب من المستخدم إعادة التقاط الصورة.
إذا كنت تستخدم تطبيقًا يتعرّف على النص في الوقت الفعلي، عليك مراعاة الأبعاد الإجمالية للصور المدخلة. يمكن معالجة الصور الأصغر حجمًا بشكل أسرع. للحدّ من وقت الاستجابة، احرص على أن يشغل النص أكبر مساحة ممكنة من الصورة، والتقط الصور بدقة أقل (مع مراعاة متطلبات الدقة المذكورة أعلاه). لمزيد من المعلومات، يُرجى الاطّلاع على نصائح لتحسين الأداء.

نصائح لتحسين الأداء

لمعالجة لقطات الفيديو، استخدِم results(in:) واجهة برمجة التطبيقات المتزامنة الخاصة بأداة الرصد. يمكنك استدعاء هذه الطريقة من الدالة captureOutput(_, didOutput:from:) في AVCaptureVideoDataOutputSampleBufferDelegate للحصول على النتائج بشكل متزامن من إطار الفيديو المحدّد. احتفِظ بقيمة AVCaptureVideoDataOutput في alwaysDiscardsLateVideoFrames على أنّها true للحدّ من عدد طلبات البحث التي يتم إرسالها إلى أداة الرصد. إذا توفّر إطار فيديو جديد أثناء تشغيل أداة الرصد، سيتم تجاهله.
إذا كنت تستخدم ناتج أداة رصد الوجوه لتراكب الرسومات على صورة الإدخال، احصل أولاً على النتيجة من ML Kit، ثم اعرض الصورة وتراكبها في خطوة واحدة. وبذلك، يتم عرض المحتوى على مساحة العرض مرة واحدة فقط لكل إطار إدخال تمت معالجته. يمكنك الاطّلاع على updatePreviewOverlayViewWithLastFrame في نموذج التشغيل السريع في ML Kit للحصول على مثال.
ننصحك بالتقاط الصور بدقة أقل. ومع ذلك، يُرجى أيضًا مراعاة متطلبات أبعاد الصورة في واجهة برمجة التطبيقات هذه.
لتجنُّب تراجع الأداء المحتمل، لا تشغّل عدة TextRecognizer مثيلات بخيارات نصوص برمجية مختلفة في الوقت نفسه.

التعرّف على النص في الصور باستخدام حزمة تعلّم الآلة على نظام التشغيل iOS تنظيم صفحاتك في مجموعات يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.

جرِّبه الآن

قبل البدء

1. إنشاء مثيل من TextRecognizer

Swift

Objective-C

2. إعداد الصورة المصدر

Swift

Objective-C

Swift

Objective-C

Swift

Objective-C

3- معالجة الصورة

Swift

Objective-C

4. استخراج النص من كتل النص التي تم التعرّف عليها

Swift

Objective-C

إرشادات حول الصورة المدخَلة

نصائح لتحسين الأداء

التعرّف على النص في الصور باستخدام حزمة تعلّم الآلة على نظام التشغيل iOS

1. إنشاء مثيل من `TextRecognizer`