تصنيف الصورة الذاتية باستخدام "حزمة تعلّم الآلة" على نظام التشغيل Android

توفّر حزمة تعلُّم الآلة (ML Kit) حزمة تطوير برامج (SDK) محسّنة لتصنيف الصور الذاتية.

يتم ربط مواد عرض أداة تصنيف الصور الذاتية بتطبيقك بشكل ثابت في مدّة التصميم. سيؤدي ذلك إلى زيادة حجم تنزيل تطبيقك بحوالي 4.5 ميغابايت، ويمكن أن يتراوح وقت استجابة واجهة برمجة التطبيقات من 25 ملي ثانية إلى 65 ملي ثانية، وذلك حسب حجم الصورة المُدخَلة، كما تم قياسه على جهاز Pixel 4.

للتجربة:

  • يمكنك تجربة التطبيق النموذجي للاطّلاع على مثال على استخدام واجهة برمجة التطبيقات هذه.

قبل البدء

  1. في ملف build.gradle على مستوى المشروع، تأكَّد من تضمين مستودع Maven من Google في كلّ من قسمَي buildscript وallprojects.
  2. أضِف الاعتماديات لحزمة تعلّم الآلة (ML Kit) على Android إلى ملف Gradle على مستوى التطبيق في وحدتك، والذي يكون عادةً app/build.gradle:
dependencies {
  implementation 'com.google.mlkit:segmentation-selfie:16.0.0-beta6'
}

1- إنشاء مثيل من أداة التصنيف

خيارات أداة التصنيف

لتصنيف صورة، عليك أولاً إنشاء مثيل من Segmenter من خلال تحديد الخيارات التالية.

وضع أداة الرصد

تعمل Segmenter في وضعَين. تأكَّد من اختيار الوضع الذي يناسب حالة الاستخدام.

STREAM_MODE (default)

تم تصميم هذا الوضع لبثّ الإطارات من الفيديو أو الكاميرا. في هذا الوضع، ستستفيد أداة التصنيف من نتائج الإطارات السابقة لعرض نتائج تصنيف أكثر سلاسة.

SINGLE_IMAGE_MODE

تم تصميم هذا الوضع للصور الفردية غير المرتبطة. في هذا الوضع، ستعالج أداة التصنيف كل صورة على حدة، بدون أي عملية تنعيم للإطارات.

تفعيل قناع الحجم الأولي

يطلب هذا الخيار من أداة التصنيف عرض قناع الحجم الأولي الذي يتطابق مع حجم مخرجات النموذج.

عادةً ما يكون حجم القناع الأولي (مثل 256×256) أصغر من حجم الصورة المُدخَلة. يُرجى طلب SegmentationMask#getWidth() وSegmentationMask#getHeight() للحصول على حجم القناع عند تفعيل هذا الخيار.

بدون تحديد هذا الخيار، ستعيد أداة التصنيف تغيير حجم القناع الأولي ليتطابق مع حجم الصورة المُدخَلة. ننصحك باستخدام هذا الخيار إذا كنت تريد تطبيق منطق مخصّص لإعادة تغيير الحجم أو إذا لم تكن إعادة تغيير الحجم ضرورية لحالة الاستخدام.

حدِّد خيارات أداة التصنيف:

Kotlin

val options =
        SelfieSegmenterOptions.Builder()
            .setDetectorMode(SelfieSegmenterOptions.STREAM_MODE)
            .enableRawSizeMask()
            .build()

جافا

SelfieSegmenterOptions options =
        new SelfieSegmenterOptions.Builder()
            .setDetectorMode(SelfieSegmenterOptions.STREAM_MODE)
            .enableRawSizeMask()
            .build();

أنشئ مثيلاً من Segmenter. مرِّر الخيارات التي حدّدتها:

Kotlin

val segmenter = Segmentation.getClient(options)

جافا

Segmenter segmenter = Segmentation.getClient(options);

2- تجهيز الصورة المُدخَلة

لتصنيف صورة، أنشئ كائن InputImage من Bitmap أو media.Image أو ByteBuffer أو مصفوفة بايت أو ملف على الجهاز.

يمكنك إنشاء كائن InputImage من مصادر مختلفة، موضّحة أدناه.

استخدام media.Image

لإنشاء كائن InputImage من كائن media.Image، مثلاً عند التقاط صورة من كاميرا الجهاز، مرِّر كائن media.Image وتدوير الصورة إلى InputImage.fromMediaImage().

إذا كنت تستخدم مكتبة CameraX، تحسب الفئتَين OnImageCapturedListener و ImageAnalysis.Analyzer قيمة التدوير نيابةً عنك.

Kotlin

private class YourImageAnalyzer : ImageAnalysis.Analyzer {

    override fun analyze(imageProxy: ImageProxy) {
        val mediaImage = imageProxy.image
        if (mediaImage != null) {
            val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees)
            // Pass image to an ML Kit Vision API
            // ...
        }
    }
}

جافا

private class YourAnalyzer implements ImageAnalysis.Analyzer {

    @Override
    public void analyze(ImageProxy imageProxy) {
        Image mediaImage = imageProxy.getImage();
        if (mediaImage != null) {
          InputImage image =
                InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees());
          // Pass image to an ML Kit Vision API
          // ...
        }
    }
}

إذا كنت لا تستخدم مكتبة كاميرا تمنحك درجة تدوير الصورة، يمكنك حسابها من درجة تدوير الجهاز واتجاه مستشعر الكاميرا في الجهاز:

Kotlin

private val ORIENTATIONS = SparseIntArray()

init {
    ORIENTATIONS.append(Surface.ROTATION_0, 0)
    ORIENTATIONS.append(Surface.ROTATION_90, 90)
    ORIENTATIONS.append(Surface.ROTATION_180, 180)
    ORIENTATIONS.append(Surface.ROTATION_270, 270)
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
@Throws(CameraAccessException::class)
private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    val deviceRotation = activity.windowManager.defaultDisplay.rotation
    var rotationCompensation = ORIENTATIONS.get(deviceRotation)

    // Get the device's sensor orientation.
    val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager
    val sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION)!!

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360
    }
    return rotationCompensation
}

جافا

private static final SparseIntArray ORIENTATIONS = new SparseIntArray();
static {
    ORIENTATIONS.append(Surface.ROTATION_0, 0);
    ORIENTATIONS.append(Surface.ROTATION_90, 90);
    ORIENTATIONS.append(Surface.ROTATION_180, 180);
    ORIENTATIONS.append(Surface.ROTATION_270, 270);
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing)
        throws CameraAccessException {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation();
    int rotationCompensation = ORIENTATIONS.get(deviceRotation);

    // Get the device's sensor orientation.
    CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE);
    int sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION);

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360;
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360;
    }
    return rotationCompensation;
}

بعد ذلك، مرِّر الكائن media.Image وقيمة درجة التدوير إلى InputImage.fromMediaImage():

Kotlin

val image = InputImage.fromMediaImage(mediaImage, rotation)

Java

InputImage image = InputImage.fromMediaImage(mediaImage, rotation);

استخدام معرّف URI لملف

لإنشاء كائن من معرّف URI لملف، مرِّر سياق التطبيق ومعرّف URI للملف إلى InputImage.fromFilePath().InputImage يكون ذلك مفيدًا عند استخدام هدف ACTION_GET_CONTENT لمطالبة المستخدم باختيار صورة من تطبيق معرض الصور.

Kotlin

val image: InputImage
try {
    image = InputImage.fromFilePath(context, uri)
} catch (e: IOException) {
    e.printStackTrace()
}

Java

InputImage image;
try {
    image = InputImage.fromFilePath(context, uri);
} catch (IOException e) {
    e.printStackTrace();
}

استخدام ByteBuffer أو ByteArray

لإنشاء كائن InputImage من ByteBuffer أو ByteArray، احسب أولاً درجة تدوير الصورة كما هو موضّح سابقًا لإدخال media.Image. بعد ذلك، أنشئ الكائن InputImage باستخدام المخزن المؤقت أو المصفوفة، بالإضافة إلى ارتفاع الصورة وعرضها وتنسيق ترميز الألوان ودرجة التدوير:

Kotlin

val image = InputImage.fromByteBuffer(
        byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)
// Or:
val image = InputImage.fromByteArray(
        byteArray,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)

جافا

InputImage image = InputImage.fromByteBuffer(byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);
// Or:
InputImage image = InputImage.fromByteArray(
        byteArray,
        /* image width */480,
        /* image height */360,
        rotation,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);

استخدام Bitmap

لإنشاء كائن InputImage من كائن Bitmap، استخدِم الإعلان التالي:

Kotlin

val image = InputImage.fromBitmap(bitmap, 0)

Java

InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);

يتم تمثيل الصورة بواسطة كائن Bitmap بالإضافة إلى درجات التدوير.

3- معالجة الصورة

مرِّر كائن InputImage المُجهَّز إلى طريقة process في Segmenter.

Kotlin

Task<SegmentationMask> result = segmenter.process(image)
       .addOnSuccessListener { results ->
           // Task completed successfully
           // ...
       }
       .addOnFailureListener { e ->
           // Task failed with an exception
           // ...
       }

جافا

Task<SegmentationMask> result =
        segmenter.process(image)
                .addOnSuccessListener(
                        new OnSuccessListener<SegmentationMask>() {
                            @Override
                            public void onSuccess(SegmentationMask mask) {
                                // Task completed successfully
                                // ...
                            }
                        })
                .addOnFailureListener(
                        new OnFailureListener() {
                            @Override
                            public void onFailure(@NonNull Exception e) {
                                // Task failed with an exception
                                // ...
                            }
                        });

4- الحصول على نتيجة التصنيف

يمكنك الحصول على نتيجة التصنيف على النحو التالي:

Kotlin

val mask = segmentationMask.getBuffer()
val maskWidth = segmentationMask.getWidth()
val maskHeight = segmentationMask.getHeight()

for (val y = 0; y < maskHeight; y++) {
  for (val x = 0; x < maskWidth; x++) {
    // Gets the confidence of the (x,y) pixel in the mask being in the foreground.
    val foregroundConfidence = mask.getFloat()
  }
}

جافا

ByteBuffer mask = segmentationMask.getBuffer();
int maskWidth = segmentationMask.getWidth();
int maskHeight = segmentationMask.getHeight();

for (int y = 0; y < maskHeight; y++) {
  for (int x = 0; x < maskWidth; x++) {
    // Gets the confidence of the (x,y) pixel in the mask being in the foreground.
    float foregroundConfidence = mask.getFloat();
  }
}

للاطّلاع على مثال كامل على كيفية استخدام نتائج التصنيف، يُرجى الاطّلاع على التطبيق النموذجي للبدء السريع في حزمة تعلُّم الآلة (ML Kit).

نصائح لتحسين الأداء

تعتمد جودة النتائج على جودة الصورة المُدخَلة:

  • لكي تحصل حزمة تعلُّم الآلة (ML Kit) على نتيجة تصنيف دقيقة، يجب أن يكون حجم الصورة 256×256 بكسل على الأقل.
  • يمكن أن يؤثر عدم وضوح الصورة أيضًا في الدقة. إذا لم تحصل على نتائج مقبولة، اطلب من المستخدم إعادة التقاط الصورة.

إذا كنت تريد استخدام التصنيف في تطبيق في الوقت الفعلي، اتّبِع هذه الإرشادات لتحقيق أفضل معدلات الإطارات:

  • استخدِم STREAM_MODE.
  • ننصحك بالتقاط الصور بدقة أقل. ومع ذلك، ضَع في اعتبارك أيضًا متطلبات أبعاد الصورة في واجهة برمجة التطبيقات هذه.
  • ننصحك بتفعيل خيار قناع الحجم الأولي ودمج كل منطق إعادة تغيير الحجم معًا. على سبيل المثال، بدلاً من السماح لواجهة برمجة التطبيقات بإعادة تغيير حجم القناع ليتطابق مع حجم الصورة المُدخَلة أولاً ثم إعادة تغيير حجمه مرة أخرى ليتطابق مع حجم العرض، اطلب قناع الحجم الأولي فقط، واجمع هاتَين الخطوتَين في خطوة واحدة.
  • إذا كنت تستخدم واجهة برمجة التطبيقات Camera أو camera2، قلِّل عدد طلبات البيانات من أداة الرصد. إذا أصبح إطار فيديو جديد متاحًا أثناء تشغيل أداة الرصد، تجاهَل الإطار. يمكنك الاطّلاع على الفئة VisionProcessorBase في نموذج التطبيق للبدء السريع للحصول على مثال.
  • إذا كنت تستخدم واجهة برمجة التطبيقات CameraX، تأكَّد من ضبط استراتيجية الضغط الخلفي على القيمة التلقائية ImageAnalysis.STRATEGY_KEEP_ONLY_LATEST. يضمن ذلك تسليم صورة واحدة فقط للتحليل في كل مرة. إذا تم إنتاج المزيد من الصور أثناء انشغال المحلِّل، سيتم تجاهلها تلقائيًا ولن يتم وضعها في قائمة الانتظار لتسليمها. بعد إغلاق الصورة التي يتم تحليلها من خلال طلب ImageProxy.close()، سيتم تسليم أحدث صورة تالية.
  • إذا كنت تستخدم ناتج أداة الرصد لتراكب الرسومات على الصورة المُدخَلة، احصل أولاً على النتيجة من حزمة تعلُّم الآلة (ML Kit)، ثم اعرض الصورة والتراكب في خطوة واحدة. يتم العرض على سطح العرض مرة واحدة فقط لكل إطار إدخال. يمكنك الاطّلاع على الفئتَين CameraSourcePreview و GraphicOverlay في نموذج تطبيق البدء السريع للحصول على مثال.
  • إذا كنت تستخدم Camera2 API، التقط الصور بتنسيق ImageFormat.YUV_420_888 إذا كنت تستخدم Camera API الأقدم، التقط الصور بتنسيق ImageFormat.NV21