أفضل الممارسات المتعلقة بالمحتوى الصوتي

تضم هذه الصفحة اقتراحات حول كيفية توفير بيانات الكلام إلى Google Assistant API. تم تصميم هذه الإرشادات لتحقيق مزيد من الكفاءة والدقة، بالإضافة إلى أوقات استجابة معقولة من الخدمة.

معالجة الصوت مسبقًا

من الأفضل توفير صوت واضح قدر الإمكان باستخدام ميكروفون ذي جودة جيدة ومكان جيد. ومع ذلك، فإنّ تطبيق معالجة إشارة خفض الضوضاء على الصوت قبل إرساله إلى الخدمة عادةً ما يؤدي إلى تقليل دقة التعرّف. تم تصميم الخدمة لمعالجة الصوت الصاخب.

للحصول على أفضل النتائج:

  • ضَع الميكروفون بالقرب من المستخدم قدر الإمكان، لا سيما عند وجود ضوضاء في الخلفية.
  • تجنَّب قطع الصوت.
  • عدم استخدام ميزة التحكّم التلقائي في الكسب (AGC)
  • يجب إيقاف جميع عمليات معالجة تقليل الضوضاء.

من الناحية المثالية:

  • ينبغي معايرة مستوى الصوت بحيث لا يتم اقتطاع إشارة الإدخال، وتصل مستويات الصوت في ذروة الكلام إلى حوالي -20 إلى -10 ديسيبل إف بي.
  • من المفترض أن يعرض الجهاز تقريبًا سعات "مسطّحة" مقارنةً بخصائص التردّد الصوتي (+- 3 ديسيبل من 100 هرتز إلى 8000 هرتز).
  • يجب أن يكون إجمالي التشوّه التوافقي أقل من% 1 من 100 هرتز إلى 8000 هرتز عند مستوى إدخال SPL يبلغ 90 ديسيبل.

معدّل البيانات في الملف الصوتي

إذا أمكن، اضبط معدّل أخذ العيّنة لمصدر الصوت على 16000 هرتز، وإلا يمكنك ضبط sample_rate_hertz بحيث يتطابق مع معدّل العيّنة الأصلي لمصدر الصوت (بدلاً من إعادة أخذ العيّنات).

حجم الإطار

يتعرّف "مساعد Google" على الصوت المباشر عند تسجيله من ميكروفون. يجب تقسيم البث الصوتي إلى إطارات وإرساله في رسائل AssistRequest متتالية. يُسمح باستخدام أي حجم إطار. الإطارات الأكبر أكثر كفاءة لكنها تضيف وقت استجابة. وننصحك باستخدام حجم إطار يبلغ 100 مللي ثانية كوسيلة مفاضلة جيدة بين وقت الاستجابة والكفاءة.