หน้านี้มีคำแนะนำเกี่ยวกับวิธีการส่งข้อมูลเสียงพูดให้กับ Google Assistant API หลักเกณฑ์เหล่านี้ออกแบบมาเพื่อประสิทธิภาพและความถูกต้องมากขึ้น รวมถึงเวลาในการตอบสนองที่สมเหตุสมผลจากบริการ
การประมวลผลเสียงล่วงหน้า
วิธีที่ดีที่สุดคือการนำเสนอเสียงที่สะอาดที่สุดโดยใช้ไมโครโฟนที่มีคุณภาพดีและอยู่ในตำแหน่งที่เหมาะสม อย่างไรก็ตาม การใช้การประมวลผลสัญญาณการลดเสียงรบกวนกับเสียงก่อนที่จะส่งไปยังบริการมักจะลดความแม่นยำในการจดจำ บริการนี้ออกแบบมาให้รองรับเสียงที่มีเสียงดัง
เพื่อให้ได้ภาพที่ดีที่สุด ให้ทำดังนี้
- วางไมโครโฟนให้ใกล้กับผู้ใช้มากที่สุดเท่าที่จะทำได้ โดยเฉพาะเมื่อมีเสียงรบกวนรอบข้าง
- หลีกเลี่ยงการคลิปเสียง
- อย่าใช้การควบคุมค่าเกนอัตโนมัติ (AGC)
- ควรปิดใช้การประมวลผลการลดเสียงรบกวนทั้งหมด
หากเป็นไปได้
- คุณควรปรับเทียบระดับเสียงเพื่อให้สัญญาณอินพุตไม่ตัดออก และระดับเสียงพูดสูงสุดจะอยู่ที่ประมาณ -20 ถึง -10 dBFS
- อุปกรณ์ควรแสดงลักษณะของแอมพลิจูด "แฟลต" เทียบกับความถี่โดยประมาณ (+- 3 dB 100 Hz ถึง 8000 Hz)
- ความผิดเพี้ยนของฮาร์มอนิกทั้งหมดควรน้อยกว่า 1% ตั้งแต่ 100 Hz ถึง 8000 Hz ที่ระดับอินพุต SPL 90 dB
อัตราการสุ่มตัวอย่าง
หากเป็นไปได้ ให้ตั้งค่าอัตราการสุ่มตัวอย่างของแหล่งที่มาของเสียงเป็น 16000 Hz มิเช่นนั้นให้ตั้งค่า sample_rate_hertz
ให้ตรงกับอัตราการสุ่มตัวอย่างแบบดั้งเดิมของแหล่งที่มาของเสียง (แทนการสุ่มตัวอย่างซ้ำ)
ขนาดเฟรม
Google Assistant จะจดจำเสียงแบบสดเมื่อบันทึกจากไมโครโฟน
สตรีมเสียงต้องแยกเป็นเฟรมและส่งเป็นข้อความ AssistRequest
ข้อความติดต่อกัน เฟรมทุกขนาดยอมรับได้ เฟรมขนาดใหญ่จะมีประสิทธิภาพมากกว่า
แต่เพิ่มเวลาในการตอบสนอง แนะนำให้ใช้เฟรมขนาด 100 มิลลิวินาทีเพื่อแลกกับความคุ้มค่าระหว่างเวลาในการตอบสนองและประสิทธิภาพได้เป็นอย่างดี