แนวทางปฏิบัติแนะนำสำหรับเสียง
bookmark_borderbookmark
จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน
บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ
หน้านี้มีคำแนะนำเกี่ยวกับวิธีการส่งข้อมูลเสียงพูดให้กับ Google Assistant API หลักเกณฑ์เหล่านี้ออกแบบมาเพื่อประสิทธิภาพและความถูกต้องมากขึ้น รวมถึงเวลาในการตอบสนองที่สมเหตุสมผลจากบริการ
การประมวลผลเสียงล่วงหน้า
วิธีที่ดีที่สุดคือการนำเสนอเสียงที่สะอาดที่สุดโดยใช้ไมโครโฟนที่มีคุณภาพดีและอยู่ในตำแหน่งที่เหมาะสม อย่างไรก็ตาม การใช้การประมวลผลสัญญาณการลดเสียงรบกวนกับเสียงก่อนที่จะส่งไปยังบริการมักจะลดความแม่นยำในการจดจำ บริการนี้ออกแบบมาให้รองรับเสียงที่มีเสียงดัง
เพื่อให้ได้ภาพที่ดีที่สุด ให้ทำดังนี้
- วางไมโครโฟนให้ใกล้กับผู้ใช้มากที่สุดเท่าที่จะทำได้ โดยเฉพาะเมื่อมีเสียงรบกวนรอบข้าง
- หลีกเลี่ยงการคลิปเสียง
- อย่าใช้การควบคุมค่าเกนอัตโนมัติ (AGC)
- ควรปิดใช้การประมวลผลการลดเสียงรบกวนทั้งหมด
หากเป็นไปได้
- คุณควรปรับเทียบระดับเสียงเพื่อให้สัญญาณอินพุตไม่ตัดออก และระดับเสียงพูดสูงสุดจะอยู่ที่ประมาณ -20 ถึง -10 dBFS
- อุปกรณ์ควรแสดงลักษณะของแอมพลิจูด "แฟลต" เทียบกับความถี่โดยประมาณ (+- 3 dB 100 Hz ถึง 8000 Hz)
- ความผิดเพี้ยนของฮาร์มอนิกทั้งหมดควรน้อยกว่า 1% ตั้งแต่ 100 Hz ถึง 8000 Hz ที่ระดับอินพุต SPL 90 dB
อัตราการสุ่มตัวอย่าง
หากเป็นไปได้ ให้ตั้งค่าอัตราการสุ่มตัวอย่างของแหล่งที่มาของเสียงเป็น 16000 Hz มิเช่นนั้นให้ตั้งค่า sample_rate_hertz
ให้ตรงกับอัตราการสุ่มตัวอย่างแบบดั้งเดิมของแหล่งที่มาของเสียง (แทนการสุ่มตัวอย่างซ้ำ)
ขนาดเฟรม
Google Assistant จะจดจำเสียงแบบสดเมื่อบันทึกจากไมโครโฟน
สตรีมเสียงต้องแยกเป็นเฟรมและส่งเป็นข้อความ AssistRequest
ข้อความติดต่อกัน เฟรมทุกขนาดยอมรับได้ เฟรมขนาดใหญ่จะมีประสิทธิภาพมากกว่า
แต่เพิ่มเวลาในการตอบสนอง แนะนำให้ใช้เฟรมขนาด 100 มิลลิวินาทีเพื่อแลกกับความคุ้มค่าระหว่างเวลาในการตอบสนองและประสิทธิภาพได้เป็นอย่างดี
เนื้อหาของหน้าเว็บนี้ได้รับอนุญาตภายใต้ใบอนุญาตที่ต้องระบุที่มาของครีเอทีฟคอมมอนส์ 4.0 และตัวอย่างโค้ดได้รับอนุญาตภายใต้ใบอนุญาต Apache 2.0 เว้นแต่จะระบุไว้เป็นอย่างอื่น โปรดดูรายละเอียดที่นโยบายเว็บไซต์ Google Developers Java เป็นเครื่องหมายการค้าจดทะเบียนของ Oracle และ/หรือบริษัทในเครือ
อัปเดตล่าสุด 2023-12-02 UTC
[[["เข้าใจง่าย","easyToUnderstand","thumb-up"],["แก้ปัญหาของฉันได้","solvedMyProblem","thumb-up"],["อื่นๆ","otherUp","thumb-up"]],[["ไม่มีข้อมูลที่ฉันต้องการ","missingTheInformationINeed","thumb-down"],["ซับซ้อนเกินไป/มีหลายขั้นตอนมากเกินไป","tooComplicatedTooManySteps","thumb-down"],["ล้าสมัย","outOfDate","thumb-down"],["ปัญหาเกี่ยวกับการแปล","translationIssue","thumb-down"],["ตัวอย่าง/ปัญหาเกี่ยวกับโค้ด","samplesCodeIssue","thumb-down"],["อื่นๆ","otherDown","thumb-down"]],["อัปเดตล่าสุด 2023-12-02 UTC"],[[["This page provides recommendations for submitting speech data to the Google Assistant API for optimal performance."],["For best results, use a high-quality microphone, position it close to the user, avoid audio clipping and noise reduction processing, and disable automatic gain control."],["Ideally, calibrate audio levels to prevent clipping, maintain a flat frequency response, and minimize harmonic distortion."],["Set the audio source sampling rate to 16000 Hz if possible, or match the native rate, and use a frame size of around 100 milliseconds for a balance between latency and efficiency."]]],[]]