Praktik Terbaik untuk Audio

Halaman ini berisi rekomendasi tentang cara memberikan data ucapan ke Google Assistant API. Pedoman ini dirancang untuk meningkatkan efisiensi dan akurasi serta waktu respons yang wajar dari layanan.

Pra-pemrosesan audio

Sebaiknya sediakan audio yang sebersih mungkin dengan menggunakan mikrofon yang berkualitas baik dan diposisikan dengan tepat. Namun, menerapkan pemrosesan sinyal pengurang bising ke audio sebelum mengirimkannya ke layanan biasanya akan mengurangi akurasi pengenalan. Layanan ini dirancang untuk menangani audio yang bising.

Untuk mendapatkan hasil terbaik:

  • Posisikan mikrofon sedekat mungkin dengan pengguna, terutama ketika ada suara bising di latar belakang.
  • Hindari pemangkasan audio.
  • Jangan gunakan kontrol penguatan otomatis (AGC).
  • Semua pemrosesan pengurangan bising harus dinonaktifkan.

Idealnya:

  • Level audio harus dikalibrasi sehingga sinyal input tidak terpotong, dan level audio ucapan puncak mencapai sekitar -20 hingga -10 dBFS.
  • Perangkat harus menunjukkan amplitudo "datar" dibandingkan karakteristik frekuensi (+- 3 dB 100 Hz hingga 8.000 Hz).
  • Total distorsi harmonik harus kurang dari 1% dari 100 Hz hingga 8.000 Hz pada level input SPL 90 dB.

Frekuensi pengambilan sampel

Jika memungkinkan, tetapkan frekuensi pengambilan sampel sumber audio ke 16.000 Hz. Jika tidak, setel sample_rate_hertz agar sesuai dengan frekuensi sampel native sumber audio (bukan pengambilan sampel ulang).

Ukuran frame

Asisten Google mengenali audio live saat direkam dari mikrofon. Streaming audio harus dibagi menjadi beberapa frame dan dikirim dalam pesan AssistRequest berturut-turut. Semua ukuran frame dapat diterima. Frame yang lebih besar lebih efisien, tetapi menambah latensi. Ukuran frame 100 milidetik direkomendasikan sebagai kompromi yang baik antara latensi dan efisiensi.