Trang này chứa các đề xuất về cách cung cấp dữ liệu lời nói cho API Trợ lý Google. Những nguyên tắc này được thiết kế để mang lại hiệu quả và độ chính xác cao hơn cũng như thời gian phản hồi hợp lý từ dịch vụ.
Xử lý trước âm thanh
Tốt nhất là bạn nên cung cấp âm thanh rõ nhất có thể bằng cách sử dụng micrô có chất lượng tốt và được đặt ở vị trí hợp lý. Tuy nhiên, việc áp dụng cách xử lý tín hiệu giảm tiếng ồn cho âm thanh trước khi gửi đến dịch vụ thường làm giảm độ chính xác của quá trình nhận dạng. Dịch vụ này được thiết kế để xử lý âm thanh ồn.
Để có bức ảnh đẹp nhất, hãy làm như sau:
- Đặt micrô càng gần người dùng càng tốt, đặc biệt khi có tạp âm.
- Tránh sử dụng đoạn âm thanh.
- Không sử dụng chế độ kiểm soát khuếch đại tự động (AGC).
- Bạn nên tắt mọi tính năng xử lý giảm tiếng ồn.
Lý tưởng nhất là:
- Bạn phải hiệu chỉnh mức âm thanh để tín hiệu đầu vào không bị cắt bớt, và mức âm thanh cao nhất của tiếng nói đạt khoảng -20 đến -10 dBFS.
- Thiết bị phải có biên độ gần đúng so với đặc điểm tần số (+- 3 dB 100 Hz đến 8000 Hz).
- Tổng độ biến dạng sóng hài phải nhỏ hơn 1% từ 100 Hz đến 8000 Hz ở mức đầu vào 90 dB SPL.
Tốc độ lấy mẫu
Nếu có thể, hãy đặt tốc độ lấy mẫu của nguồn âm thanh thành 16000 Hz. Nếu không, hãy đặt sample_rate_hertz
cho khớp với tốc độ lấy mẫu gốc của nguồn âm thanh (thay vì lấy mẫu lại).
Kích thước khung
Trợ lý Google nhận ra âm thanh trực tiếp khi ghi âm bằng micrô.
Luồng âm thanh phải được chia thành nhiều khung và gửi trong các thông báo AssistRequest
liên tiếp. Mọi kích thước khung hình đều được chấp nhận. Khung hình lớn hơn mang lại hiệu quả cao hơn, nhưng độ trễ sẽ tăng lên. Bạn nên sử dụng kích thước khung hình 100 mili giây để cân bằng giữa độ trễ và tính hiệu quả.