대화형 작업이 2023년 6월 13일에 지원 중단되었습니다. 자세한 내용은
대화 작업 지원 중단을 참고하세요.
오디오 권장사항
컬렉션을 사용해 정리하기
내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.
이 페이지에는 Google Assistant API에 음성 데이터를 제공하는 방법에 관한 권장사항이 포함되어 있습니다. 이 가이드라인은 서비스의 응답 시간을 합리적으로 개선하고 효율성과 정확성을 높이기 위해 마련되었습니다.
오디오 사전 처리
우수한 품질의 잘 배치된 마이크를 사용하여 가능한 선명한 오디오를 제공하는 것이 가장 좋습니다. 오디오를 서비스에 보내기 전에 오디오에 노이즈 감소 신호 처리를 적용하면 일반적으로 인식 정확도가 떨어집니다. 이 서비스는 노이즈가 많은 오디오를 처리하도록 설계되었습니다.
최상의 결과를 얻는 방법
- 특히 배경 소음이 있는 경우 마이크를 최대한 사용자와 가까이 배치합니다.
- 오디오를 자르지 마세요.
- 자동 게인 제어(AGC)를 사용하지 마세요.
- 모든 노이즈 감소 처리를 중지해야 합니다.
이상적인 방법은 다음과 같습니다.
- 입력 신호가 클립되지 않고 최대 음성 오디오 레벨이 약 -20~-10dBFS에 도달하도록 오디오 레벨을 보정해야 합니다.
- 기기는 주파수 특성 (+-3dB 100Hz~8000Hz)에 대한 대략적인 '고정' 진폭을 표시해야 합니다.
- 90dB SPL 입력 수준에서 100Hz~8,000Hz의 총고조파왜곡은 1% 미만이어야 합니다.
샘플링 레이트
가능하면 오디오 소스의 샘플링 레이트를 16,000Hz로 설정합니다. 그렇지 않으면 다시 샘플링하지 않고 sample_rate_hertz
를 오디오 소스의 기본 샘플링 레이트와 일치하도록 설정합니다.
프레임 크기
Google 어시스턴트는 마이크에서 캡처된 라이브 오디오를 인식합니다.
오디오 스트림은 프레임으로 분할되어 연속 AssistRequest
메시지로 전송되어야 합니다. 모든 프레임 크기가 허용됩니다. 프레임이 클수록 효율적이지만 지연 시간이 추가됩니다. 지연 시간과 효율성 간의 절충안으로 100밀리초 프레임 크기가 권장됩니다.
달리 명시되지 않는 한 이 페이지의 콘텐츠에는 Creative Commons Attribution 4.0 라이선스에 따라 라이선스가 부여되며, 코드 샘플에는 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다. 자세한 내용은 Google Developers 사이트 정책을 참조하세요. 자바는 Oracle 및/또는 Oracle 계열사의 등록 상표입니다.
최종 업데이트: 2023-12-02(UTC)
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["필요한 정보가 없음","missingTheInformationINeed","thumb-down"],["너무 복잡함/단계 수가 너무 많음","tooComplicatedTooManySteps","thumb-down"],["오래됨","outOfDate","thumb-down"],["번역 문제","translationIssue","thumb-down"],["샘플/코드 문제","samplesCodeIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2023-12-02(UTC)"],[[["This page provides recommendations for submitting speech data to the Google Assistant API for optimal performance."],["For best results, use a high-quality microphone, position it close to the user, avoid audio clipping and noise reduction processing, and disable automatic gain control."],["Ideally, calibrate audio levels to prevent clipping, maintain a flat frequency response, and minimize harmonic distortion."],["Set the audio source sampling rate to 16000 Hz if possible, or match the native rate, and use a frame size of around 100 milliseconds for a balance between latency and efficiency."]]],[]]