As ações de conversa serão descontinuadas em 13 de junho de 2023. Para mais informações, consulte Desativação do Ações de conversa.

Práticas recomendadas para áudio

Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Esta página contém recomendações sobre como fornecer dados de fala à API Google Assistente. Essas diretrizes foram criadas para aumentar a eficiência e a precisão, bem como os tempos de resposta razoáveis do serviço.

Pré-processamento de áudio

É melhor fornecer áudio que seja o mais limpo possível, usando um microfone de boa qualidade e bem posicionado. No entanto, aplicar ao áudio um processamento de sinal de redução de ruídos antes de enviá-lo ao serviço geralmente reduz a precisão do reconhecimento. O serviço foi projetado para lidar com áudios com ruídos.

Para os melhores resultados:

  • Posicione o microfone o mais próximo possível do usuário, especialmente quando houver ruído de fundo.
  • evite recortar o áudio;
  • não use controle de ganho automático (AGC);
  • todo o processamento de redução de ruído deve ser desativado.

Idealmente:

  • O nível de áudio precisa ser calibrado para que o sinal de entrada não seja cortado, e os níveis máximos de áudio de fala alcançam aproximadamente -20 a -10 dBFS.
  • O dispositivo precisa exibir características de "aproximada" planas em comparação com as frequências (+- 3 dB 100 Hz a 8.000 Hz).
  • A distorção harmônica total precisa ser inferior a 1% de 100 Hz a 8.000 Hz a um nível de entrada de SPL de 90 dB.

Taxa de amostragem

Se possível, defina a taxa de amostragem da fonte de áudio para 16.000 Hz. Caso contrário, defina o sample_rate_hertz para corresponder à taxa de amostragem nativa da fonte de áudio (em vez de reamostrar).

Tamanho do frame

O Google Assistente reconhece o áudio ao vivo porque ele é capturado em um microfone. O stream de áudio precisa ser dividido em frames e enviado em mensagens AssistRequest consecutivas. Qualquer tamanho de frame é aceitável. Frames maiores são mais eficientes, mas aumentam a latência. Um frame de 100 milissegundos é recomendado como uma boa compensação entre latência e eficiência.