Poziom głośności

LUFS (Loudness units względem pełnej skali) to standard, który umożliwia normalizację głośności w różnych gatunkach i stylach produkcji. LUFS to skomplikowany algorytm oparty na postrzeganej głośności ludzkiego słuchu przy komfortowej głośności. Pozwala on producentom dźwięku uniknąć skoków w amplitudzie, które wymagałyby od użytkownika ciągłej regulacji głośności. System LUFS jest też znany jako LKFS (głośność, ważona K, w odniesieniu do pełnej skali)

W przypadku odtwarzania plików audio przy użyciu SSML średnia głośność powinna wynosić -16 LUFS w przypadku treści audio stereo, co odpowiada średniej głośności na wyjściu Asystenta Google. Taki poziom zapewnia odpowiednią równowagę między ogólną regulacją głośności na głośniku z funkcją wyszukiwania głosowego i dużą ilością miejsca na materiały o zmiennym zakresie dynamicznym w porównaniu z Asystentem Google.

W przypadku dźwięku mono średnia głośność powinna wynosić -19 LUFS, a nie -16 LUFS. Docelowy poziom głośności treści audio mono jest inny niż w przypadku dźwięku stereo, ponieważ gdy dźwięk mono zostanie przekonwertowany na dźwięk stereo, przez zduplikowanie ścieżki mono na obu kanałach sygnału stereofonicznego podwaja się energia sygnału, co odpowiada zwiększeniu wartości pomiaru LUFS o jednostkach głośności 3,01. I odwrotnie – kiedy sygnał stereo jest przekształcany w dźwięk mono na jeden głośnik, jest on zwykle tworzony przez uśrednienie sygnału z każdego kanału i zmniejsza pomiar LUFS dokładnie o tę samą ilość (3,01 LU). Z tego względu pomiary głośności dla treści mono i stereo nie są bezpośrednio porównywalne, ale muszą być zrównoważone przez LUFS 3,01.

Niektóre mierniki głośności mają opcje, które pozwalają skorygować tę rozbieżność. Jeśli np. używasz funkcji ffmpeg (patrz poniżej), możesz użyć opcji dual_mono (lub dualmono), jak opisano poniżej. Jeśli używasz miernika głośności z taką opcją i masz włączoną tę opcję, docelowa głośność powinna wynosić -16 LUFS, niezależnie od tego, czy dźwięk jest stereo czy mono.

Zalecamy 2 opcje pomiaru i dostosowywania głośności dźwięku:

Korzystanie z miernika DAW i LUFS

Aby sprawdzić, czy dźwięk jest zgodny z rekomendacją -16 LUFS, wykonaj te czynności:

  1. Twórz cały dźwięk na stałym poziomie głośnej i wyrównanej (wyrównanej) głośności przez cały czas trwania dźwięku, aby nie dochodziło do żadnych wzrostów ani spadków głośności.
  2. Skonfiguruj cyfrową stację roboczą (DAW) i miernik LUFS, aby mierzyć głośność dźwięku w porównaniu z odniesieniem głośności Google TTS.
  3. Zmierz i dostosuj głośność dźwięku, aby miał zintegrowany średni poziom głośności wynoszący około -16 LUFS (lub -19 LUFS w przypadku treści mono).
  4. Sprawdź ucho, porównując jego głośność z wartością referencyjną zamiany tekstu na mowę Google.

Skonfiguruj miernik DAW i LUFS

Na rynku jest dostępnych wiele programów DAW i LUFS, które są dostępne zarówno w wersji freeware, jak i komercyjnej. Jeśli masz już preferowany miernik DAW i LUFS, możesz go użyć. W przeciwnym razie zalecamy użycie narzędzia Audacity w systemach Windows i Linux lub Reaper na Maca dla DAWs oraz TBProAudio dpMeter II dla miernika LUFS. W sekcjach poniżej zakładamy, że używasz tych narzędzi.

Pobierz pliki

  1. Pobierz i zainstaluj DAW:
  2. Pobierz i zainstaluj dpMeter II na swój system operacyjny. Narzędzie działa z Audacity i Reaper jako wtyczkę VST (Virtual Studio Technology).
  3. Pobierz plik audio Google TTS Loudness Reference (Informacje o głośności zamiany tekstu na mowę Google). Dźwięk zamiany tekstu na mowę brzmi: „Zintegrowana głośność tego zdania to około -16 LUFS”. Ten plik służy jako testowy dźwięk miernika oraz odniesienie do kontroli uszu.

Skonfiguruj dpMeter II dla Audacity (Windows/Linux)

  1. Otwórz w Audacity plik audio z informacjami o głośności Google TTS.
  2. Otwórz wtyczkę dpMeter II, klikając kartę Effect, a następnie wybierając Add/Remove Plug-ins (Dodaj/usuń wtyczki).
  3. Znajdź na liście dpMeter2, kliknij Włącz, a następnie OK. Wtyczka dpMeter II jest teraz widoczna w menu Efekt.
  4. Kliknij dpMeter2 w menu Efekt, aby otworzyć wtyczkę. dpMeter II domyślnie włącza tryb RMS (schemat kolorów pomarańczowych). Aby mierzyć LUFS, zmień tryb na EBU r128 (schemat kolorów niebieskiego).

Konfigurowanie dpMeter II dla Reapera (Mac)

  1. Otwórz plik dźwiękowy Google TTS z informacjami o głośności, klikając Wstaw > Plik multimedialny....
  2. Otwórz wtyczkę dpMeter II, klikając zielony przycisk FX (numer 1 na ilustracji) w lewym panelu warstwy audio. Pojawi się okno FX.

  3. Kliknij dpMeter2 na liście. dpMeter II domyślnie włącza tryb RMS (schemat koloru pomarańczowego). Aby mierzyć LUFS, zmień tryb na EBU r128 (schemat kolorów niebieskich).

Mierzenie i dostosowywanie głośności

Różne metry w różnych systemach DAW dają nieco inne odczyty. Audacity mierzy odniesienie dźwięku zamiany tekstu na mowę Google trochę głośniej niż inne DAW-y, czyli -15,1 LUFS, a Reaper podaje wartość LUFS -16,0. Jeśli DAW mierzy głośność dźwięku z Google TTS w zakresie +/-2 LUFS od -16, to powinno działać prawidłowo.

Podstawowe kroki, które pozwalają zmierzyć i regulować głośność:

  1. Użyj dpMeter II do pomiaru głośności funkcji Google TTS Loudness Referencję, aby określić bazowy odczyt LUFS. Jeśli Twój DAW mierzy wyższy lub niższy niż -16 LUFS w ramach referencji zamiany tekstu na mowę Google, dopasuj dźwięk do wartości bazowej DAW. Na przykład w Audacity dpMeter II mierzy zintegrowaną głośność o wartości -15, 1 LUFS, więc nowa docelowa głośność Twojego programu powinna wynosić -15, 1 LUFS.
  2. Po ustaleniu punktu odniesienia dostosuj dźwięk, aby pasował do wartości bazowej.

Pomiar referencji głośności zamiany tekstu na mowę Google

Aby zmierzyć głośność pliku, kliknij zielony przycisk odtwarzania w dpMeter II lub naciśnij play (spację) na urządzeniu DAW (numer 4 poniżej).

Poniżej znajdziesz opis głównych funkcji, z których możesz korzystać w dpMeter II:

  1. Tryb: ustaw EBU (zamiast RMS), aby mierzyć głośność w LUFS.
  2. Kontrola wzmocnienia: upewnij się, że ta wartość jest ustawiona na 0,0, dopóki nie zechcesz zmienić głośności programu.
  3. Zintegrowana głośność: jest to średnia głośność całego dźwięku przeanalizowanego przez wtyczkę od momentu kliknięcia przycisku resetowania (5). Przed każdym pomiarem głośności kliknij przycisk resetowania (5), aby mieć pewność, że mierzysz tylko głośność z bieżącego ustawienia.
  4. Odtwórz: rozpoczyna analizę głośności pliku audio. (Ten przycisk nie pojawia się w przypadku niektórych DAW-ów. Powinno to zadziałać, gdy klikniesz główny przycisk odtwarzania (spację) w DAW.
  5. Resetuj: klikaj ten przycisk między kolejnymi pomiarami głośności.
  6. Zastosuj: gdy chcesz zmienić głośność materiału programu, aby pasowała do odniesienia do zamiany tekstu na mowę Google, ten przycisk zastosuje zmianę głośności ustawioną za pomocą Regulacji wzmocnienia (2).

Zgodność głośności z odniesieniem głośności zamiany tekstu na mowę Google

Po zmierzeniu głośności w ramach analizy głośności Google TTS możesz zmierzyć i dostosować głośność dźwięku:

  1. Otwórz plik audio i w menu Efekt kliknij dpMeter2.
  2. Kliknij przycisk Odtwórz i poczekaj, aż zintegrowana wartość głośności ustabilizuje się w średniej wartości pliku audio.
  3. Jeśli zintegrowana głośność różni się od wartości referencyjnej głośności zamiany tekstu na mowę Google, dostosuj wzmocnienie dźwięku, aby pasował do odniesienia. Jeśli na przykład dźwięk mierzy zintegrowaną głośność -12, jest on za głośny, więc zmniejsz wzmocnienie, ustawiając Regulację wzmocnienia na -4 db, a następnie klikając Zastosuj, aby ustawić go w docelowym zakresie zakresu głośności zamiany tekstu na mowę Google (-16 LUFS). Aby osiągnąć docelową głośność, musisz zmierzyć i dostosować wzmocnienie, ponieważ wzrost szacuje tylko poziom LUFS.

Używanie pliku FFmpeg

FFmpeg to platforma mediów z narzędziem wiersza poleceń do konwersji mediów. Narzędzie zawiera filtr loudnorm do normalizacji głośności. Możesz użyć głośności, aby uzyskać wersję pliku audio z odpowiednią głośnością LUFS -16.

  1. Pobierz i zainstaluj FFmpeg.
  2. Przejdź do katalogu instalacji i uruchom FFmpeg z plikiem wejściowym z filtrem Speakernorm. Włącz opcję dual_mono.

    ./ffmpeg -i /path/to/input.wav \
        -af loudnorm=I=-16:dual_mono=true:TP=-1.5:LRA=11:print_format=summary \
        -f null -
    

    Dzięki temu program FFmpeg ma mierzyć wartości dźwiękowe w pliku multimedialnym bez tworzenia pliku wyjściowego. Zobaczysz serię wartości przedstawiających te wartości:

    Input Integrated:    -27.2 LUFS
    Input True Peak:     -14.4 dBTP
    Input LRA:             0.1 LU
    Input Threshold:     -37.7 LUFS
    
    Output Integrated:   -15.5 LUFS
    Output True Peak:     -2.7 dBTP
    Output LRA:            0.0 LU
    Output Threshold:    -26.2 LUFS
    
    Normalization Type:   Dynamic
    Target Offset:        -0.5 LU
    

    Przykładowe wartości powyżej wskazują ważne informacje o przychodzących multimediach. Na przykład wyświetlana wartość Input Integrated oznacza zbyt głośny dźwięk. Wartość Output Integrated jest dużo bliższa -16,0. Wartości Input True Peak i Input LRA, czyli zakres głośności, są wyższe niż podane przez nas wartości maksymalne i zostaną obniżone w wersji znormalizowanej. Na koniec Target Offset reprezentuje zwiększenie przesunięcia użytego w danych wyjściowych.

  3. Uruchom drugi przepływ filtra głośnościnorm, podając wartości z kroku 1 jako wartości „zmierzone” w opcjach głośności.

    ./ffmpeg -i /path/to/input.wav -af loudnorm=I=-16:TP=-1.5:LRA=11:measured_I=-27.2:measured_TP=-14.4:measured_LRA=0.1:measured_thresh=-37.7:offset=-0.5:linear=true:print_format=summary output.wav
    

    Zostanie utworzony plik output.wav zawierający wersję pliku wejściowego znormalizowaną głośnością.

Posłuchaj poniższych przykładów pliku audio przed i po normalizacji głośności FFmpeg, aby posłuchać, jak działa narzędzie.

Przed

Po

Sprawdź dźwięk

Sprawdź, czy dźwięk brzmi dobrze w porównaniu z informacjami o głośności w technologii Google TTS. W tym celu przełączaj się między słuchaniem plików i obserwuj, czy występują jakieś skoki głośności lub balansu, i w razie potrzeby wyreguluj wzmocnienie.

W przypadku wypowiedzianych słów głośność powinna być spójna w zakresie -16 LUFS (stereo) lub -19 LUFS (mono). Jeśli jednak zakres częstotliwości Twojego dźwięku jest zbyt wysoki (np. odgłosy ptaków) lub zbyt niski (np. grzmot), ustawienie poziomu na -16 LUFS (stereo) lub -19 LUFS (mono) może sprawić, że dźwięk będzie niespójny z odniesieniem głośności Google TTS. W takim przypadku sprawdzenie słuchu przydaje się zwłaszcza do zrównoważenia dźwięku w Twoim programie.