音訊音量

LUFS (相對於 Full Scale 的音量單位) 是一種標準,可用於多種類型和生產樣式的音量正規化。LUFS 是一個複雜的演算法,模型是以自然的聆聽音量感知的人類聽力音量研究所產生,可讓音訊製作者避免因音量過大而跳動,使用者也必須持續調整音量。LUFS 也稱為 LKFS (相對於完整體重計的放大鏡、K 加權值)

使用 SSML 播放音訊檔案時,「立體聲」音訊內容的平均音量應為 -16 LUFS (音量 Full Scale),符合 Google 助理 TTS 輸出的平均響度。與 Google 助理相比,在使用聲控器時控制音量的整體音量控制,與 Google 助理的動態範圍具有可變的動態範圍時,這一等級可達成良好的平衡。

若為單聲道音訊內容,平均音量應為 -19 LUFS,而不是 -16 LUFS。單聲道音訊內容的音量目標與立體聲音訊內容不同,因為單聲道音訊內容會在立體聲訊號的兩個聲道上複製單聲道音軌,進而使訊號能量加倍,進而反映 LUFS 的音量 3.01 音量 Unit (LU) 測量結果。相反地,如果將立體聲訊號轉換為單聲道以播放單一揚聲器,通常代表單聲道訊號的建構方式通常是平均分配每個聲道的訊號,然後轉換 LUFS 的測量值就會完全減少 3.01 LU。所以單聲道和立體聲內容的音量測量並非直接比較,但需要偏移 3.01 LUFS。

部分音量計可讓您修正這項差異;例如,如果您使用 ffmpeg (如下所示),則可以按照下列建議使用 dual_mono (或 dualmono) 選項。如果您使用搭配這個選項的音量計量器,且已啟用該選項,那麼音量目標應為 -16 LUFS,不論內容是立體聲或單聲道。

測量及調整音訊音量的方法如下:

使用 DAW 和 LUFS 計量器

下列步驟說明如何確保音訊符合 -16 LUFS 建議:

  1. 在整個音訊期間,以穩定音量和平衡 (均等) 的音量建立所有音訊,讓聲音不會出現驟增或驟降的狀況。
  2. 設定數位音訊工作站 (DAW) 和 LUFS 公尺來測量音訊音量,並與 Google TTS 音量參考資料進行比較。
  3. 測量及調整音訊的音量,使其具備整合的平均音量約為 -16 LUFS (如果內容為單聲道,則為 -19 LUFS)。
  4. 將音量與 Google TTS 音量參考資料進行比較,檢查音訊

設定 DAW 和 LUFS 計量器

有許多 DAWs 和 LUFS 公尺可用做為免費軟體和商業產品。如果你有偏好的 DAW 和 LUFS 計量器,可以使用該計量器。否則,我們建議使用 Audacity 適用於 Windows 和 Linux,或使用適用於 Mac 的 Reaper (Mac 版本),為 LUFS 計量器 TBProAudio dpMeter II。以下各節假設您使用的是這些工具。

取得檔案

  1. 下載並安裝 DAW:
  2. 為您的 OS 下載並安裝 dpMeter II。這項工具可與 Audacity 和 Reaper 做為 VST (Virtual Studio Technology) 外掛程式搭配使用。
  3. 下載 Google TTS 音量參考資料音訊檔案。TTS 音訊顯示:「這個句子的整合音量約為 -16 LUFS」。這個檔案可做為計量器的測試音訊以及耳檢查參照。

為 Audacity 設定 dpMeter II (Windows/Linux)

  1. 在 Audacity 開啟 Google TTS 音量參考音訊檔案。
  2. 按一下「Effect」分頁標籤,選擇「Add/Remove Plug-ins」,以開啟 dpMeter II 外掛程式。
  3. 在清單中找到「dpMeter2」dpMeter2,然後依序按一下「啟用」dpMeter2和「確定」dpMeter2。dpMeter II 外掛程式現在會顯示在「Effect」下拉式選單中。
  4. 按一下「Effect」dpMeter2下拉式選單中的「dpMeter2」dpMeter2,即可開啟外掛程式。dpMeter II 預設為 RMS 模式 (橘色色彩配置)。將模式變更為 EBU r128 (藍色色彩配置),以測量 LUFS。

為 Reper 設定 dpMeter II (Mac)

  1. 依序點選「Insert」>「Media file...」,開啟 Google TTS 音量參考音訊。
  2. 按一下音訊圖層左側窗格的綠色 FX 按鈕 (圖中的數字 1),開啟 dpMeter II 外掛程式。系統隨即會顯示「FX」FX視窗。

  3. 按一下清單中的「dpMeter2」dpMeter2,dpMeter II 預設為 RMS 模式 (橘色色彩配置)。將模式變更為 EBU r128 (藍色色彩配置),以測量 LUFS。

測量和調整音量

不同 DAW 的不同公尺會以不同的測量單位呈現。Audacity 測量到 -15.1 LUFS 時,對 Google TTS 音量參照會比其他 DAWs 的音量高出一些,而 Reaper 則是 -16.0 LUFS 的讀數。只要 DAW 在 -16 的 +/-2 LUFS 內測量 Google TTS 放大鏡參照的音量,應該就能設定音訊的音量。

測量和調整音量的基本步驟如下:

  1. 使用 dpMeter II 測量 Google TTS 音量參考的音量,建立基準 LUFS 讀數。如果您的 DAW 在 Google TTS 音量參照中測量高於或低於 -16 LUFS 的測量值,請將音訊與 DAW 基準值進行比對。舉例來說,在 Audacity 中,dpMeter II 會測量 LUFS 的整合音量,因此程式的新目標音量應為 -15.1 LUFS。
  2. 建立基準後,請依據基準讀取調整音訊。

測量 Google TTS 音量參考

按一下 dpMeter II 中的綠色播放按鈕,或在 DAW 中 (下方數字 4) 按下播放 (空格鍵),測量檔案的音量。

以下清單說明您在 dpMeter II 中可使用的主要功能:

  1. Mode:設為 EBU (而非 RMS),以測量 LUFS 中的音量
  2. 增強控制:請務必將此值設為 0.0,直到您準備好變更程式的音量為止。
  3. Integrated Loudness:這是指使用者按下重設按鈕 (5) 以來,外掛程式已分析所有音訊的平均音量。請在每次音量測量前按一下重設按鈕 (5),確保您只測量目前選取項目的音量。
  4. 播放:啟動音訊檔案的音量分析。(並非所有 DAWs 都會出現這個按鈕。按下 DAW 的主要播放按鈕 (空格鍵),應該也會產生相同的效果。
  5. 重設:請在每次的音量測量之間按一下這個按鈕。
  6. Apply:準備好變更程式素材的音量以符合 Google TTS 音量參考時,此按鈕會套用「增益控制」(2) 設定的音量變更。

與 Google TTS 音量參考中的音量比對相符

現在您已測量 Google TTS 音量參考的音量,可以測量及調整音訊的音量:

  1. 開啟音訊檔案,然後按一下「Effect」dpMeter2選單中的「dpMeter2」dpMeter2
  2. 按一下「Play」按鈕,並讓整合的音量值接近音訊檔案的平均值。
  3. 如果整合的音量與 Google TTS 音量參考資料不同,請依據參考檔案調整音訊的增益。舉例來說,如果您的音訊測量值以 -12 的整合音量測量,值會太大,因此請將「增強控制」設為 -4db,然後按一下「套用」,讓音訊增加到 Google TTS 音量參考資料 (-16 LUFS) 的目標範圍。您可能需要測量及調整增益,才能達到目標音量,因為系統只會取得概略 LUFS 值。

使用 ffmpeg

FFmpeg 是包含媒體轉換指令列工具的媒體架構。這項工具提供一個名為 loudnorm 的篩選器,用於表示版權正規化。您可以使用雙傳遞模式,以適當 -16 LUFS 音量輸出音訊檔案版本。

  1. 下載並安裝 FFmpeg
  2. 前往安裝目錄,然後在輸入檔案上,使用 Minorm 篩選器執行 FFmpeg。請務必啟用 dual_mono 選項。

    ./ffmpeg -i /path/to/input.wav \
        -af loudnorm=I=-16:dual_mono=true:TP=-1.5:LRA=11:print_format=summary \
        -f null -
    

    這會指示 FFmpeg 測量媒體檔案的音訊值,而不建立輸出檔案。您會取得一系列值,如下所示:

    Input Integrated:    -27.2 LUFS
    Input True Peak:     -14.4 dBTP
    Input LRA:             0.1 LU
    Input Threshold:     -37.7 LUFS
    
    Output Integrated:   -15.5 LUFS
    Output True Peak:     -2.7 dBTP
    Output LRA:            0.0 LU
    Output Threshold:    -26.2 LUFS
    
    Normalization Type:   Dynamic
    Target Offset:        -0.5 LU
    

    上方的範例值表示傳入媒體的重要資訊。例如,顯示的 Input Integrated 值表示音訊過大。Output Integrated 值越接近 -16.0。Input True PeakInput LRA 或音量範圍的值都高於我們提供的上限,因此會在正規化版本中減少。最後,Target Offset 代表輸出中使用的偏移增益。

  3. 執行第二個傳遞響亮模式濾鏡,提供步驟 1 中的值做為音量調整選項中的「測量」值。

    ./ffmpeg -i /path/to/input.wav -af loudnorm=I=-16:TP=-1.5:LRA=11:measured_I=-27.2:measured_TP=-14.4:measured_LRA=0.1:measured_thresh=-37.7:offset=-0.5:linear=true:print_format=summary output.wav
    

    系統會建立 output.wav 檔案,其中含有輸入檔案的音量正規化版本。

請聆聽下列音訊檔案在 fmpeg loudness 正規化前後的音訊檔案範例,瞭解這項工具的運作方式。

變更前

變更後

檢查音訊

進行耳內的檢查,確認和 Google TTS 音量參考資料比較好,確保音質良好。做法是在聆聽檔案之間切換,留意音量或平衡點是否有任何突增,並在必要時依耳朵調整增益。

-16 LUFS (立體聲) 或 -19 LUFS (單聲道) 的語音內容應保持一致的音量。不過,如果音訊的頻率範圍過高 (例如鳥類呼叫) 或過高 (例如打雷聲),將等級設為 -16 LUFS (立體聲) 或 -19 LUFS (單聲道) 可能會使音訊聲音與 Google TTS 放大鏡參照不一致。在這種情況下,入耳檢查特別適合用來平衡程式中的所有音訊。