瞭解摘要報表中的雜訊

瞭解雜訊的意義、加入的位置,以及對評估工作的影響。

摘要報表是可匯總報表匯總後的結果。 當收集器分批處理及處理可匯總報表時,匯總服務會將雜訊 (隨機的資料量) 加入產生的摘要報表。 加入雜訊以保護使用者隱私。這項機制的目標是要打造可支援差異化隱私評估機制的架構。

最終的摘要報表中加入了雜訊。

摘要報表中的雜訊簡介

雖然目前的廣告評估方式並未納入雜訊,但在多數情況下,加入的雜訊並不會大幅影響結果的解讀方式。

這可能有助於以下思考: 如果資料不夠吵雜,您是否能有信心依據特定資料做出決定?

舉例來說,如果廣告活動 A 獲得 15 次轉換,而廣告活動 B 獲得 16 次轉換,廣告客戶能否有把握地變更廣告活動策略或預算?

如果答案為否,表示雜訊就不相關。

您應按照以下方式設定 API 使用方法:

  1. 上述問題的答案是「是」。
  2. 雜訊的管理方式不會對您根據特定資料做出決定的能力造成重大影響。做法如下:如果為預期最低轉換次數,建議將收集指標中的雜訊控制在一定百分比以下。

在本節和下方,我們將概略說明達成 2 項目標的策略。

核心概念

匯總服務會在每次要求摘要報表時,為每個摘要值加入一次雜訊,也就是每個鍵一次。

這些雜訊值是從特定機率分佈隨機擷取,請見下文。

影響雜訊的所有元素都必須仰賴兩種主要概念。

  1. 無論匯總值是低或高,雜訊分佈情形 (詳情如下) 都相同。因此,摘要值越高,雜訊帶來的影響就越低 (相對於這個值)。

    舉例來說,假設總購物總價值為 $20,000 美元,總購物價值為 $200 美元,出現您在相同分佈情形中選取的雜訊。

    假設從這種分佈來看,噪音變化大約在 -100 和 +100 之間。

    • 關於 $20,000 美元的摘要購買價值,雜訊介於 0 到 100/20,000=0.5% 之間。
    • 就 $200 美元的摘要購買價值而言,雜訊介於 0 到 100/200=50% 之間。

    因此,雜訊對 $20,000 美元的匯總購物價值的影響可能低於 $200 美元的價值。相反地,$20,000 美元可能會比較小聲,表示雜訊雜訊比較高。

    匯總值越高,雜訊的影響就越低。

    這麼做有一些重要的實際影響,我們會在下一節進行說明。這項機制是 API 設計的一部分,而實際影響是長期的。廣告技術人員在設計及評估各種匯總策略時,仍將扮演重要角色。

  2. 雖然無論匯總值為何,雜訊都來自相同的分佈情形,但分佈情形取決於多項參數。在結案來源試用期間,廣告技術可能會變更其中一個參數 epsilon,藉此評估各種公用程式/隱私權調整項目。不過,請考慮暫時微調 Epsilon。歡迎與我們分享你的使用心得,以及你的 Epsilon 值成效卓越。

雖然廣告技術公司無法直接控制雜訊的新增方式,但可能會影響評估資料所受到的雜訊影響。在接下來的章節中,我們會深入探討如何實際影響雜訊。

開始前,我們先來仔細看看雜訊套用的方式。

放大:雜訊的套用方式

單一雜訊分佈

雜訊來自 Laplace 分佈,且包含下列參數:

  • 0 的平均值 (μ)。這表示最可能的雜訊值為 0 (未加入雜訊),且雜訊值可能小於原始相片,因為較大 (有時稱為「無偏誤」)。
  • b = CONTRIBUTION_BUDGET / epsilon資源調度參數
    • 已在瀏覽器中定義 CONTRIBUTION_BUDGET
    • 已在匯總伺服器中修正 epsilon

下圖顯示 Laplace 分佈 (μ=0、b = 20) 的機率密度函式:

拉地分佈 (μ=0) 的機率密度函式 (μ=0,b = 20)

隨機雜訊值,單一雜訊分佈

假設某個廣告技術請求為兩個匯總鍵 (key1 和 key2) 請求摘要報表。

匯總服務會依照相同的雜訊分佈,選取兩個雜訊值 x1 和 x2。x1 會加入 key1 的摘要值,然後將 x2 新增至 key2 的摘要值中。

在本圖表中,我們將雜訊值表示為相同的。這樣簡化了但實際上,雜訊值會因為從分佈隨機計算而不同。

這表示雜訊值全部都來自相同的分佈情形,而且與套用的匯總值無關。

雜訊的其他特性

每個摘要值都會套用雜訊,包括空白值 (0)。

即使是空白的摘要值,也可能會出現雜訊。

舉例來說,即使某個鍵的真實摘要值是 0,這個鍵的摘要報表中仍會顯示雜訊摘要值 (很有可能) 不是 0。

雜訊可以是正數或負數。

正面和負面噪音示例。

舉例來說,假設購買金額為 327,000,雜訊量可以是 +6,000 或 -6,000 (這些都是任意範例值)。

評估雜訊

計算雜訊的標準差

雜訊的標準差為:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
範例

當 Epsilon = 10 時,雜訊標準差為:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267

在測量結果出現顯著差異時評估

由於您將瞭解匯總服務針對每個輸出值增加的雜訊標準差,因此可以決定適當的比較門檻,藉此判斷是否觀察到因雜訊而觀察到的差異。

舉例來說,如果加進某個值的雜訊量大約為 +/- 10 (將調整比例納入考量),而兩個廣告活動之間的值差異超過 100,則您可以放心推論不同廣告活動之間的值差異,其實並非只因幹擾因素而已。

交流及分享意見回饋

您可以參與這個 API 並進行實驗

後續步驟