Comprendre le bruit dans les rapports récapitulatifs

Découvrez ce que signifie le bruit, où il est ajouté et comment il impacte vos efforts de mesure.

Les rapports de synthèse sont le résultat de l'agrégation de rapports agrégables. Lorsque les rapports agrégables sont regroupés par un collecteur et traités par le service d'agrégation, du bruit (une quantité aléatoire de données) est ajouté aux rapports récapitulatifs obtenus. Du bruit est ajouté pour protéger la confidentialité des utilisateurs. L'objectif de ce mécanisme est de disposer d'un framework compatible avec les mesures à confidentialité différentielle.

Du bruit est ajouté dans le rapport récapitulatif final.

Présentation du bruit dans les rapports récapitulatifs

Aujourd'hui, l'ajout de bruit ne fait généralement pas partie de la mesure des annonces. Toutefois, dans de nombreux cas, il ne changera pas de manière significative la façon dont vous interprétez vos résultats.

Envisagez les choses de la manière suivante: Seriez-vous prêt à prendre une décision basée sur une certaine donnée si ces données n’étaient pas bruyantes ?

Par exemple, un annonceur peut-il modifier en toute confiance la stratégie ou les budgets de sa campagne, étant donné que la campagne A a enregistré 15 conversions et que la campagne B en a enregistré 16 ?

Si la réponse est non, le bruit n'a pas d'importance.

Vous devez configurer votre utilisation de l'API de la manière suivante:

  1. La réponse à la question ci-dessus est oui.
  2. La gestion du bruit n'a pas d'impact significatif sur votre capacité à prendre des décisions basées sur certaines données. Pour ce faire, procédez comme suit: pour obtenir un nombre minimal de conversions attendu, vous devez maintenir le bruit dans la métrique collectée en dessous d'un certain pourcentage.

Dans cette section et la suivante, nous décrirons les stratégies pour atteindre l'objectif 2.

Concepts fondamentaux

Le service d'agrégation ajoute du bruit à chaque valeur récapitulative, c'est-à-dire une fois par clé, chaque fois qu'un rapport récapitulatif est demandé.

Ces valeurs de bruit sont tirées de manière aléatoire à partir d'une distribution de probabilité spécifique, décrite ci-dessous.

Tous les éléments qui ont un impact sur le bruit reposent sur deux concepts principaux.

  1. La répartition du bruit (voir détails ci-dessous) est la même, quelle que soit la valeur récapitulative (faible ou élevée). Par conséquent, plus la valeur récapitulative est élevée, moins le bruit est susceptible d'avoir un impact par rapport à cette valeur.

    Par exemple, supposons qu'une valeur totale d'achat totale de 20 000 $et une valeur totale d'achat totale de 200 $soient soumises au bruit sélectionné dans la même distribution.

    Supposons que le bruit de cette distribution varie à peu près entre -100 et +100.

    • Pour une valeur d'achat récapitulative de 20 000 $, le bruit varie entre 0 et 100/20 000=0,5%.
    • Pour une valeur d'achat récapitulative de 200 $, le bruit varie entre 0 et 100/200=50%.

    Par conséquent, le bruit est susceptible d'avoir un impact moins important sur la valeur d'achat cumulée de 20 000 € que sur la valeur de 200 €. Relativement parlant, 20 000 $ sont susceptibles d'être moins bruyants, c'est-à-dire d'avoir un rapport signal/bruit plus élevé.

    Plus les valeurs agrégées sont élevées, plus l'impact du bruit est faible.

    Cela a quelques implications pratiques importantes, décrites dans la section suivante. Ce mécanisme fait partie de la conception de l'API, et les implications pratiques sont à long terme. Elles continueront de jouer un rôle important lorsque les technologies publicitaires conçoivent et évaluent différentes stratégies d'agrégation.

  2. Bien que le bruit soit tiré de la même distribution, quelle que soit la valeur récapitulative, cette distribution dépend de plusieurs paramètres. L'un de ces paramètres, epsilon, pourrait être modifié par les technologies publicitaires pendant la phase d'évaluation terminée afin d'évaluer divers ajustements liés à l'utilité et à la confidentialité. Toutefois, considérez qu'il est possible d'ajuster la valeur epsilon comme temporaire. N'hésitez pas à nous faire part de vos commentaires sur vos cas d'utilisation et sur les valeurs d'epsilon qui fonctionnent bien.

Bien qu'une entreprise de technologie publicitaire ne contrôle pas directement la façon dont le bruit est ajouté, elle peut influencer son impact sur ses données de mesure. Dans les sections suivantes, nous verrons comment le bruit peut être influencé en pratique.

Avant cela, examinons de plus près la façon dont le bruit est appliqué.

Zoom avant: comment le bruit est appliqué

Une distribution de bruit

Le bruit est tiré de la distribution de Laplace, avec les paramètres suivants:

  • Moyenne (μ) de 0. Cela signifie que la valeur de bruit la plus probable est 0 (aucun bruit ajouté) et que la valeur du bruit est aussi susceptible d'être inférieure à la valeur d'origine qu'elle est plus grande (on parle parfois de non biaisé).
  • Un paramètre d'échelle de b = CONTRIBUTION_BUDGET / epsilon.
    • CONTRIBUTION_BUDGET est défini dans le navigateur.
    • epsilon est corrigé dans le serveur d'agrégation.

Le schéma suivant illustre la fonction de densité de probabilité pour une distribution de Laplace avec μ=0, b = 20:

Fonction de densité de probabilité pour une distribution de Laplace avec μ=0, b = 20

Valeurs de bruit aléatoires, une distribution de bruit

Supposons qu'une technologie publicitaire demande des rapports récapitulatifs pour deux clés d'agrégation, key1 et key2.

Le service d'agrégation sélectionne deux valeurs de bruit x1 et x2, en suivant la même répartition du bruit. x1 est ajouté à la valeur de résumé de clé1, et x2 est ajoutée à la valeur de résumé de clé2.

Dans les diagrammes, nous représenterons les valeurs de bruit comme identiques. C'est une simplification : En réalité, les valeurs du bruit varient, car elles sont tirées aléatoirement de la distribution.

Cela montre que les valeurs de bruit proviennent toutes de la même distribution et sont indépendantes de la valeur récapitulative à laquelle elles sont appliquées.

Autres propriétés du bruit

Le bruit est appliqué à chaque valeur récapitulative, y compris les valeurs vides (0).

Même les valeurs récapitulatives vides sont soumises à du bruit.

Par exemple, même si la valeur de résumé réelle pour une clé donnée est 0, la valeur récapitulative bruit affichée dans le rapport de synthèse pour cette clé ne sera (probablement) pas 0.

Le bruit peut être un nombre positif ou négatif.

Exemples de bruit positif et négatif.

Par exemple, pour un montant d'achat de pré-bruit de 327 000, le bruit peut être de +6 000 ou de -6 000 (il s'agit de valeurs d'exemples arbitraires).

Évaluer le bruit

Calculer l'écart type du bruit

L'écart type du bruit est le suivant:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
Exemple

Avec epsilon = 10, l'écart type du bruit est le suivant:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267

Évaluer à quel moment les différences de mesure sont importantes

Comme vous connaissez l'écart type du bruit ajouté à chaque valeur de sortie par le service d'agrégation, vous pouvez déterminer les seuils appropriés pour la comparaison afin de déterminer si les différences observées peuvent être dues au bruit.

Par exemple, si le bruit ajouté à une valeur est d'environ +/- 10 (en tenant compte de l'ajustement) et que la différence de valeur entre deux campagnes est supérieure à 100, vous pouvez sans doute en conclure que la différence de valeur mesurée entre chaque campagne n'est pas uniquement due au bruit.

Interagir et partager des commentaires

Vous pouvez participer et tester cette API.

Étapes suivantes