Laboratório de ruído

Sobre este documento

Ao ler este documento, você vai:

  • Entenda quais estratégias criar antes de gerar relatórios de resumo.
  • Conheça o Noise Lab, uma ferramenta que ajuda a entender os efeitos de vários parâmetros de ruído e que permite a exploração e avaliação rápidas de várias estratégias de gerenciamento de ruído.
.
Captura de tela do Noise Lab
Noise Lab

Envie feedback

Este documento resume alguns princípios para trabalhar com relatórios de resumo, há várias abordagens para o gerenciamento de ruído que podem não ser refletidas aqui. Suas sugestões, adições e perguntas são bem-vindas!

  • Para dar feedback público sobre estratégias de gerenciamento de ruído, acesse utilidade ou privacidade da API (epsílon) e de compartilhar suas observações quando de simulação com o Noise Lab: Comentar sobre este problema
  • Para dar feedback público sobre o Noise Lab (faça uma pergunta, informe um bug, solicitar um recurso): Relatar um novo problema aqui
  • Para dar feedback público sobre outro aspecto da API: Relatar um novo problema aqui

Antes de começar

  1. Para uma introdução, leia Relatórios de atribuição: relatórios de resumo e Visão geral do sistema completa dos Relatórios de atribuição.
  2. Verifique as seções Noções básicas sobre ruído e Noções básicas sobre chaves de agregação para aproveitar ao máximo este guia.

Decisões de design

Princípio básico do design

Há diferenças fundamentais entre o funcionamento dos cookies de terceiros e dos relatórios de resumo. Uma diferença fundamental é que ruído adicionado aos dados de medição em relatórios resumidos. Outro é a forma como os relatórios são programados.

Para acessar os dados de medição do relatório resumido com mais indicadores e ruídos proporções, plataformas do lado da demanda (DSPs) e provedores de medição de anúncios precisarão trabalham com os anunciantes para desenvolver estratégias de gerenciamento de ruído. Para desenvolver essas estratégias, as DSPs e os provedores de medição precisam tomar decisões de design. Essas decisões giram em torno de um conceito essencial:

Embora os valores de ruído da distribuição sejam extraídos de, em termos gerais, só depende de dois parâmetros⏤épsilon e do orçamento de contribuição⏤, há vários outros controles à sua disposição que podem afetar o proporções sinal-ruído dos dados de medição de saída.

Embora esperemos que um processo iterativo leve às melhores decisões, cada variação delas levam a uma implementação ligeiramente diferente. Portanto, essas decisões devem ser tomadas antes de escrever cada iteração de código (e antes de executar anúncios).

Decisão: granularidade da dimensão

Teste no Noise Lab

  1. Acesse o Modo avançado.
  2. No painel lateral "Parâmetros", procure "Seus dados de conversão".
  3. Observe os parâmetros padrão. Por padrão, o valor diário TOTAL a contagem de conversões atribuíveis é 1.000. Em média, cerca de 40 por se você usar a configuração padrão (dimensões padrão, número padrão de diferentes valores possíveis para cada dimensão, Estratégia principal A). Observe que o valor for 40 na contagem de conversões médias atribuíveis diárias de entrada; POR BUCKET.
  4. Clique em "Simular" para executar uma simulação com os parâmetros padrão.
  5. No painel lateral "Parâmetros", procure "Dimensões". Renomear Geografia para Cidade e mude o número de valores diferentes possíveis para 50.
  6. Observe como isso altera a média diária de conversões atribuíveis por BUCKET. Agora o preço é muito menor. Isso acontece porque, se você aumentar o número de valores possíveis nesta dimensão sem alterar qualquer outra coisa, você aumenta o número total de buckets sem alterar quantos eventos de conversão vão cair em cada bucket.
  7. Clique em "Simular".
  8. Observe as proporções de ruído da simulação resultante: as proporções de ruído são agora maior do que na simulação anterior.

Considerando o princípio básico do design, é provável que valores de resumo pequenos sejam mais ruidoso do que valores de resumo grandes. Portanto, sua escolha de configuração afeta quantos eventos de conversão atribuídos acabam em cada bucket (caso contrário chamada de chave de agregação), e essa quantidade afeta o ruído na relatórios de resumo de saída finais.

Uma decisão de design que afeta o número de eventos de conversão atribuídos em um único bucket é a granularidade da dimensão. Considere os exemplos a seguir de chaves de agregação e suas dimensões:

  • Abordagem 1: uma estrutura-chave com dimensões aproximadas: País x Campanha publicitária (ou a maior campanha) bucket de agregação) x Tipo de produto (de 10 tipos de produto possíveis)
  • Abordagem 2: uma estrutura-chave com dimensões granulares: Cidade x ID do criativo x Produto (de 100 produtos possíveis)

Cidade é uma dimensão mais granular que País. O ID do criativo é mais granular. do que em Campaign e Produto é mais granular do que Tipo de produto. Portanto, A abordagem 2 terá um número menor de eventos (conversões) por grupo (= por principal) no resultado do relatório de resumo do que a Abordagem 1. Considerando que o ruído adicionado a saída não depende do número de eventos no bucket, os dados de medição em relatórios resumidos será mais barulhento com a Abordagem 2. Para cada anunciante, teste várias a granularidade do design da chave para ter utilidade máxima os resultados.

Decisão: principais estruturas

Teste no Noise Lab

No modo Simples, a estrutura de chave padrão é usada. Na guia você pode testar diferentes estruturas-chave. Alguns exemplos de dimensões estão incluídas. você também pode modificá-los.

  1. Acesse o Modo avançado.
  2. No painel lateral "Parâmetros", procure "Estratégia principal". Observar que a estratégia padrão, chamada A na ferramenta, usa uma chave granular estrutura que inclui todas as dimensões: região geográfica x ID da campanha x produto categoria.
  3. Clique em "Simular".
  4. Observe as proporções de ruído da simulação resultante.
  5. Mude a estratégia "Key" para "B". Isso exibe controles adicionais para você configurar a estrutura da chave.
  6. Configure sua estrutura de chave, por exemplo, da seguinte forma:
    1. Número de estruturas de chave: 2
    2. Estrutura principal 1 = Região geográfica x Categoria de produto.
    3. Estrutura-chave 2 = ID da campanha x categoria do produto.
  7. Clique em "Simular".
  8. Agora você tem dois relatórios de resumo por tipo de meta de medição (dois para o número de compras e dois para o valor de compra), já que você está usando duas estruturas de chave distintas. Observe as proporções de ruído.
  9. Você também pode testar isso com suas próprias dimensões personalizadas. Para isso, olhe para os dados que você quer acompanhar: dimensões. Considere remover o exemplo e criar as suas próprias usando o menu suspenso abaixo da última dimensão.

Outra decisão de design que vai afetar o número de conversões atribuídas eventos em um único bucket estruturas-chave que você decidir usar. Considere os seguintes exemplos de chaves de agregação:

  • Uma estrutura principal com todas as dimensões: vamos chamar essa estratégia principal de A.
  • Duas estruturas principais, cada uma com um subconjunto de dimensões. vamos chamar isso Estratégia principal B.
Diagrama:

A estratégia A é mais simples, mas talvez seja necessário acumular (soma) os valores de resumo com ruído, inclusive os relatórios de resumo, para acessar determinados insights. Ao somar esses valores, você também está somando o ruído. Na Estratégia B, os valores resumidos são expostos no resumo. talvez eles já ofereçam as informações necessárias. Isso significa que a Estratégia B provavelmente levará a melhores proporções sinal-ruído do que a Estratégia A. No entanto, já pode ser aceitável com a Estratégia A, então você ainda pode decidir favorecer Estratégia A para simplificar. Saiba mais no exemplo detalhado que descreve essas duas estratégias.

O gerenciamento de chaves é um assunto profundo. Várias técnicas elaboradas podem ser para melhorar a relação sinal-ruído. Uma delas está descrita em Chave avançada de configuração.

Decisão: frequência dos lotes

Teste no Noise Lab

  1. Vá para o modo Simples (ou Modo avançado). Os dois modos funcionam o da mesma forma quando se trata de frequência de lotes)
  2. No painel lateral "Parâmetros", procure "Sua estratégia de agregação" > Frequência de lotes. Isso se refere à frequência de lotes que são processados com o serviço de agregação em uma um único job.
  3. Respeite a frequência de lotes padrão: por padrão, um processamento diário de lotes e a frequência é simulada.
  4. Clique em "Simular".
  5. Observe as proporções de ruído da simulação resultante.
  6. Altere a frequência de lotes para semanal.
  7. Observe as proporções de ruído da simulação resultante: as proporções de ruído são agora menor (melhor) do que na simulação anterior.

Outra decisão de design que vai afetar o número de conversões atribuídas em um único bucket é a frequência de lotes que você decide usar. A A frequência de lotes é a frequência com que você processa relatórios agregáveis.

Um relatório programado para agregação com mais frequência (por exemplo, a cada hora) têm menos eventos de conversão incluídos do que o mesmo relatório, com uma frequência programação de agregação (por exemplo, toda semana). Como resultado, o relatório por hora incluirá mais ruídos. têm menos eventos de conversão incluídos do que o mesmo relatório, com uma frequência programação de agregação (por exemplo, toda semana). Como resultado, o relatório por hora terá uma relação sinal-ruído mais baixa do que o relatório semanal, todo o resto sendo igual. Teste os requisitos de relatórios em várias frequências e avalie as relações sinal-ruído para cada um.

Saiba mais em Agrupamento em lotes e Agregação por períodos mais longos.

Decisão: variáveis de campanha que afetam as conversões atribuíveis

Teste no Noise Lab

Embora isso possa ser difícil de prever e ter variações significativas além dos efeitos de sazonalidade, estime o número de conversões atribuíveis com um único toque à potência mais próxima de 10: 10, 100, 1.000 ou 10.000.

  1. Acesse o Modo avançado.
  2. No painel lateral "Parâmetros", procure "Seus dados de conversão".
  3. Observe os parâmetros padrão. Por padrão, o valor diário TOTAL a contagem de conversões atribuíveis é 1.000. Em média, cerca de 40 por se você usar a configuração padrão (dimensões padrão, número padrão de diferentes valores possíveis para cada dimensão, Estratégia principal A). Observe que o valor for 40 na contagem de conversões médias atribuíveis diárias de entrada; POR BUCKET.
  4. Clique em "Simular" para executar uma simulação com os parâmetros padrão.
  5. Observe as proporções de ruído da simulação resultante.
  6. Agora, defina a contagem diária TOTAL de conversões atribuíveis como 100. Isso diminui o valor da média diária atribuível contagem de conversões POR BUCKET.
  7. Clique em "Simular".
  8. Observe que as proporções de ruído agora estão mais altas. Isso acontece porque quando você têm menos conversões por bucket, mais ruído é aplicado para manter privacidade.

Uma distinção importante é o número total de conversões possíveis para um anunciante e o número total de conversões atribuídas possíveis. A é o que, em última instância, impacta o ruído nos relatórios resumidos. Atribuídas as conversões são um subconjunto do total de conversões propensas a variáveis, como orçamento e segmentação de anúncios. Por exemplo, você esperaria que de aumento no número de conversões atribuídas para uma campanha publicitária de US $10 milhões em comparação com um anúncio de US $10 mil campanha, e todo o restante é igual.

Importante:

  • Avaliar conversões atribuídas em relação a um único toque no mesmo dispositivo modelo de atribuição, já que estão no escopo dos relatórios de resumo coletados com a API Attribution Reporting.
  • Considerar uma contagem do pior e do melhor cenário das conversões atribuídas. Por exemplo, se todo o restante for igual, considere o orçamentos de campanha mínimos e máximos possíveis para um anunciante e, em seguida, do projeto de conversões atribuíveis para os dois resultados como entradas simulação.
  • Se você está pensando em usar Sandbox de privacidade do Android, considere as conversões atribuídas em várias plataformas no cálculo.

Decisão: como usar o escalonamento

Teste no Noise Lab

  1. Acesse o Modo avançado.
  2. No painel lateral "Parâmetros", procure "Sua estratégia de agregação" > Escalonamento. Ela é definida como Sim por padrão.
  3. Para entender os efeitos positivos do dimensionamento no ruído proporção, primeiro defina Scaling como No
  4. Clique em "Simular".
  5. Observe as proporções de ruído da simulação resultante.
  6. Defina Scaling como Sim. O Noise Lab calcula automaticamente os fatores de escalonamento a serem usados, considerando os intervalos (valores médios e máximos) de as metas de medição do seu cenário. Em um teste de origem ou sistema real convém implementar seu próprio cálculo de fatores de escalonamento.
  7. Clique em "Simular".
  8. Observe que as proporções de ruído agora estão mais baixas (melhores) neste segundo simulação. Isso ocorre porque você está usando escalonamento.

Considerando o princípio básico de design, o ruído adicionado é uma função do orçamento de contribuição.

Portanto, para aumentar as proporções sinal-ruído, você pode decidir transformar valores coletados durante um evento de conversão dimensionando-os em relação ao orçamento de contribuição (e redimensionando-os após a agregação). Use o escalonamento para aumentar as proporções sinal-ruído.

Decisão: número de metas de medição e divisão do orçamento de privacidade

Isso se relaciona com escalonamento; leia Usar escalonamento.

Teste no Noise Lab

Uma meta de medição é um ponto de dados distinto coletado nos eventos de conversão.

  1. Acesse o Modo avançado.
  2. No painel lateral "Parâmetros", procure os dados que você quer rastrear: Metas de medição. Por padrão, você tem duas metas de medição: compra e contagem de compras.
  3. Clique em "Simular" para executar uma simulação com as metas padrão.
  4. Clique em "Remover". Esta ação removerá a última meta de medição (compra nesse caso).
  5. Clique em "Simular".
  6. As proporções de ruído para o valor de compra agora são menores (melhor) para esta segunda simulação. Isso ocorre porque você tem menos de métricas. Assim, sua única meta agora recebe todas as orçamento de contribuição.
  7. Clique em "Redefinir". Agora você tem novamente duas metas de medição: compra e contagem de compras. O Noise Lab calcula automaticamente fatores de escala a serem usados, considerando os intervalos (valores médios e máximos) do as metas de medição relevantes para seu cenário. Por padrão, o Noise Lab divide do orçamento igualmente em todas as metas de medição.
  8. Clique em "Simular".
  9. Observe as proporções de ruído da simulação resultante. Confira as fatores de escalonamento exibidos na simulação.
  10. Agora, vamos personalizar a divisão do orçamento de privacidade para conseguir relações sinal-ruído.
  11. Ajuste a porcentagem do orçamento atribuída a cada meta de medição. Considerando o padrão de medição, a meta de medição 1, ou seja, o valor de compra, tem um maior intervalo (entre 0 e 1.000) do que a meta de medição 2, ou seja, (entre 1 e 1, ou seja, sempre igual a 1). Devido ao precisa de "mais espaço para escalonar". O ideal é atribuir mais orçamento de contribuição para a meta de medição 1 do que a meta de medição 2, de modo que pode ser escalonado verticalmente com mais eficiência (consulte "Escalonamento") e, portanto,
  12. Atribuir 70% do orçamento à meta de medição 1. Atribuir 30% à medição meta 2.
  13. Clique em "Simular".
  14. Observe as proporções de ruído da simulação resultante. Para compra as proporções de ruído agora estão notavelmente menores (melhores) do que simulação. Quanto ao número de compras, eles não mudam.
  15. Continue ajustando a divisão do orçamento nas métricas. Observe como isso afeta barulho

Você pode definir suas próprias metas de medição personalizadas com o Botões "Adicionar/Remover/Redefinir".


Se você medir um ponto de dados (meta de medição) em um evento de conversão, como contagem de conversões, esse ponto de dados pode receber todo o orçamento de contribuição (65536). Se você definir várias metas de medição em um evento de conversão, como a contagem de conversões e o valor de compra, esses pontos de dados precisarão compartilhar o orçamento de contribuição. Isso significa que você tem menos margem para ampliar valores.

Portanto, quanto mais metas de medição você tiver, menores serão as proporções sinal-ruído provavelmente são (maior ruído).

Outra decisão a ser tomada em relação às metas de medição é a divisão do orçamento. Se você dividir o orçamento de contribuição igualmente entre dois pontos de dados, cada ponto de dados recebe uma de 65.536/2 = 32.768. Isso pode ou não ser o ideal, dependendo valor máximo possível para cada ponto de dados. Por exemplo, se você estiver medindo de compra que tenha um valor máximo de 1, e um valor de compra com um mínimo de 1 e máximo de 120, o valor de compra se beneficiaria de ter "mais espaço" ser escalonada verticalmente, ou seja, receber uma proporção maior do orçamento de contribuição. Você vai saber se algumas metas de medição precisam ser priorizadas outros em relação ao impacto do ruído.

Decisão: gerenciamento de outliers

Teste no Noise Lab

Uma meta de medição é um ponto de dados distinto coletado em eventos de conversão.

  1. Acesse o Modo avançado.
  2. No painel lateral "Parâmetros", procure "Sua estratégia de agregação" > Escalonamento.
  3. Certifique-se de que Escalonamento esteja definido como Sim. Observe que o Noise Lab calcula automaticamente os fatores de escalonamento a serem usados, com base nos intervalos (valores médios e máximos) que você forneceu para as metas de medição.
  4. Vamos supor que a maior compra já feita foi de US $2.000, mas que a maioria das compras acontece na faixa de US $10 a US$ 120. Primeiro, vamos descobrir o que acontece Se usarmos uma abordagem de escalonamento literal (não recomendado): insira US $2.000 como o valor máx. de purchaseValue.
  5. Clique em "Simular".
  6. Observe que as proporções de ruído são altas. Isso porque nosso escalonamento é atualmente calculado com base em USD 2.000, quando, na realidade, os valores de compra serão notavelmente menores do que isso.
  7. Agora, vamos usar uma abordagem de escalonamento mais pragmática. Alterar o valor máximo para US $120.
  8. Clique em "Simular".
  9. Observe que as proporções de ruído são menores (melhor) nessa segunda simulação.

Para implementar o escalonamento, você normalmente calcularia um fator de escalonamento com base no o valor máximo possível de um determinado evento de conversão Saiba mais neste exemplo.

No entanto, evite usar um valor máximo literal para calcular esse fator de escalonamento, porque isso pioraria suas proporções sinal-ruído. Em vez disso, remova outliers e usar um valor máximo pragmático.

O gerenciamento de outliers é um assunto profundo. Várias técnicas elaboradas podem ser para melhorar a relação sinal-ruído. Uma delas é descrita em Gerenciamento avançado de outliers.

Próximas etapas

Agora que você avaliou várias estratégias de gerenciamento de ruído para seu caso de uso, você estará pronto para começar a experimentar os relatórios resumidos, coletando de medição com um teste de origem. Consulte os guias e as dicas para testar a API.

Apêndice

Tour rápido do Noise Lab

O Noise Lab ajuda você a avaliar e comparar estratégias de gestão de ruído. Use-o para:

  • Entender os principais parâmetros que podem afetar o ruído e as o efeito que elas têm.
  • Simula o efeito do ruído nos dados de medição de saída fornecidos diferentes decisões de design. Ajustar os parâmetros de design até atingir um relação sinal-ruído que funciona para seu caso de uso.
  • Deixe seu feedback sobre a utilidade dos relatórios de resumo: valores dos parâmetros de épsilon e ruído funcionam para você, quais não funcionam? Onde estão os pontos de inflexão?

Pense nisso como uma etapa de preparação. Laboratório de ruídos gera dados de medição para simular as saídas do relatório de resumo com base nas suas entrada. Ele não armazena nem compartilha dados.

Há dois modos diferentes no laboratório de ruídos:

  1. Modo simples: entenda os conceitos básicos dos controles que você tem sobre ruídos.
  2. Modo avançado: teste diferentes estratégias de gerenciamento de ruído e avalie qual gera as melhores proporções sinal-ruído para seus casos de uso.

Clique nos botões no menu superior para alternar entre os dois (1. na captura de tela abaixo).

Modo simples
  • Com o modo Simples, você controla os parâmetros (encontrados à esquerda na lado ou no 2. na captura de tela abaixo), como o Epsilon, e ver como eles afetam o ruído.
  • Cada parâmetro tem uma dica (um botão "?"). Clique aqui para ver explicação de cada parâmetro (terceiro etapa na captura de tela abaixo)
  • Para começar, clique no botão "Simular" e observe a aparência da saída por exemplo (4. na captura de tela abaixo)
  • Na seção "Saída", há vários detalhes. Algumas elementos têm um `?` ao lado. Reserve algum tempo para clicar em cada `?` para ver um a explicação das várias informações.
  • Na seção "Output", clique no botão de alternância "Details" se você quiser ver uma versão expandida da tabela (no 5. na captura de tela abaixo)
  • Abaixo de cada tabela de dados na seção de saída, há uma opção para fazer o download da tabela para uso off-line. Além disso, na parte inferior no canto direito há uma opção para baixar todas as tabelas de dados (No 6. a captura de tela abaixo)
  • Testar configurações diferentes para os parâmetros na seção "Parâmetros" e clique em "Simular" para conferir como isso afeta a saída:
    Ruído
    Interface do Noise Lab para o modo Simples.
Modo avançado
  • No Modo avançado, você tem mais controle sobre os parâmetros. Você pode adicionar metas e dimensões de medição personalizadas (número 1 e 2 na captura de tela abaixo)
  • Role para baixo na seção Parâmetros e veja a Chave Opção de estratégia. Isso pode ser usado para testar diferentes estruturas-chave (3. na captura de tela abaixo)
    • Para testar diferentes estruturas principais, mude a estratégia principal para "B"
    • Insira o número de diferentes estruturas de chave que você quer usar (o padrão é "2")
    • Clique em "Gerar estruturas de chave"
    • Você verá opções para especificar suas estruturas-chave clicando Marque as caixas de seleção ao lado das chaves que você deseja incluir para cada estrutura de chave.
    • Clique em "Simular" para conferir a saída.
      O modo avançado oferece controles para metas de medição e dimensões a serem monitoradas, destacadas na barra lateral.
      Interface do Noise Lab para o Modo avançado.
      .
      O Modo avançado também é uma opção de estratégia principal na seção "Parâmetros" da barra lateral.
      Interface do Noise Lab para o Modo avançado.

Métricas de ruído

Conceito fundamental

O ruído é adicionado para proteger a privacidade individual do usuário.

Um alto valor de ruído indica que os buckets/chaves são esparsos contêm contribuições de um número limitado de eventos sensíveis. Pronto automaticamente pelo Noise Lab, para permitir que as pessoas "se escondam na multidão", ou em em outras palavras, proteger as contas desses indivíduos privacidade com uma quantidade maior mais ruído.

Um valor de ruído baixo indica que a configuração de dados foi projetada dessa forma de uma forma que já permita que as pessoas "se escondam na multidão". Isso significa que buckets contêm contribuições de um número suficiente de eventos para garantir que a privacidade individual do usuário seja protegida.

Essa afirmação é verdadeira para o erro percentual médio (APE). e RMSRE_T (raiz do erro relativo médio quadrado com limite).

APE (erro percentual médio)

APE é a proporção entre o ruído sobre o sinal, ou seja, o valor de resumo verdadeiro.p> Valores de APE mais baixos significam melhores proporções sinal-ruído.

Fórmula

Para um determinado relatório de resumo, o APE é calculado da seguinte maneira:

A equação do APE. Valores absolutos são obrigatórios, já que o ruído pode ser negativo.

True é o valor de resumo verdadeiro. APE é a média do ruído em cada valor de resumo verdadeiro, calculado sobre todas as entradas em um relatório de resumo. No Noise Lab, esse valor é multiplicado por 100 para gerar uma porcentagem.

Prós e contras

Buckets com tamanhos menores têm um impacto desproporcional no valor final do APE. Isso pode levar a resultados enganosos na avaliação de ruído. É por isso que adicionamos outra métrica, RMSRE_T, que foi projetada para mitigar essa limitação do APE. Confira estes exemplos para mais detalhes.

Código

Revise o código-fonte. para o cálculo do APE.

RMSRE_T (erro relativo da raiz quadrada média com limite)

RMSRE_T (raiz do erro médio quadrático médio com limite) é outra medida de ruído.

Como interpretar o RMSRE_T

Valores RMSRE_T menores significam melhores proporções sinal-ruído.
Por exemplo, se uma proporção de ruído aceitável para seu caso de uso for de 20% e RMSRE_T for 0,2, você terá certeza de que os níveis de ruído estão em uma faixa aceitável.

Fórmula

Para um determinado relatório resumido, o RMSRE_T é calculado da seguinte maneira:

Fórmula
A equação de RMSRE_T. Valores absolutos são obrigatórios, já que o ruído pode ser negativo.
Prós e contras

O RMSRE_T é um pouco mais complexo de entender do que o APE. No entanto, ele tem algumas vantagens que o tornam, em alguns casos, mais adequado do que o APE para analisar ruídos em relatórios de resumo:

  • O RMSRE_T é mais estável. "T" é um limite. "T" é usada para reduzir o peso no cálculo RMSRE_T de buckets que têm menos conversões e, portanto, são mais sensíveis ao ruído devido ao pequeno tamanho. Com T, a métrica não atinge um pico em buckets com poucas conversões. Se T for igual a 5, um valor de ruído tão pequeno quanto 1 em um bucket com nenhuma conversão será mostrado como acima de 1. Em vez disso, o limite será de 0,2, o que equivale a 1/5, já que T é igual a 5. Ao atribuir menos peso a buckets menores, que são mais sensíveis ao ruído, essa métrica é mais estável e, portanto, facilita a comparação de duas simulações.
  • O RMSRE_T facilita a agregação. Conhecer o RMSRE_T de vários buckets, junto com as contagens reais, permite calcular o RMSRE_T da soma deles. Isso também permite otimizar para RMSRE_T para esses valores combinados.

Embora a agregação seja possível para APE, a fórmula é bastante complicada, porque envolve o valor absoluto da soma dos ruídos de Laplace. Isso dificulta a otimização do APE.

Código

Revise o código-fonte para o cálculo RMSRE_T.

Exemplos

Relatório de resumo com três grupos:

  • bucket_1 = ruído: 10, trueSummaryValue: 100
  • bucket_2 = ruído: 20, trueSummaryValue: 100
  • bucket_3 = ruído: 20, trueSummaryValue: 200

APE = (0,1 + 0,2 + 0,1) / 3 = 13%

RMSRE_T = sqrt( ( (10/max(5,100))^2  + (20/max(5,100))^2 +
(20/max(5,200))^2) / 3) =  sqrt( (0.01 + 0.04 + 0.01) / 3) =  0.14 

Relatório de resumo com três grupos:

  • bucket_1 = ruído: 10, trueSummaryValue: 100
  • bucket_2 = ruído: 20, trueSummaryValue: 100
  • bucket_3 = ruído: 20, trueSummaryValue: 20

APE = (0,1 + 0,2 + 1) / 3 = 43%

RMSRE_T = sqrt( ( (10/max(5,100))^2  + (20/max(5,100))^2 +
(20/max(5,20))^2) / 3)  =  sqrt( (0.01 + 0.04 + 1.0) / 3) =  0.59

Relatório de resumo com três grupos:

  • bucket_1 = ruído: 10, trueSummaryValue: 100
  • bucket_2 = ruído: 20, trueSummaryValue: 100
  • bucket_3 = ruído: 20, trueSummaryValue: 0

APE = (0,1 + 0,2 + Infinito) / 3 = Infinito

RMSRE_T = sqrt( ( (10/max(5,100))^2  + (20/max(5,100))^2  +
(20/max(5,0))^2) / 3) =  sqrt( (0.01 + 0.04 + 16.0) / 3) =  2.31

Gerenciamento avançado de chaves

Uma DSP ou empresa de medição de anúncios pode ter milhares de soluções globais de publicidade clientes, abrangendo vários setores, moedas e preço de compra potenciais. Criar e gerenciar uma chave de agregação por anunciante provavelmente será muito impraticável. Além disso, será é difícil selecionar um valor agregável máximo e um orçamento de agregação que possa limitar o impacto do ruído nesses milhares de anunciantes globais. Em vez disso, vamos considerar os seguintes cenários:

Estratégia principal A

O provedor de adtech decide criar e gerenciar uma chave em todas clientes de publicidade. Em todos os anunciantes e todas as moedas, a faixa de as compras variam de compras de baixo volume a compras de alto volume, compras. Isso resulta na seguinte chave:

Chave (várias moedas)
Valor agregável máximo 5.000.000
Intervalo de valor de compra [120 – 5.000.000]
Estratégia principal B

O provedor de adtech decide criar e gerenciar duas chaves clientes de publicidade. Ele decide separar as chaves por moeda. Em todos anunciantes e todas as moedas, a faixa de compras varia entre baixo volume, de compras de alto volume a compras de baixo volume. Separando por moeda, ele cria duas chaves:

Chave 1 (USD) Chave 2 (¥)
Valor agregável máximo USD 40.000 ¥ 5.000.000
Intervalo de valor de compra [120 - 40.000] [15.000 - 5.000.000]

A estratégia principal B terá menos ruído em seu resultado do que a estratégia A, porque os valores de moedas não são distribuídos de maneira uniforme entre as moedas. Por exemplo: pense em como as compras denominadas em ¥ se misturam às compras denominadas em O dólar americano altera os dados subjacentes e gera resultados com ruído.

Estratégia principal C

O provedor de adtech decide criar e gerenciar quatro chaves seus clientes de publicidade e separá-los por moeda x anunciante setor:

Chave 1
(USD x anunciantes de joias de alta qualidade)
Chave 2
(¥ x anunciantes de joias de alta qualidade)
Chave 3
(USD x anunciantes de lojas de roupas)
Chave 4
(¥ x anunciantes de lojas de roupas)
Valor agregável máximo USD 40.000 ¥ 5.000.000 US$ 500 ¥65.000
Faixa de valor de compra [10.000 - 40.000] [1.250.000 - 5.000.000] [120 a 500] [15.000 - 65.000]

A estratégia-chave C terá menos ruído em seu resultado do que a estratégia B, porque os valores de compra dos anunciantes não são distribuídos de maneira uniforme entre os anunciantes. Para exemplo, considere como as compras de joias de alta qualidade se misturam às compras para bonés poderá alterar os dados subjacentes e resultar em uma saída com ruído.

Considere criar valores agregados máximos e fatores de escalonamento compartilhados as semelhanças entre vários anunciantes a fim de reduzir o ruído no saída. Por exemplo, você pode testar diferentes estratégias abaixo para seus anunciantes:

  • Uma estratégia separada por moeda (USD, ¥, CAD etc.)
  • Uma estratégia separada por setor do anunciante (seguros, automóveis, varejo etc.)
  • Uma estratégia separada por intervalos de valor de compra semelhantes ([100], [1000], [10000] etc.)

Ao criar estratégias importantes em torno de semelhanças com anunciantes, chaves e os códigos correspondentes são mais fáceis de gerenciar, e as proporções sinal-ruído tornam-se mais alto. Teste estratégias diferentes com anunciantes diferentes semelhanças para descobrir pontos de inflexão na maximização do impacto de ruído em relação ao código de projetos.


Gerenciamento avançado de outliers

Vamos considerar um cenário com dois anunciantes:

  • Anunciante A:
    • Em todos os produtos no site do anunciante A, o preço de compra as possibilidades estão entre [$120 - $1,000] , para um intervalo de $880.
    • Os preços de compra são distribuídos uniformemente ao longo da faixa de US $880 sem valores atípicos além dos dois desvios padrão do preço médio de compra.
  • Anunciante B:
    • Em todos os produtos no site do anunciante B, o preço de compra as possibilidades estão entre [$120 - $1,000] , para um intervalo de $880.
    • Os preços de compra variam muito entre US $120 e US$ 500, com apenas 5% das compras ocorrendo na faixa de US $500 a US$ 1.000.

Considerando requisitos de orçamento de contribuição e a metodologia com que o ruído é aplicado aos resultados finais, o anunciante B terá, por padrão, uma saída mais ruidosa do que O anunciante A, já que o anunciante B tem maior potencial de impactos discrepantes, cálculos subjacentes.

É possível atenuar isso com uma configuração de chave específica. Teste as principais estratégias que ajudam a gerenciar dados discrepantes e a distribuir os valores de compra de maneira mais uniforme em todo o intervalo de compra da chave.

Para o anunciante B, você pode criar duas chaves separadas para capturar duas chaves diferentes dos intervalos de valor de compra. Neste exemplo, a adtech percebeu que os outliers aparecer acima do valor de compra de US $500. Tente implementar duas chaves separadas este anunciante:

  • Estrutura de chave 1 : chave que captura apenas compras entre os de US $120 a US$ 500 (cobrindo aproximadamente 95% do volume total de compra).
  • Estrutura da chave 2: chave que registra somente compras acima de US $500 (cobrindo cerca de 5% do volume total de compra).

A implementação dessa estratégia principal deve gerenciar melhor o ruído para os anunciantes B e ajudam a maximizar a utilidade deles dos relatórios resumidos. Considerando o novo modelo intervalos, as chaves A e B devem ter uma distribuição de dados mais uniforme em cada chave da chave única anterior. Isso resultará em menos impacto de ruído na saída de cada chave do que na chave única anterior.