در مورد این سند
با خواندن این سند، شما:
- قبل از ایجاد گزارش های خلاصه، درک کنید که چه استراتژی هایی ایجاد کنید.
- با Noise Lab آشنا شوید، ابزاری که به درک اثرات پارامترهای مختلف نویز کمک می کند و امکان کاوش و ارزیابی سریع استراتژی های مختلف مدیریت نویز را فراهم می کند.
بازخورد خود را به اشتراک بگذارید
در حالی که این سند چند اصل را برای کار با گزارش های خلاصه خلاصه می کند، رویکردهای متعددی برای مدیریت نویز وجود دارد که ممکن است در اینجا منعکس نشود. پیشنهادات، اضافات، و سوالات شما خوش آمدید!
- برای ارائه بازخورد عمومی در مورد استراتژی های مدیریت نویز، در مورد کاربرد یا حریم خصوصی API (epsilon)، و به اشتراک گذاشتن مشاهدات خود هنگام شبیه سازی با Noise Lab: در مورد این موضوع نظر دهید
- برای ارائه بازخورد عمومی در مورد Noise Lab (یک سوال بپرسید، یک اشکال را گزارش کنید، یک ویژگی درخواست کنید): یک مشکل جدید در اینجا ایجاد کنید
- برای ارائه بازخورد عمومی در مورد جنبه دیگری از API: یک شماره جدید در اینجا ایجاد کنید
قبل از شروع
- برای مقدمه، گزارش انتساب را بخوانید: گزارش های خلاصه و گزارش انتساب، نمای کلی سیستم .
- برای بهترین استفاده از این راهنما، کلیدهای Understanding noise و Understanding aggregation را اسکن کنید.
تصمیمات طراحی
اصل طراحی اصلی
تفاوت های اساسی بین نحوه عملکرد کوکی های شخص ثالث و گزارش های خلاصه وجود دارد. یکی از تفاوت های کلیدی نویز اضافه شده به داده های اندازه گیری در گزارش های خلاصه است. دیگری نحوه برنامه ریزی گزارش ها است.
برای دسترسی به دادههای اندازهگیری گزارش خلاصه با نسبت سیگنال به نویز بالاتر، پلتفرمهای سمت تقاضا (DSP) و ارائهدهندگان اندازهگیری تبلیغات باید با تبلیغکنندگان خود برای توسعه استراتژیهای مدیریت نویز کار کنند. برای توسعه این استراتژی ها، DSP ها و ارائه دهندگان اندازه گیری نیاز به تصمیم گیری در مورد طراحی دارند. این تصمیمات حول یک مفهوم اساسی می چرخد:
در حالی که مقادیر نویز توزیع، به طور مطلق، فقط به دو پارامتر اپسیلون و بودجه مشارکتی بستگی دارد .
در حالی که ما انتظار داریم یک فرآیند تکراری منجر به بهترین تصمیمها شود، هر تغییری در این تصمیمها منجر به اجرای کمی متفاوت خواهد شد - بنابراین این تصمیمها باید قبل از نوشتن هر تکرار کد (و قبل از اجرای تبلیغات) گرفته شوند.
تصمیم: دانه بندی ابعاد
آن را در Noise Lab امتحان کنید
- به حالت پیشرفته بروید.
- در پانل کناری پارامترها، به دنبال داده های تبدیل خود بگردید.
- پارامترهای پیش فرض را رعایت کنید. بهطور پیشفرض، TOTAL تعداد تبدیل قابل انتساب روزانه 1000 است. اگر از تنظیم پیشفرض استفاده کنید (ابعاد پیشفرض، تعداد پیشفرض مقادیر مختلف ممکن برای هر بعد، استراتژی کلید A) به طور متوسط تقریباً 40 در هر سطل است. توجه داشته باشید که مقدار 40 در ورودی میانگین تعداد تبدیل قابل انتساب روزانه در هر سطل است.
- برای اجرای شبیه سازی با پارامترهای پیش فرض روی Simulate کلیک کنید.
- در پانل کناری Parameters، به دنبال Dimensions بگردید. نام جغرافیا را به شهر تغییر دهید و تعداد مقادیر مختلف ممکن را به 50 تغییر دهید.
- مشاهده کنید که چگونه این میانگین تعداد تبدیل قابل انتساب روزانه در هر سطل را تغییر می دهد. الان خیلی کمتر شده این به این دلیل است که اگر تعداد مقادیر ممکن را در این بعد بدون تغییر چیز دیگری افزایش دهید، تعداد کل سطل ها را افزایش می دهید بدون اینکه تغییری در تعداد رویدادهای تبدیل در هر سطل ایجاد شود.
- روی Simulate کلیک کنید.
- نسبتهای نویز حاصل از شبیهسازی را مشاهده کنید: نسبتهای نویز اکنون بیشتر از شبیهسازی قبلی هستند.
با توجه به اصل طراحی اصلی ، مقادیر خلاصه کوچک احتمالاً نویز بیشتری نسبت به مقادیر خلاصه بزرگ دارند. بنابراین، انتخاب پیکربندی شما بر تعداد رویدادهای تبدیل نسبت داده شده در هر سطل تأثیر میگذارد (در غیر این صورت به عنوان کلید تجمیع شما نامیده میشود)، و این مقدار بر نویز در گزارشهای خلاصه خروجی نهایی تأثیر میگذارد.
یکی از تصمیمات طراحی که بر تعداد رویدادهای تبدیل نسبت داده شده در یک سطل تأثیر می گذارد، دانه بندی ابعاد است. مثال های زیر از کلیدهای تجمیع و ابعاد آنها را در نظر بگیرید:
- رویکرد 1: یک ساختار کلیدی با ابعاد درشت: کشور x کمپین تبلیغاتی (یا بزرگترین سطل تجمیع کمپین) x نوع محصول (از 10 نوع محصول ممکن)
- رویکرد 2: یک ساختار کلیدی با ابعاد دانهبندی: شهر x شناسه خلاقانه x محصول (از 100 محصول ممکن)
شهر ابعادی دانهدارتر از کشور است. شناسه خلاقیت جزئی تر از Campaign است. و محصول دانه بندی تر از نوع محصول است. بنابراین، رویکرد 2 تعداد رویدادهای (تبدیل) کمتری در هر سطل (= به ازای هر کلید) در خروجی گزارش خلاصه خود نسبت به رویکرد 1 خواهد داشت. دادههای موجود در گزارشهای خلاصه با رویکرد 2 پر سر و صداتر خواهند بود. برای هر تبلیغکننده، مبادلات مختلف دانهبندی را در طراحی کلید آزمایش کنید تا حداکثر سودمندی را در نتایج داشته باشید.
تصمیم: ساختارهای کلیدی
آن را در Noise Lab امتحان کنید
در حالت Simple از ساختار کلید پیش فرض استفاده می شود. در حالت پیشرفته، می توانید ساختارهای کلیدی مختلفی را آزمایش کنید. برخی از ابعاد نمونه گنجانده شده است. شما همچنین می توانید اینها را اصلاح کنید.
- به حالت پیشرفته بروید.
- در پانل کناری Parameters، به دنبال استراتژی کلید باشید. توجه داشته باشید که استراتژی پیشفرض که در ابزار A نامگذاری شده است، از یک ساختار کلیدی دانهای استفاده میکند که شامل همه ابعاد است: جغرافیا x شناسه کمپین x دسته محصول.
- روی Simulate کلیک کنید.
- نسبت های نویز حاصل از شبیه سازی را مشاهده کنید.
- استراتژی کلید را به B تغییر دهید. این کنترلهای اضافی را به شما نشان میدهد تا ساختار کلید خود را پیکربندی کنید.
- ساختار کلید خود را به صورت زیر پیکربندی کنید:
- تعداد ساختارهای کلیدی: 2
- ساختار کلید 1 = جغرافیا x دسته محصول.
- ساختار کلید 2 = شناسه کمپین x دسته محصول.
- روی Simulate کلیک کنید.
- توجه داشته باشید که اکنون دو گزارش خلاصه برای هر نوع هدف اندازه گیری دریافت می کنید (دو گزارش برای تعداد خرید، دو گزارش برای ارزش خرید)، با توجه به اینکه از دو ساختار کلیدی مجزا استفاده می کنید. نسبت نویز آنها را رعایت کنید.
- شما همچنین می توانید این را با ابعاد دلخواه خود امتحان کنید. برای انجام این کار، به دنبال داده هایی باشید که می خواهید ردیابی کنید: ابعاد. ابعاد نمونه را حذف کنید و با استفاده از دکمه های افزودن/حذف/بازنشانی در زیر آخرین بعد، ابعاد خود را ایجاد کنید.
یکی دیگر از تصمیمات طراحی که بر تعداد رویدادهای تبدیل نسبت داده شده در یک سطل تأثیر می گذارد، ساختارهای کلیدی است که شما تصمیم به استفاده از آن دارید. مثال های زیر از کلیدهای تجمیع را در نظر بگیرید:
- یک ساختار کلیدی با تمام ابعاد. بیایید این استراتژی کلیدی را A بنامیم.
- دو ساختار کلیدی، هر کدام دارای زیر مجموعه ای از ابعاد. بیایید این استراتژی کلیدی را B بنامیم.
استراتژی A سادهتر است، اما ممکن است لازم باشد مقادیر خلاصه نویز شامل گزارشهای خلاصه را جمعآوری کنید (مجموع) برای دسترسی به بینشهای خاص. با جمعبندی این مقادیر، نویز را نیز جمعبندی میکنید. با استراتژی B، مقادیر خلاصه ای که در گزارش های خلاصه نشان داده می شوند ممکن است اطلاعات مورد نیاز را در اختیار شما قرار دهند. این بدان معنی است که استراتژی B احتمالاً به نسبت سیگنال به نویز بهتری نسبت به استراتژی A منجر می شود. با این حال، نویز ممکن است در حال حاضر با استراتژی A قابل قبول باشد، بنابراین ممکن است همچنان تصمیم بگیرید که استراتژی A را برای سادگی ترجیح دهید. در مثال مفصلی که این دو استراتژی را بیان می کند، بیشتر بیاموزید .
مدیریت کلید موضوعی عمیق است. تعدادی از تکنیک های پیچیده را می توان برای بهبود نسبت سیگنال به نویز در نظر گرفت. یکی در مدیریت کلید پیشرفته توضیح داده شده است.
تصمیم: فرکانس بچینگ
آن را در Noise Lab امتحان کنید
- به حالت ساده (یا حالت پیشرفته - هر دو حالت در مورد فرکانس دستهبندی یکسان عمل میکنند) بروید.
- در پانل کناری پارامترها، به دنبال استراتژی تجمیع شما > فرکانس دستهبندی بگردید. این به فراوانی دستهای گزارشهای جمعآوریشده اشاره دارد که با سرویس تجمیع در یک کار واحد پردازش میشود.
- فرکانس دستهبندی پیشفرض را رعایت کنید: بهطور پیشفرض، فرکانس بچینگ روزانه شبیهسازی میشود.
- روی Simulate کلیک کنید.
- نسبت های نویز حاصل از شبیه سازی را مشاهده کنید.
- فرکانس بچینگ را به هفتگی تغییر دهید.
- نسبتهای نویز حاصل از شبیهسازی را مشاهده کنید: نسبتهای نویز اکنون کمتر (بهتر) از شبیهسازی قبلی هستند.
یکی دیگر از تصمیمات طراحی که بر تعداد رویدادهای تبدیل نسبت داده شده در یک سطل تأثیر می گذارد، فرکانس دسته ای است که تصمیم به استفاده از آن دارید. فرکانس دستهبندی تعداد دفعات پردازش گزارشهای جمعآوریشده است.
گزارشی که برای تجمیع بیشتر برنامه ریزی شده است (مثلاً هر ساعت)، رویدادهای تبدیل کمتری نسبت به همان گزارش با زمان بندی تجمیع کمتر (مثلاً هر هفته) دارد. در نتیجه، گزارش ساعتی نویز بیشتری را شامل میشود.``: رویدادهای تبدیل کمتری نسبت به همان گزارش با زمانبندی تجمیع کمتر (مثلاً هر هفته) گنجانده شده است. در نتیجه، گزارش ساعتی نسبت سیگنال به نویز کمتری نسبت به گزارش هفتگی خواهد داشت و بقیه موارد برابر هستند. الزامات گزارش دهی را در فرکانس های مختلف آزمایش کنید و نسبت سیگنال به نویز را برای هر کدام ارزیابی کنید.
در دسته بندی و جمع آوری در دوره های زمانی طولانی تر بیشتر بیاموزید.
تصمیم: متغیرهای کمپین که بر تبدیلهای قابل انتساب تأثیر میگذارند
آن را در Noise Lab امتحان کنید
در حالی که پیشبینی این میتواند دشوار باشد و میتواند علاوه بر تأثیرات فصلی، تغییرات قابلتوجهی داشته باشد، سعی کنید تعداد تبدیلهای روزانه قابل انتساب تک لمسی را به نزدیکترین توان 10: 10، 100، 1000 یا 10000 تخمین بزنید.
- به حالت پیشرفته بروید.
- در پانل کناری پارامترها، به دنبال داده های تبدیل خود بگردید.
- پارامترهای پیش فرض را رعایت کنید. بهطور پیشفرض، TOTAL تعداد تبدیل قابل انتساب روزانه 1000 است. اگر از تنظیم پیشفرض استفاده کنید (ابعاد پیشفرض، تعداد پیشفرض مقادیر مختلف ممکن برای هر بعد، استراتژی کلید A) به طور متوسط تقریباً 40 در هر سطل است. توجه داشته باشید که مقدار 40 در ورودی میانگین تعداد تبدیل قابل انتساب روزانه در هر سطل است.
- برای اجرای شبیه سازی با پارامترهای پیش فرض روی Simulate کلیک کنید.
- نسبت های نویز حاصل از شبیه سازی را مشاهده کنید.
- اکنون تعداد TOTAL تبدیل قابل انتساب روزانه را روی 100 تنظیم کنید. توجه داشته باشید که این مقدار میانگین تعداد تبدیل قابل انتساب روزانه به ازای هر سطل را کاهش می دهد.
- روی Simulate کلیک کنید.
- توجه داشته باشید که نسبتهای نویز اکنون بالاتر است: این به این دلیل است که وقتی تبدیلهای کمتری در هر سطل دارید، نویز بیشتری برای حفظ حریم خصوصی اعمال میشود.
یک تمایز مهم، تعداد کل تبدیلهای ممکن برای یک تبلیغکننده، در مقابل تعداد کل تبدیلهای ممکن نسبت داده شده است. مورد دوم چیزی است که در نهایت بر نویز در گزارش های خلاصه تأثیر می گذارد. تبدیل های نسبت داده شده زیرمجموعه ای از کل تبدیل ها هستند که مستعد متغیرهای کمپین مانند بودجه تبلیغات و هدف گذاری تبلیغات هستند. به عنوان مثال، شما انتظار دارید تعداد بیشتری از تبدیل های نسبت داده شده برای یک کمپین تبلیغاتی 10 میلیون دلاری در مقابل یک کمپین تبلیغاتی 10 هزار دلاری داشته باشید، در حالی که همه موارد دیگر برابر هستند.
مواردی که باید در نظر بگیرید:
- تبدیلهای منتسبشده را بر اساس مدل انتساب دستگاه یکسان و تک لمسی ارزیابی کنید، زیرا این موارد در محدوده گزارشهای خلاصه جمعآوریشده با API گزارش Attribution هستند.
- تعداد بدترین سناریو و تعداد سناریوهای بهترین را برای تبدیلهای منتسب در نظر بگیرید. برای مثال، اگر همه چیز برابر باشد، حداقل و حداکثر بودجه کمپین ممکن را برای یک تبلیغکننده در نظر بگیرید، سپس تبدیلهای قابل انتساب را برای هر دو نتیجه به عنوان ورودیهای شبیهسازی خود پیشبینی کنید.
- اگر میخواهید از جعبه ایمنی حریم خصوصی Android استفاده کنید، تبدیلهای منتسب به چند پلتفرم را در محاسبه در نظر بگیرید.
تصمیم: استفاده از مقیاس بندی
آن را در Noise Lab امتحان کنید
- به حالت پیشرفته بروید.
- در پانل کناری پارامترها، به دنبال استراتژی تجمیع شما > مقیاسبندی بگردید. به طور پیش فرض روی Yes تنظیم شده است.
- برای درک تأثیرات مثبت مقیاس بندی بر نسبت نویز، ابتدا Scaling را روی No تنظیم کنید.
- روی Simulate کلیک کنید.
- نسبت های نویز حاصل از شبیه سازی را مشاهده کنید.
- Scaling را روی Yes تنظیم کنید. توجه داشته باشید که Noise Lab به طور خودکار فاکتورهای مقیاس بندی مورد استفاده را با توجه به محدوده (متوسط و حداکثر مقادیر) اهداف اندازه گیری برای سناریوی شما محاسبه می کند. در یک سیستم واقعی یا راه اندازی آزمایشی مبدا، شما می خواهید محاسبات خود را برای فاکتورهای مقیاس بندی پیاده سازی کنید.
- روی Simulate کلیک کنید.
- توجه داشته باشید که نسبت های نویز اکنون در این شبیه سازی دوم کمتر (بهتر) هستند. این به این دلیل است که شما از مقیاس بندی استفاده می کنید.
با توجه به اصل طراحی اصلی ، نویز اضافه شده تابعی از بودجه مشارکت است.
بنابراین، برای افزایش نسبت سیگنال به نویز، میتوانید تصمیم بگیرید که مقادیر جمعآوریشده در طول یک رویداد تبدیل را با مقیاسبندی آنها در برابر بودجه مشارکت (و کاهش مقیاس آنها پس از تجمیع) تغییر دهید. از مقیاس بندی برای افزایش نسبت سیگنال به نویز استفاده کنید.
تصمیم: تعداد اهداف اندازه گیری، و تقسیم بودجه حریم خصوصی
این مربوط به مقیاس بندی است. استفاده از مقیاسبندی را حتما بخوانید.
آن را در Noise Lab امتحان کنید
هدف اندازه گیری یک نقطه داده متمایز است که در رویدادهای تبدیل جمع آوری می شود.
- به حالت پیشرفته بروید.
- در پانل کناری پارامترها، به دنبال داده هایی باشید که می خواهید ردیابی کنید: اهداف اندازه گیری. به طور پیش فرض، شما دو هدف اندازه گیری دارید: ارزش خرید و تعداد خرید.
- برای اجرای شبیه سازی با اهداف پیش فرض روی Simulate کلیک کنید.
- روی حذف کلیک کنید. این آخرین هدف اندازه گیری را حذف می کند (تعداد خرید در آن صورت).
- روی Simulate کلیک کنید.
- توجه داشته باشید که نسبت های نویز برای ارزش خرید اکنون برای این شبیه سازی دوم کمتر (بهتر) است. این به این دلیل است که شما اهداف اندازه گیری کمتری دارید، بنابراین یک هدف اندازه گیری شما اکنون تمام بودجه مشارکت را دریافت می کند.
- روی Reset کلیک کنید. اکنون دوباره دو هدف اندازه گیری دارید: ارزش خرید و تعداد خرید. توجه داشته باشید که Noise Lab به طور خودکار فاکتورهای مقیاس بندی مورد استفاده را با توجه به محدوده (متوسط و حداکثر مقادیر) اهداف اندازه گیری برای سناریوی شما محاسبه می کند. به طور پیش فرض، Noise Lab بودجه را به طور مساوی بین اهداف اندازه گیری تقسیم می کند.
- روی Simulate کلیک کنید.
- نسبت های نویز حاصل از شبیه سازی را مشاهده کنید. به فاکتورهای مقیاس بندی نمایش داده شده در شبیه سازی توجه داشته باشید.
- اکنون، بیایید تقسیم بودجه حریم خصوصی را برای دستیابی به نسبت سیگنال به نویز بهتر سفارشی کنیم.
- درصد بودجه اختصاص داده شده برای هر هدف اندازه گیری را تغییر دهید. با توجه به پارامترهای پیشفرض، هدف اندازهگیری 1، یعنی ارزش خرید، دامنه بسیار گستردهتری (بین 0 تا 1000) نسبت به هدف اندازهگیری 2، یعنی تعداد خرید (بین 1 و 1 یعنی همیشه برابر با 1) دارد. به همین دلیل، به «فضای بیشتر برای مقیاسسازی» نیاز دارد: تخصیص بودجه مشارکت بیشتر به هدف اندازهگیری 1 نسبت به هدف اندازهگیری 2، ایدهآل است تا بتوان آن را بهطور کارآمدتر بزرگتر کرد (به مقیاسبندی مراجعه کنید)، و از این رو،
- 70% از بودجه را به هدف اندازه گیری 1 اختصاص دهید. 30% را به هدف اندازه گیری 2 اختصاص دهید.
- روی Simulate کلیک کنید.
- نسبت های نویز حاصل از شبیه سازی را مشاهده کنید. برای ارزش خرید، نسبت های نویز در حال حاضر به طور قابل توجهی کمتر (بهتر) از شبیه سازی قبلی است. برای تعداد خرید، آنها تقریباً بدون تغییر هستند.
- به تغییر در تقسیم بودجه در معیارها ادامه دهید. مشاهده کنید که این چگونه نویز را تحت تأثیر قرار می دهد.
توجه داشته باشید که می توانید اهداف اندازه گیری سفارشی خود را با دکمه های افزودن/حذف/بازنشانی تنظیم کنید.
اگر یک نقطه داده (هدف اندازه گیری) را در یک رویداد تبدیل اندازه گیری کنید، مانند تعداد تبدیل، آن نقطه داده می تواند تمام بودجه مشارکت (65536) را دریافت کند. اگر چندین هدف اندازه گیری روی یک رویداد تبدیل، مانند تعداد تبدیل و ارزش خرید تعیین کنید، آن نقاط داده باید بودجه مشارکت را به اشتراک بگذارند. این بدان معنی است که شما آزادی عمل کمتری برای افزایش ارزش های خود دارید.
بنابراین، هرچه اهداف اندازه گیری بیشتری داشته باشید، نسبت سیگنال به نویز کمتر خواهد بود (نویز بیشتر).
تصمیم دیگری که در رابطه با اهداف اندازه گیری باید گرفته شود، تقسیم بودجه است. اگر بودجه مشارکت را به طور مساوی بین دو نقطه داده تقسیم کنید، هر نقطه داده بودجه 65536/2 = 32768 را دریافت می کند. این ممکن است بسته به حداکثر مقدار ممکن برای هر نقطه داده بهینه باشد یا نباشد. به عنوان مثال، اگر تعداد خریدی را که حداکثر ارزش آن 1 است، و ارزش خرید را با حداقل 1 و حداکثر 120 اندازه گیری می کنید، ارزش خرید از داشتن "فضای بیشتر" برای افزایش مقیاس سود می برد. ، نسبت بیشتری از بودجه مشارکت داده شود. خواهید دید که آیا برخی از اهداف اندازه گیری باید نسبت به سایر اهداف در رابطه با تأثیر نویز اولویت بندی شوند یا خیر.
تصمیم: مدیریت پرت
آن را در Noise Lab امتحان کنید
هدف اندازه گیری یک نقطه داده متمایز است که در رویدادهای تبدیل جمع آوری می شود.
- به حالت پیشرفته بروید.
- در پانل کناری پارامترها، به دنبال استراتژی تجمیع شما > مقیاسبندی بگردید.
- مطمئن شوید که Scaling روی Yes تنظیم شده است. توجه داشته باشید که Noise Lab به طور خودکار فاکتورهای مقیاس بندی مورد استفاده را بر اساس محدوده (مقادیر متوسط و حداکثر) که برای اهداف اندازه گیری داده اید محاسبه می کند.
- بیایید فرض کنیم که بزرگترین خریدی که تاکنون انجام شده، 2000 دلار بوده است، اما اکثر خریدها در محدوده 10 تا 120 دلار انجام میشوند. ابتدا، بیایید ببینیم اگر از رویکرد مقیاسبندی تحت اللفظی استفاده کنیم (توصیه نمیشود) چه اتفاقی میافتد: 2000 دلار را بهعنوان حداکثر مقدار برای buyValue وارد کنید.
- روی Simulate کلیک کنید.
- توجه داشته باشید که نسبت نویز زیاد است. این به این دلیل است که ضریب مقیاس ما در حال حاضر بر اساس 2000 دلار محاسبه میشود، در حالی که در واقعیت بیشتر ارزشهای خرید بهطور قابل توجهی کمتر از آن خواهند بود.
- حال، بیایید از یک رویکرد مقیاسپذیری عملگرایانهتر استفاده کنیم. حداکثر ارزش خرید را به 120 دلار تغییر دهید.
- روی Simulate کلیک کنید.
- توجه داشته باشید که نسبت های نویز در این شبیه سازی دوم کمتر (بهتر) است.
برای اجرای مقیاسبندی، معمولاً یک ضریب مقیاسبندی را بر اساس حداکثر مقدار ممکن برای یک رویداد تبدیل مشخص محاسبه میکنید ( در این مثال بیشتر بدانید ).
با این حال، از استفاده از یک مقدار حداکثر تحت اللفظی برای محاسبه آن ضریب مقیاس خودداری کنید، زیرا این امر نسبت سیگنال به نویز شما را بدتر می کند. در عوض، نقاط پرت را حذف کنید و از یک مقدار حداکثر عملی استفاده کنید.
مدیریت پرت یک موضوع عمیق است. تعدادی از تکنیک های پیچیده را می توان برای بهبود نسبت سیگنال به نویز در نظر گرفت. یکی در Advanced Outlier Management توضیح داده شده است.
مراحل بعدی
اکنون که استراتژیهای مختلف مدیریت نویز را برای مورد استفاده خود ارزیابی کردهاید، آمادهاید تا با جمعآوری دادههای اندازهگیری واقعی از طریق آزمایش مبدأ آزمایش گزارشهای خلاصه را آغاز کنید. راهنماها و نکاتی را برای امتحان کردن API مرور کنید.
ضمیمه
گشت سریع آزمایشگاه نویز
Noise Lab به شما کمک می کند تا به سرعت استراتژی های مدیریت نویز را ارزیابی و مقایسه کنید. از آن استفاده کنید تا:
- پارامترهای اصلی را که می توانند بر نویز تأثیر بگذارند و تأثیر آنها را درک کنید.
- با توجه به تصمیمات طراحی مختلف، اثر نویز را بر روی داده های اندازه گیری خروجی شبیه سازی کنید. پارامترهای طراحی را تغییر دهید تا زمانی که به نسبت سیگنال به نویز برسید که برای مورد استفاده شما کار می کند.
- بازخورد خود را در مورد کاربرد گزارشهای خلاصه به اشتراک بگذارید: کدام مقادیر پارامترهای اپسیلون و نویز برای شما کار میکنند، کدامیک نه؟ نقاط عطف کجا هستند؟
به این به عنوان یک مرحله آماده سازی فکر کنید. Noise Lab داده های اندازه گیری را برای شبیه سازی خروجی های گزارش خلاصه بر اساس ورودی شما تولید می کند. این هیچ داده ای باقی نمی ماند یا به اشتراک نمی گذارد.
دو حالت مختلف در Noise Lab وجود دارد:
- حالت ساده: اصول کنترلهایی که روی نویز دارید را درک کنید.
- حالت پیشرفته: استراتژی های مختلف مدیریت نویز را آزمایش کنید و ارزیابی کنید که کدام یک به بهترین نسبت سیگنال به نویز برای موارد استفاده شما منجر می شود.
برای جابجایی بین دو حالت، روی دکمههای موجود در منوی بالا کلیک کنید ( #1. در تصویر زیر ).
حالت ساده
- با حالت ساده، پارامترهایی (که در سمت چپ یافت می شوند، یا شماره 2. در تصویر زیر ) مانند اپسیلون را کنترل می کنید و می بینید که چگونه بر نویز تأثیر می گذارند.
- هر پارامتر دارای یک راهنمای ابزار (یک دکمه «؟») است. برای مشاهده توضیح هر پارامتر روی آنها کلیک کنید ( #3. در تصویر زیر )
- برای شروع، روی دکمه "Simulate" کلیک کنید و خروجی را مشاهده کنید ( #4. در تصویر زیر )
- در بخش خروجی می توانید جزئیات مختلفی را مشاهده کنید. برخی از عناصر یک «؟» در کنار آن دارند. برای مشاهده توضیحاتی در مورد اطلاعات مختلف، زمانی را صرف کلیک کردن روی هر «؟» کنید.
- در بخش خروجی، اگر میخواهید یک نسخه توسعهیافته از جدول را ببینید، روی دکمه Details کلیک کنید ( #5. در تصویر زیر )
- در زیر هر جدول داده در قسمت خروجی، گزینه ای برای دانلود جدول برای استفاده آفلاین وجود دارد. علاوه بر این، در گوشه سمت راست پایین گزینه ای برای دانلود همه جداول داده وجود دارد ( #6. در تصویر زیر )
- تنظیمات مختلف را برای پارامترها در بخش Parameters آزمایش کنید و روی Simulate کلیک کنید تا ببینید چگونه بر خروجی تأثیر میگذارند:
حالت پیشرفته
- در حالت پیشرفته، کنترل بیشتری روی پارامترها دارید. میتوانید اهداف و ابعاد اندازهگیری سفارشی را اضافه کنید ( #1. و #2. در تصویر زیر )
- در قسمت Parameters بیشتر به پایین اسکرول کنید و گزینه Key Strategy را ببینید. این می تواند برای آزمایش ساختارهای کلیدی مختلف استفاده شود ( #3. در تصویر زیر )
- برای آزمایش ساختارهای کلیدی مختلف، کلید استراتژی را به "B" تغییر دهید.
- تعداد ساختارهای کلیدی مختلفی را که می خواهید استفاده کنید وارد کنید (پیش فرض روی "2" تنظیم شده است)
- روی Generate Key Structures کلیک کنید
- با کلیک کردن بر روی کادرهای کنار کلیدهایی که میخواهید برای هر ساختار کلید اضافه کنید، گزینههایی برای تعیین ساختارهای کلیدی خود مشاهده خواهید کرد.
- برای مشاهده خروجی روی Simulate کلیک کنید.
معیارهای نویز
مفهوم اصلی
نویز برای محافظت از حریم خصوصی کاربر اضافه شده است.
مقدار بالای نویز نشان میدهد که سطلها/کلیدها کم هستند و شامل تعداد محدودی از رویدادهای حساس هستند. این کار به طور خودکار توسط Noise Lab انجام میشود تا به افراد اجازه دهد در میان جمعیت پنهان شوند، یا به عبارت دیگر، از حریم خصوصی این افراد محدود با مقدار بیشتری نویز اضافه محافظت میکند.
مقدار کم نویز نشان می دهد که تنظیمات داده به گونه ای طراحی شده است که قبلاً به افراد امکان می دهد "در میان جمعیت پنهان شوند". این بدان معناست که سطلها حاوی مشارکتهایی از تعداد کافی رویداد هستند تا اطمینان حاصل شود که حریم خصوصی کاربر محافظت میشود.
این عبارت برای هر دو درصد خطای متوسط (APE) و RMSRE_T (خطای نسبی ریشه میانگین مربع با آستانه) صادق است.
APE (متوسط درصد خطا)
APE نسبت نویز بر سیگنال، یعنی مقدار خلاصه واقعی است.
p> مقادیر APE کمتر به معنای نسبت سیگنال به نویز بهتر است.
اگر APE Infinity باشد به چه معناست؟ به این معنی است که مقدار خلاصه واقعی 0 بود، یعنی حداقل یک سطل خالی بود. در [بخش نمونهها] (#noise-examples) بیشتر بخوانید.
فرمول
برای یک گزارش خلاصه داده شده، APE به صورت زیر محاسبه می شود:
درست است ارزش خلاصه واقعی است. APE میانگین نویز بیش از هر مقدار خلاصه واقعی است که در تمام ورودیهای یک گزارش خلاصه میانگین گرفته میشود. در Noise Lab، این عدد در 100 ضرب می شود تا درصدی بدست آید.
مزایا و معایب
سطل های با اندازه های کوچکتر تأثیر نامتناسبی بر ارزش نهایی APE دارند. این ممکن است هنگام ارزیابی نویز گمراه کننده باشد. به همین دلیل است که معیار دیگری به نام RMSRE_T اضافه کردهایم که برای کاهش این محدودیت APE طراحی شده است. برای جزئیات بیشتر مثال ها را مرور کنید.
کد
کد منبع را برای محاسبه APE مرور کنید.
RMSRE_T (خطای نسبی ریشه میانگین مربع با آستانه)
RMSRE_T (خطای نسبی ریشه میانگین مربع با آستانه) معیار دیگری برای نویز است.
نحوه تفسیر RMSRE_T
مقادیر کمتر RMSRE_T به معنای نسبت سیگنال به نویز بهتر است.
به عنوان مثال، اگر نسبت نویز قابل قبول برای مورد استفاده شما 20% و RMSRE_T 0.2 باشد، می توانید مطمئن باشید که سطح نویز در محدوده قابل قبول شما قرار می گیرد.
فرمول
برای یک گزارش خلاصه داده شده، RMSRE_T به صورت زیر محاسبه می شود:
مزایا و معایب
درک RMSRE_T کمی پیچیده تر از APE است. با این حال، چند مزیت دارد که در برخی موارد آن را برای تجزیه و تحلیل نویز در گزارش های خلاصه مناسب تر از APE می کند:
- RMSRE_T پایدارتر است. "T" یک آستانه است. "T" برای دادن وزن کمتر در محاسبه RMSRE_T به سطل هایی استفاده می شود که تبدیل کمتری دارند و بنابراین به دلیل اندازه کوچکشان به نویز حساس تر هستند. با T، متریک در سطل هایی با تبدیل های کمی افزایش نمی یابد. اگر T برابر با 5 باشد، مقدار نویز کوچکی به اندازه 1 در یک سطل با 0 تبدیل به صورت بیش از 1 نمایش داده نمی شود. در عوض، آن را روی 0.2 محدود می کند که معادل 1/5 است، زیرا T برابر است. تا 5. با دادن وزن کمتر به سطل های کوچکتر که در نتیجه نسبت به نویز حساس تر هستند، این متریک پایدارتر است و بنابراین مقایسه دو شبیه سازی را آسان تر می کند.
- RMSRE_T امکان تجمیع آسان را فراهم می کند. دانستن RMSRE_T چند سطل، همراه با تعداد واقعی آنها، به شما امکان می دهد تا RMSRE_T مجموع آنها را محاسبه کنید. این همچنین به شما اجازه میدهد تا RMSRE_T را برای این مقادیر ترکیبی بهینه کنید.
در حالی که تجمع برای APE امکان پذیر است، فرمول کاملاً پیچیده است زیرا شامل مقدار مطلق مجموع نویزهای لاپلاس است. این امر بهینه سازی APE را سخت تر می کند.
کد
کد منبع را برای محاسبه RMSRE_T مرور کنید.
نمونه ها
گزارش خلاصه با سه سطل:
- bucket_1 = نویز: 10، trueSummaryValue: 100
- bucket_2 = نویز: 20، trueSummaryValue: 100
- bucket_3 = نویز: 20، trueSummaryValue: 200
APE = (0.1 + 0.2 + 0.1) / 3 = 13٪
RMSRE_T = sqrt( ( (10/max(5,100))^2 + (20/max(5,100))^2 + (20/max(5,200))^2) / 3) = sqrt( (0.01 + 0.04 + 0.01) / 3) = 0.14
گزارش خلاصه با سه سطل:
- bucket_1 = نویز: 10، trueSummaryValue: 100
- bucket_2 = نویز: 20، trueSummaryValue: 100
- bucket_3 = نویز: 20، trueSummaryValue: 20
APE = (0.1 + 0.2 + 1) / 3 = 43٪
RMSRE_T = sqrt( ( (10/max(5,100))^2 + (20/max(5,100))^2 + (20/max(5,20))^2) / 3) = sqrt( (0.01 + 0.04 + 1.0) / 3) = 0.59
گزارش خلاصه با سه سطل:
- bucket_1 = نویز: 10، trueSummaryValue: 100
- bucket_2 = نویز: 20، trueSummaryValue: 100
- bucket_3 = نویز: 20، trueSummaryValue: 0
APE = (0.1 + 0.2 + بی نهایت) / 3 = بی نهایت
RMSRE_T = sqrt( ( (10/max(5,100))^2 + (20/max(5,100))^2 + (20/max(5,0))^2) / 3) = sqrt( (0.01 + 0.04 + 16.0) / 3) = 2.31
مدیریت کلید پیشرفته
یک شرکت DSP یا اندازهگیری تبلیغات ممکن است هزاران مشتری تبلیغاتی جهانی داشته باشد که صنایع مختلف، ارزها و پتانسیلهای قیمت خرید را در بر میگیرد. این بدان معناست که ایجاد و مدیریت یک کلید تجمیع برای هر تبلیغکننده احتمالاً بسیار غیرعملی خواهد بود. علاوه بر این، انتخاب حداکثر ارزش تجمیع و بودجه تجمیع که می تواند تأثیر نویز را در بین هزاران تبلیغ کننده جهانی محدود کند، چالش برانگیز خواهد بود. در عوض، بیایید سناریوهای زیر را در نظر بگیریم:
استراتژی کلیدی A
ارائهدهنده فناوری تبلیغات تصمیم میگیرد یک کلید را برای همه مشتریان تبلیغاتی خود ایجاد و مدیریت کند. در میان همه تبلیغکنندگان و همه ارزها، دامنه خریدها از خریدهای کم حجم، خریدهای پرمصرف تا خریدهای با حجم بالا و قیمت پایین متفاوت است. این منجر به کلید زیر می شود:
کلید (چند ارز) | |
---|---|
حداکثر مقدار قابل تجمیع | 5,000,000 |
محدوده ارزش خرید | [120 - 5000000] |
استراتژی کلیدی B
ارائهدهنده فناوری تبلیغات تصمیم میگیرد دو کلید را برای همه مشتریان تبلیغاتی خود ایجاد و مدیریت کند. آنها تصمیم می گیرند کلیدها را بر اساس ارز جدا کنند. در میان همه تبلیغکنندگان و همه ارزها، دامنه خریدها از خریدهای کم حجم، خریدهای پرمصرف تا خریدهای با حجم بالا و قیمت پایین متفاوت است. با تفکیک ارز، 2 کلید ایجاد می کنند:
کلید 1 (دلار آمریکا) | کلید 2 (¥) | |
---|---|---|
حداکثر مقدار قابل تجمیع | 40000 دلار | 5,000,000 ین |
محدوده ارزش خرید | [120 - 40000] | [15,000 - 5,000,000] |
استراتژی کلید B نسبت به استراتژی کلیدی A نویز کمتری در نتیجه خود خواهد داشت، زیرا مقادیر ارز به طور یکنواخت بین ارزها توزیع نشده است. به عنوان مثال، در نظر بگیرید که چگونه خریدهای با ارزش ¥ همراه با خریدهای دلار آمریکا، داده های اساسی و خروجی پر سر و صدا را تغییر می دهند.
استراتژی کلیدی ج
ارائهدهنده فناوری تبلیغات تصمیم میگیرد چهار کلید را برای همه مشتریان تبلیغاتی خود ایجاد و مدیریت کند و آنها را بر اساس واحد پولی x صنعت تبلیغکننده جدا کند:
کلید 1 (USD x تبلیغ کنندگان جواهرات گران قیمت) | کلید 2 (¥ x تبلیغ کنندگان جواهرات سطح بالا) | کلید 3 (تبلیغ کنندگان خرده فروش پوشاک USD x) | کلید 4 (¥ x تبلیغ کنندگان خرده فروش لباس) | |
---|---|---|---|---|
حداکثر مقدار قابل تجمیع | 40000 دلار | 5,000,000 ین | 500 دلار | 65000 ین |
محدوده ارزش خرید | [10,000 - 40,000] | [1,250,000 - 5,000,000] | [120 - 500] | [15,000 - 65,000] |
استراتژی کلیدی C نسبت به استراتژی کلیدی B سر و صدای کمتری در نتیجه خود خواهد داشت، زیرا ارزش خرید تبلیغکننده به طور یکسان در بین تبلیغکنندگان توزیع نمیشود. به عنوان مثال، در نظر بگیرید که چگونه خرید جواهرات گرانقیمت همراه با خرید کلاه بیسبال، دادههای زیرین و در نتیجه خروجی نویز را تغییر میدهد.
به منظور کاهش نویز در خروجی، ایجاد حداکثر مقادیر مشترک و فاکتورهای مقیاس بندی مشترک را برای اشتراکات بین چندین تبلیغ کننده در نظر بگیرید. برای مثال، میتوانید استراتژیهای مختلفی را در زیر برای تبلیغکنندگان خود آزمایش کنید:
- یک استراتژی جدا شده بر اساس ارز (USD، ¥، CAD، و غیره)
- یک استراتژی که توسط صنعت تبلیغ کننده (بیمه، خودرو، خرده فروشی و غیره) جدا شده است.
- یک استراتژی که با محدوده های ارزش خرید مشابه جدا شده است ([100]، [1000]، [10000]، و غیره)
با ایجاد استراتژیهای کلیدی پیرامون اشتراکات تبلیغکننده، مدیریت کلیدها و کد مربوطه آسانتر میشود و نسبت سیگنال به نویز بالاتر میرود. برای کشف نقاط عطف در به حداکثر رساندن تأثیر نویز در مقابل مدیریت کد، استراتژیهای مختلف را با اشتراکات مختلف تبلیغکننده آزمایش کنید.
مدیریت پرت پیشرفته
بیایید سناریویی را برای دو تبلیغکننده در نظر بگیریم:
- تبلیغ کننده A:
- در تمام محصولات موجود در سایت تبلیغکننده A، احتمال قیمت خرید بین [120 تا 1000 دلار]، برای محدوده 880 دلار است.
- قیمتهای خرید به طور مساوی در محدوده 880 دلاری توزیع میشوند، بدون اینکه مازاد بر دو انحراف استاندارد از میانگین قیمت خرید وجود داشته باشد.
- تبلیغ کننده B:
- در تمام محصولات موجود در سایت تبلیغکننده B، احتمال قیمت خرید بین [120 تا 1000 دلار]، برای محدوده 880 دلار است.
- قیمت های خرید به شدت به سمت محدوده 120 تا 500 دلار منحرف می شود و تنها 5 درصد از خریدها در محدوده 500 تا 1000 دلار انجام می شود.
با توجه به الزامات بودجه مشارکت و روشی که با آن نویز در نتایج نهایی اعمال میشود ، آگهیدهنده B بهطور پیشفرض خروجی پر سر و صدای بیشتری نسبت به آگهیدهنده A خواهد داشت، زیرا آگهیدهنده B پتانسیل بیشتری برای تأثیرگذاری بر محاسبات اساسی دارد.
کاهش این مشکل با یک تنظیم کلید خاص امکان پذیر است. استراتژیهای کلیدی را آزمایش کنید که به مدیریت دادههای پرت کمک میکنند و به توزیع یکنواختتر مقادیر خرید در محدوده خرید کلید کمک میکنند.
برای تبلیغکننده B، میتوانید دو کلید مجزا ایجاد کنید تا دو محدوده ارزش خرید متفاوت را ثبت کنید. در این مثال، فناوری تبلیغات اشاره کرده است که مقادیر پرت بالاتر از ارزش خرید 500 دلار به نظر می رسد. دو کلید جداگانه برای این تبلیغکننده پیادهسازی کنید:
- ساختار کلید 1: کلیدی که فقط خریدهای بین 120 تا 500 دلار را ثبت می کند (حدود 95٪ از کل حجم خرید را پوشش می دهد).
- ساختار کلید 2: کلیدی که فقط خریدهای بالای 500 دلار را ثبت می کند (حدود 5٪ از کل حجم خرید را پوشش می دهد).
اجرای این استراتژی کلیدی باید نویز را برای تبلیغکننده B بهتر مدیریت کند و به حداکثر رساندن سودمندی آنها از گزارشهای خلاصه کمک کند. با توجه به محدوده های جدید کوچکتر، کلید A و کلید B اکنون باید توزیع یکنواخت تری از داده ها در هر کلید مربوطه نسبت به کلید واحد قبلی داشته باشند. این منجر به تاثیر نویز کمتری در خروجی هر کلید نسبت به کلید قبلی خواهد شد.