Tìm hiểu về nhiễu trong báo cáo tóm tắt

Tìm hiểu ý nghĩa của nhiễu, vị trí thêm và tác động của nhiễu đến hoạt động đo lường.

Các báo cáo tóm tắt là kết quả của quá trình tổng hợp các báo cáo tổng hợp. Khi các báo cáo tổng hợp được một trình thu thập phân thành lô và được dịch vụ tổng hợp xử lý, độ nhiễu — một lượng dữ liệu ngẫu nhiên — sẽ được thêm vào các báo cáo tóm tắt thu được. Tính năng này được thêm vào để bảo vệ quyền riêng tư của người dùng. Mục tiêu của cơ chế này là có một khung hỗ trợ hoạt động đo lường riêng tư khác biệt.

Dữ liệu nhiễu sẽ được thêm vào báo cáo tóm tắt cuối cùng.

Giới thiệu về dữ liệu nhiễu trong báo cáo tóm tắt

Mặc dù hiện nay việc thêm yếu tố nhiễu không phải là một phần trong hoạt động đo lường quảng cáo, nhưng trong nhiều trường hợp, độ nhiễu được thêm vào sẽ không làm thay đổi đáng kể cách bạn diễn giải kết quả.

Bạn có thể xem xét vấn đề này theo cách sau: Bạn có tự tin đưa ra quyết định dựa trên một phần dữ liệu nhất định nếu dữ liệu đó không bị nhiễu không?

Ví dụ: một nhà quảng cáo có tự tin thay đổi chiến lược hoặc ngân sách chiến dịch của mình dựa trên thực tế là Chiến dịch A có 15 lượt chuyển đổi và Chiến dịch B có 16 lượt chuyển đổi không?

Nếu câu trả lời là không, thì tiếng ồn không liên quan.

Việc bạn cần làm là định cấu hình việc sử dụng API sao cho:

  1. Câu trả lời cho câu hỏi ở trên là có.
  2. Tiếng ồn được quản lý theo cách không ảnh hưởng đáng kể đến khả năng bạn đưa ra quyết định dựa trên một số dữ liệu nhất định. Bạn có thể áp dụng phương pháp này như sau: đối với số lượt chuyển đổi tối thiểu dự kiến, bạn nên duy trì độ nhiễu trong chỉ số đã thu thập dưới một % nhất định.

Trong phần này và nội dung sau đây, chúng tôi sẽ trình bày các chiến lược để đạt được 2.

Các khái niệm chính

Dịch vụ tổng hợp sẽ thêm dữ liệu nhiễu một lần vào mỗi giá trị tóm tắt (tức là một lần cho mỗi khoá) mỗi khi có yêu cầu báo cáo tóm tắt.

Những giá trị nhiễu này được lấy ngẫu nhiên từ một phân phối xác suất cụ thể như thảo luận dưới đây.

Tất cả các phần tử ảnh hưởng đến độ nhiễu đều dựa trên 2 khái niệm chính.

  1. Mức phân bổ độ nhiễu (thông tin chi tiết bên dưới) là như nhau bất kể giá trị tóm tắt là thấp hay cao. Do đó, giá trị tóm tắt càng cao thì độ nhiễu càng có khả năng ảnh hưởng ít hơn so với giá trị này.

    Ví dụ: giả sử cả tổng giá trị mua hàng tổng hợp là 20.000 USD và tổng giá trị mua hàng tổng hợp là 200 USD đều phải chịu nhiễu được chọn từ cùng một mức phân phối.

    Giả sử, nhiễu từ phân phối này thay đổi trong khoảng từ -100 đến +100.

    • Đối với giá trị giao dịch mua tóm tắt là 20.000 USD, độ nhiễu thay đổi trong khoảng từ 0 đến 100/20.000=0,5%.
    • Đối với giá trị giao dịch mua tóm tắt là 200 USD, độ nhiễu thay đổi trong khoảng từ 0 đến 100/200=50%.

    Do đó, yếu tố nhiễu có thể sẽ ít tác động đến tổng giá trị giao dịch mua 20.000 USD hơn so với giá trị 200 USD. Nói một cách tương đối, 20.000 đô la có khả năng ít nhiễu hơn, đó có thể là tỷ lệ tín hiệu trên tạp âm cao hơn.

    Giá trị tổng hợp càng cao thì mức độ ảnh hưởng tương đối càng thấp.

    Điều này có một vài ý nghĩa thực tế quan trọng được trình bày trong phần tiếp theo. Cơ chế này là một phần của thiết kế API và ý nghĩa thực tế sẽ mang lại lâu dài. Chúng sẽ tiếp tục đóng vai trò quan trọng khi các công nghệ quảng cáo thiết kế và đánh giá nhiều chiến lược tổng hợp.

  2. Mặc dù độ nhiễu được lấy từ cùng một mức phân phối bất kể giá trị tóm tắt là gì, nhưng sự phân bổ đó phụ thuộc vào một số thông số. Các công nghệ quảng cáo có thể thay đổi một trong những tham số này (epsilon) trong quá trình chạy bản dùng thử theo nguyên gốc để đánh giá nhiều mức điều chỉnh về quyền riêng tư/tiện ích. Tuy nhiên, hãy xem việc tinh chỉnh epsilon chỉ là tạm thời. Chúng tôi hoan nghênh ý kiến phản hồi của bạn về trường hợp sử dụng của bạn và giá trị của epsilon có hiệu quả cao.

Mặc dù một công ty công nghệ quảng cáo không có quyền kiểm soát trực tiếp cách thêm yếu tố gây nhiễu, nhưng công ty này có thể ảnh hưởng đến tác động của độ nhiễu đối với dữ liệu đo lường của công ty. Trong các phần tiếp theo, chúng ta sẽ tìm hiểu sâu hơn về cách ảnh hưởng của nhiễu trong thực tế.

Trước khi làm điều này, hãy xem xét kỹ hơn cách áp dụng nhiễu.

Phóng to: cách áp dụng độ nhiễu

Một mức phân bổ tiếng ồn

Nhiễu được lấy từ phân phối Laplace, với các tham số sau:

  • Giá trị trung bình (μ) là 0. Điều này có nghĩa là giá trị nhiễu có khả năng cao nhất là 0 (không thêm tạp âm) và giá trị nhiễu có khả năng nhỏ hơn giá trị ban đầu vì nó lớn hơn (đôi khi được gọi là không thiên vị).
  • Tham số tỷ lệ b = CONTRIBUTION_BUDGET / epsilon.
    • CONTRIBUTION_BUDGET được xác định trong trình duyệt.
    • epsilon đã được khắc phục trong máy chủ tổng hợp.

Biểu đồ dưới đây biểu thị hàm mật độ xác suất cho phân phối Laplace với μ=0, b = 20:

Hàm mật độ xác suất cho phân phối Laplace với μ=0, b = 20

Giá trị tiếng ồn ngẫu nhiên, một mức phân bổ độ nhiễu

Giả sử một công nghệ quảng cáo yêu cầu báo cáo tóm tắt cho hai khoá tổng hợp là key1 và key2.

Dịch vụ tổng hợp chọn 2 giá trị độ nhiễu x1 và x2, tuân theo mức phân phối độ nhiễu tương tự. x1 được thêm vào giá trị tóm tắt cho khoá1 và x2 được thêm vào giá trị tóm tắt cho khoá2.

Trong biểu đồ, chúng tôi sẽ biểu thị các giá trị độ nhiễu giống hệt nhau. Đây là một ví dụ đơn giản hơn; trong thực tế, các giá trị độ nhiễu sẽ khác nhau vì chúng được lấy ngẫu nhiên từ hàm phân phối.

Điều này minh hoạ rằng tất cả các giá trị độ nhiễu đều đến từ cùng một mức phân phối và độc lập với giá trị tóm tắt mà các giá trị đó được áp dụng.

Các tính chất khác của nhiễu

Độ nhiễu được áp dụng cho mọi giá trị tóm tắt, bao gồm cả các giá trị trống (0).

Ngay cả các giá trị tóm tắt trống cũng bị nhiễu.

Ví dụ: ngay cả khi giá trị tóm tắt thực sự cho một khoá nhất định là 0, giá trị tóm tắt nhiễu mà bạn sẽ thấy trong báo cáo tóm tắt cho khoá này (rất có thể) sẽ không bằng 0.

Tiếng ồn có thể là số dương hoặc số âm.

Ví dụ về tiếng ồn tích cực và tiêu cực.

Ví dụ: đối với số tiền mua trước khi gây nhiễu là 327.000, nhiễu có thể là +6.000 hoặc -6.000 (đây là các giá trị mẫu tuỳ ý).

Đánh giá độ nhiễu

Tính độ lệch chuẩn của tiếng ồn

Độ lệch chuẩn của nhiễu là:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
Ví dụ:

Với epsilon = 10, độ lệch chuẩn của nhiễu là:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267

Đánh giá thời điểm có sự khác biệt đáng kể về số liệu đo lường

Vì bạn sẽ biết độ lệch chuẩn của độ nhiễu mà dịch vụ tổng hợp thêm vào từng giá trị đầu ra, nên bạn có thể xác định các ngưỡng thích hợp để so sánh nhằm xác định xem sự chênh lệch quan sát được có phải là do nhiễu hay không.

Ví dụ: nếu độ nhiễu được thêm vào một giá trị xấp xỉ +/- 10 (tính theo tỷ lệ) và mức chênh lệch về giá trị giữa 2 chiến dịch lớn hơn 100, thì có thể kết luận rằng sự khác biệt trong giá trị đo lường giữa mỗi chiến dịch không phải chỉ do độ nhiễu.

Thu hút và chia sẻ ý kiến phản hồi

Bạn có thể tham gia và thử nghiệm với API này.

Các bước tiếp theo