所需数据量

本部分可帮助您大致了解所需的数据量,其中关于所需数据量的指南只是粗略的方向性指引,因为真正的答案取决于数据的具体情况。最准确的评估方法是运行模型并衡量可信区间的宽度。

  • 数据量的计算方法为地理位置数乘以时间点数。

  • 这些时间点和地理位置不是独立的。例如,营销组合建模分析 (MMM) 设置中的 1,000 个数据点与实验中 1,000 次抛硬币或 1,000 名随机分配的参与者是不同的。

另请参阅介绍国家级模型和地理位置级模型的部分。

国家级模型的数据量

在 Meridian 的国家级模型中,您可以使用模型形参为效应建模,每个形参都具有独立的先验。对国家级模型来说,每个模型形参的数据点数量是一项重要的置信度检查指标。例如,如果您有 12 个媒体渠道、6 个控制变量和 8 个结,那么形参总数为 26。(为简单起见,请忽略 Adstock 和 Hill 形参。)如果使用两年的每周数据(104 个数据点),那么每个形参有 4 个数据点。此样本规模太小,无法对模型进行可靠估计。(另外,媒体支出变化不足会对国家级模型产生不利影响。)如需详细了解结,请参阅 knots 实参的运作方式

由于很难为国家级模型获取足够的数据,您可采取以下措施:

  • 缩小 MMM 的范围。您可以少估计一些媒体渠道(通过舍弃支出较低的渠道或合并渠道),使用较少的结形参来估计时间效应(如果您未使用默认的 knots=1 设置),并移除任何多余的控制变量。不过,请勿移除重要的混杂变量。

  • 获取更多数据。例如,使用三年而不是两年的每周数据。添加更多数据会减小推理方差,但可能会降低推理的相关性。

  • 或者,您可以考虑为数据添加地理位置粒度,并使用地理位置级模型,而不是缩小范围或添加更多数据。

回想一下前面有关国家级模型的虚构示例。您可以将 12 个媒体渠道合并为 3 个,将结数减少到 2 个。您可能还会发现,您的某个控制变量可以解释 KPI,但无法解释媒体,这说明该控制变量并非真正的混杂变量,您可以将其移除。如果您还使用了三年的每周数据,则会有 156 个数据点可用来估计 10 个形参。也就是说,每个形参大约有 15 个数据点。现在,您或许能够从 MMM 中获得一些方向性的信息。

地理位置级模型的数据量

地理位置级模型为每种效应估计的数据点数量仍是一项重要的置信度检查指标。然而,在地理位置级模型中,通过模型形参数量来统计效应数量并不像在国家级模型中那样简单直接。复杂性源于地理位置层级结构会在不同地理位置之间共享信息,这使得地理位置级形参彼此相关,而非相互独立。各个地理位置之间共享的信息量也会产生影响。

例如,105 个地理位置和三年的每周数据会产生 $105 \times 156 = 16,380$ 个数据点。如果要估计 12 个媒体渠道、6 个控制变量和 100 个结,您可以从两个视角评估数据充分性(为简单起见,请忽略 Adstock 和 Hill 形参):

  • 严格(无汇集)视图:如果您假设地理位置之间不共享任何信息,则必须估计 $(12 \times 105) + (6 \times 105) + 100 + (105 - 1) = 2,094$ 个形参。(之所以乘以 105,是因为媒体和控制变量都设有地理位置级形参。)这样一来,每个形参大约有 8 个数据点,代表了严格的下限。
  • 宽松(完全汇集)视图:如果您假设信息完全共享(每个媒体和控制渠道共用一个形参),则模型共有 $12 + 6 + 100 + (105 - 1) = 222$ 个形参。这样一来,每个形参会有大约 74 个数据点,这也是 EDA 软件包中数据与形参的比率所采用的计算方式。

每种视图对相同的媒体和控制形参的统计方式各不相同:

  • 媒体形参:在严格视图(独立的地理位置级形参)中统计为 $12 \times 105 = 1,260$ 个形参,而在宽松视图(一个共用的国家级形参)中仅为 $12$ 个形参。
  • 控制形参:在严格视图(独立的地理位置级形参)中统计为 $6 \times 105 = 630$ 个形参,而在宽松视图(一个共用的国家级形参)中仅为 $6$ 个形参。

每种视图对结和地理位置形参的统计方式类似:

  • 结:针对 100 个结,统计为 $100$ 个形参。
  • 地理位置形参:针对 105 个地理位置,统计为 $105 - 1 = 104$ 个形参(减去了 1 个基准地理位置)。

实际上,由于 Meridian 使用了部分汇集(层次化建模),因此实际的有效“每个形参的数据点”介于严格视图中的 8 和宽松视图中的 74 之间。实际的信息共享量取决于各个地理位置之间形参的相似程度,而这由数据和分层方差形参(eta_mxi_c)决定。

确定分层方差形参(eta_mxi_c)的唯一方法是实际拟合模型。正因如此,我们避免设定单一的“正确”最低比率,而是考虑:

  • 严格计算可作为一种有益的思维练习,帮助您理解潜在的复杂性以及最坏情况。
  • EDA 软件包将宽松的计算方式作为一种实用且宽松的保障措施,用于识别严重的数据稀疏情况。在此类情况下,即便是在完全汇集的前提下,模型也会处于欠定状态。

如果很难为地理位置级模型获取足够的数据,建议您考虑合并媒体渠道或舍弃支出较低的媒体渠道。或者,您可以对分层方差项 eta_mxi_c 设置一个正则化程度更强的先验(例如 HalfNormal(0.1)),这将有利于在不同地理位置之间共享信息。

我可以使用广告系列级数据吗?

Meridian 模型仅专注于渠道级别。通常不建议在广告系列一级运行 MMM,因为 MMM 是一个宏工具,在渠道一级运行效果良好。如果您投放的是具有明确开始和结束时间的独立广告系列,则可能会丢失 Adstock 记忆。如要获得更精细的数据洞见,建议您为数字渠道使用以数据为依据的多接触点归因模型。