日期：2021-07-09 21:04:24 作者：浏览量：280

最近在广告数据分析中，小伙伴们频频遇到一个问题：广告投放的预期转化率为a，需要多大的样本量，样本统计的转化率才符合预期？也有小伙伴反映在面试中遇到类似的问题。今天就来介绍下，如何科学的计算「到底需要多少样本量？」

01明确问题

其实上面提到的问题缺少两个重要的要求，置信度和可接受的误差范围。不同的置信度和误差范围下，需要的样本量是不一样的。

1、置信度：总体参数的真实值在测量值的区间所具有的可信程度，也称为置信水平。

2、误差范围：接受样本计算的的测试值和真实值之间相差范围。

对于问题：「广告投放的预期转化率为a，需要多大的样本量，才能使样本统计的转化率符合预期？」的准确问法是：

在广告投放转化率为p，1-a的置信度下，误差范围不超过b，需要多大的样本量n，才能使样本统计的转化率符合预期？

02统计学基本概念

为了解决上面提到的问题，首先需要了解几个基本的统计学概念。

如果记X为n次伯努利试验中成功(记为事件A)的次数，则X的取值可能为0，1，2.....，n。记p为每次试验中A发生的概率，即P(A)=p。这个分布就是二项分布，记为X～b(n，p)。期望为：np，方差为np(1-p)。

示例：广告场景下，曝光10000次，点击率为3%，则点击量的分布就是二项分布X～b(10000,3%)，平均点击量为300次。

如果X1、X2、.......、Xn是独立同分布，在n足够大的情况下，Y=X1+X2+.......+Xn服从正态分布。

示例：上面提到的二项分布X～b(10000,3%)，可以看作10000次伯努利试验的和，通常在np>5和n(1-p)>5时，就可以用正态分布近似，所以X近似服从均值为300，方差为291的正态分布；样本转化率X/n服从正态分布N(p,p(1-p)/n)。

如果x是总体的一个参数，所谓区间估计就是，对给定的一个a(0

则称：

为x的置信水平为1-a的置信区间。

对于正态分布N(u,sigma^2)，u的置信水平1-a的置信区间是：

示例：广告场景下，曝光n次，点击率p的置信度为1-a的置信区间就是:

在明确以上的基本概念后，就可以计算所需的最小样本量了。

广告投放转化率为p，在置信度为1-a下，样本转化率p1和真实转化率p的误差范围不超过b，则所需的样本量n至少要多大？

广告投放事件X服从二项分布b(n,p)；根据中心极限定律，p其近似服从正态分布N(p,sqrt(p(1-p/n))。

则在1-a的置信度下，p的置信区间是：

因为|p1-p|≤b，所以：

如果是95%的置信度，则：

示例：在广告投放转化率为3%，95%的置信度，误差范围不超过1.5%，则可以计算到需要最小样本497个。

以上就是我要分享的：广告投放中怎么计算所需的最小样本量？希望这篇分享，能帮你科学的计算所需样本量，而不是单纯的拍脑袋。

-END-