方差是数据集中的各个数据与其均值之间差值的平方的平均值。方差的计算公式如下:
对于总体数据(即所有数据):
σ 2 = 1 N ∑ i = 1 N ( x i − μ ) 2 sigma^2 = frac{1}{N} sum_{i=1}^N (x_i - mu)^2 σ2=N1i=1∑N(xi−μ)2
其中:
σ 2 是总体方差。 sigma^2是总体方差。 σ2是总体方差。 N 是数据的总个数。 N是数据的总个数。 N是数据的总个数。 x i 是第 i 个数据点。 x_i 是第 i 个数据点。 xi是第i个数据点。 μ 是数据的均值,即 mu 是数据的均值,即 μ是数据的均值,即 μ = 1 N ∑ i = 1 N x i mu = frac{1}{N} sum_{i=1}^N x_i μ=N1i=1∑Nxi对于样本数据(即从总体中抽取的部分数据):
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = frac{1}{n-1} sum_{i=1}^n (x_i - ar{x})^2 s2=n−11i=1∑n(xi−xˉ)2
其中:
s 2 是样本方差。 s^2 是样本方差。 s2是样本方差。 n 是样本数据的个数。 n 是样本数据的个数。 n是样本数据的个数。 x i 是第 i 个样本数据点。 x_i 是第 i 个样本数据点。 xi是第i个样本数据点。 x ˉ 是样本数据的均值, ar{x} 是样本数据的均值, xˉ是样本数据的均值, 即 x ˉ = 1 n ∑ i = 1 n x i ar{x} = frac{1}{n} sum_{i=1}^n x_i xˉ=n1i=1∑nxi总结起来,方差的公式可以概括为:
总体方差:
σ 2 = 1 N ∑ i = 1 N ( x i − μ ) 2 sigma^2 = frac{1}{N} sum_{i=1}^N (x_i - mu)^2 σ2=N1i=1∑N(xi−μ)2
样本方差:
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = frac{1}{n-1} sum_{i=1}^n (x_i - ar{x})^2 s2=n−11i=1∑n(xi−xˉ)2
注意:样本方差的分母用 ( n-1 ) 而不是 ( n ),这是因为在计算样本均值时已经用掉了一个自由度(即数据点中有一个点是确定的)。使用 ( n-1 ) 可以调整这个偏差,使得样本方差更准确地反映总体方差。这种调整称为“无偏估计”,它确保在大量重复抽样的情况下,样本方差的平均值与总体方差相等。简单来说, ( n-1 ) 让我们的估计更加准确、公正。