标准差用于衡量样本中数值的分布情况。
我们可以使用以下公式来计算给定样本的标准差:
√ Σ( xi – x bar ) 2 / (n-1)
金子:
Σ:表示“和”的符号x i :样本的第 i 个值x bar :样本平均值n:样本量标准差值越高,样本中的值越分散。相反,标准差值越低,值的聚类越紧密。
学生经常问的一个问题是:标准差的最佳值是多少?
答案:标准差不可能是“好”或“坏”,因为它只是告诉我们样本中值的分布。
也没有通用的数字来确定标准差是“高”还是“低”。例如,考虑以下场景:
场景 1:一位房地产经纪人收集了他所在城镇 100 套房屋的价格数据,发现价格的标准差为 12,000 美元。
场景 2 :一位经济学家测量了美国 50 个州征收的所得税总额,发现征收的所得税总额的标准差为 480,000 美元。
虽然情景 2 的标准差远高于情景 1 的标准差,但情景 2 中测量的单位要高得多,因为各州征收的总税收明显远高于房地产价格。
这意味着我们没有一个数字可以用来确定标准差是“好”还是“坏”,甚至是“高”还是“低”,因为它取决于具体情况。
使用变异系数确定标准差是否较高的一种方法是将其与数据集的平均值进行比较。
变异系数,通常缩写为CV ,是一种测量数据集中值相对于平均值的分布的方法。计算方法如下:
CV=s/ x
金子:
s:数据集的标准差x :数据集的平均值简单来说,CV就是标准差与平均值的比值。
CV 越高,与平均值的标准差就越大。一般来说,CV 值大于 1 通常被认为是高的。
例如,假设一位房地产经纪人收集了她所在城镇 100 套房屋的价格数据,发现平均价格为 150,000 美元,价格的标准差为 12,000 美元。 CV 计算如下:
简历:12,000 美元/150,000 美元 = 0.08由于该 CV 值远小于 1,这表明数据的标准偏差非常低。
相反,假设经济学家测量了美国 50 个州征收的所得税总额,发现样本平均值为 400,000 美元,标准差为 480,000 美元。 CV 计算如下:
简历:480,000 美元/400,000 美元 = 1.2由于这个CV值大于1,这告诉我们数据值的标准偏差相当高。
比较数据集之间的标准差我们经常使用标准差来衡量不同数据集上的值的分布。
例如,假设一位教授在一个学期内给他的学生进行了三场考试。然后计算每次考试分数的标准差:
考试结果标准差示例 1: 4.6考试结果 2 的标准差示例: 12.4考试结果标准差示例 3: 2.3这告诉教授,考试 2 的考试结果最分散,而考试 3 的结果最密集。
其他资源标准差和标准误差:有什么区别?标准差与四分位距:有什么区别?
关于作者本杰明·安德森博大家好,我是本杰明,一位退休的统计学教授,后来成为 Statorials 的热心教师。 凭借在统计领域的丰富经验和专业知识,我渴望分享我的知识,通过 Statorials 增强学生的能力。了解