大学的时候,我的《概率论和数理统计》这门课一共挂过3次,而且我记得最后一次考过的时候刚刚及格,只有60分。你可以想象我的《概率论》这门课学的是有多差了。后来,我工作以后,在学习数据分析技能时,又重新把《概率论》这本书学了一遍。原来之前一直没学好这门课的很重要一个原因就是,这门课涉及很多基础的概念,而我当初就是对这些概念非常不理解。
今天我就讲讲应该如何理解概率分布函数和概率密度函数的问题。是不是乍一看特别像,容易迷糊。如果你感到迷糊,恭喜你找到我当年的感觉了。
先从离散型随机变量和连续性随机变量说起对于如何分辨离散型随机变量和连续性随机变量,我这里先给大家举几个例子:
1、一批电子元件的次品数目。
2、同样是一批电子元件,他们的寿命情况。
在第一个例子中,电子元件的次数是一个在现实中可以区分的值,我们用肉眼就能看出,这一堆元件里,次品的个数。但是在第二个例子中,这个寿命它是一个你无法用肉眼数的过来的数字,它需要你用笔记下来,变成一个数字你才能感受它。在这两个例子中,第一例子涉及的随机变量就是离散型随机变量,第二个涉及的变量就是连续型随机变量。
在贾俊平老师的《统计学》教材中,给出了这样的区分:
如果随机变量的值可以都可以逐个列举出来,则为离散型随机变量。如果随机变量X的取值无法逐个列举则为连续型变量。
我始终觉得,贾老师这么说,对于我们这些脑子笨又爱钻牛角尖的学生来说,还是不太好理解。所以我就告诉大家一个不一定非常严谨,但是绝对好区分的办法。
只要是能够用我们日常使用的量词可以度量的取值,比如次数,个数,块数等都是离散型随机变量。只要无法用这些量词度量,且取值可以取到小数点2位,3位甚至无限多位的时候,那么这个变量就是连续型随机变量!
对了,如果你连随机变量这个概念还不理解的话,我送你一句贾俊平老师的话:
如果微积分是研究变量的数学,那么概率论与数理统计是研究随机变量的数学。
再来理解离散型随机变量的概率分布,概率函数和分布函数在理解概率分布函数和概率密度函数之前,我们先来看看概率分布和概率函数是咋回事。一下子又冒出来两个长得差不多的概念!没事,他们长得差不多,实际代表的含义其实也差不多!
在讲概率函数和概率分布之前,我想先讲讲为什么我们花这么大的力气去研究这个概念。因为它实在太重要了,为什么呢?在这里,我直接引用陈希孺老师在他所著的《概率论与数理统计》这本书中说的:
研究一个随机变量,不只是要看它能取哪些值,更重要的是它取各种值的概率如何!
这句是