常见概率分布总结

相关概念

概率论和统计中的一些相关概念:

  • 方差

    如果是在统计领域,方差就是各个样本值和全体样本值的平均数之差的平方值的平均数。如果是在概率论里,方差就是度量随机变量与其数学期望(均值)之间偏离度。

  • 标准差

    标准差是方差的平方根 ,方差虽然能很好的描述数据与均值的偏离程度,但是处理结果是不符合我们的直观思维的。举个例子:一个班级里有60个学生,平均成绩是70分,标准差是9,方差是81,假设成绩服从正态分布,那么我们通过方差不能直观的确定班级学生与均值到底具体偏离了多少分,通过标准差我们就可以直接得到学生成绩分布在[61,79]范围的概率为68%

  • 数据类型

    数据类型(统计学里也叫随机变量)有两种。也对应不同的概率分布。

    离散数据根据名称很好理解,就是数据的取值是不连续的,有明确的间隔 。例如掷硬币就是一个典型的离散数据,因为抛硬币要么是正面,要么是反面,还有比如男女性别,二分类中的0/1关系等。

    连续数据。连续数据正好相反,它能取任意的数值。例如时间,它能无限分割。数据十分平滑 ,还有比如年领,温度,等。是常见的变量类型。

概率分布

数据类型有两种。也对应不同的概率分布。

常见离散概率分布有:伯努利分布,二项分布,泊松分布,几何分布

常见连续概率分布有:正态分布,拉普拉斯分布,指数分布

1. 伯努利分布

伯努利分布(两点分布/0-1分布):伯努利试验指的是只有两种可能结果的单次随机试验。若随机变量X的取值为0和1两种情况,且满足概率分布 P(X=1)=p, P(X=0)=1-p ,则X服从参数为 p 的伯努利分布。

举例:假设有产品100件,其中正品90件,次品10件。现在随机从这100件中挑选1件,那么他挑选出正品的概率为0.9,即 P(X=正品)=p = 0.9

定义:

如果随机变量X只取0和1两个值,并且相应的概率为:

img

则称随机变量X服从参数为p的伯努利分布,若令q=1一p,则X的概率函数可写为:

img

要证明该概率函数img 确实是公式所定义的伯努利分布,只要注意到 img

,就很容易得证。

2. 二项分布

现在独立重复的挑了n个产品(有放回的),则他挑出的n个产品中,有k件是正品的概率。简单来说就是,n是重复的伯努利实验的次数,是一个随机变量。所以二项分布也叫n重伯努利分布。

定义:

若随机变量X的取值为 [公式] ,且满足概率分布 [公式] ,则称X服从参数为 [公式]二项分布[公式]

3. 泊松分布

泊松分布在概率统计当中非常重要,可以很方便地用来计算一些比较难以计算的概率。很多书上会说,泊松分布的本质还是二项分布,泊松分布只是用来简化二项分布计算的。假设现在在一天时间中不停歇的挑选产品,则单位时间(极小)内挑出正品零件的概率为P,一天共挑出正品k个。 (案例来自概率论书上的例题)

我们把这个p的式子带入原式,可以得到:

[公式]

为了满足二项分布,在单位时间内只发生一次挑选事件(正品或次品),我们需要让单位时间尽量小。所以这个n应该越大越好,根据极限,让n趋向于无穷,所以这个问题就变成了一个求极限的问题。

[公式]

我们来算一下这个极限:

[公式]

我们把这个极限拆分开来看,其中:

[公式][公式]

所以,我们代入,可以得到:

[公式]

这个就是泊松分布的概率密度函数了,也就是说在一天中挑出k个正品的概率就是[公式]

也就是说泊松分布是我们将时间无限切分,然后套用二项分布利用数学极限推导出来的结果。本质上来说,它的内核仍然是二项分布。使用泊松分布的原因是,当n很大,p很小的时候,我们使用二项分布计算会非常困难,因为使用乘方计算出来的值会非常巨大,这个时候,我们使用泊松分布去逼近这个概率就很方便了。

4. 正态分布

正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,也叫高斯分布。 是一个非常重要的分布。

一维正态分布

若随机变量img、尺度参数 img 为概率密度函数:

img

则这个随机变量服从正态分布。

标准正态分布

img

时,正态分布就成为标准正态分布

img

对应图像如下。

1629368593450

重要性质:

  • 密度函数关于平均值对称
  • 平均值与他的众数、中位数为同一值
  • 函数曲线下68.268949%的面积在平均数左右的一个标准差范围内
  • 95.449974%的面积在平均数左右两个标准差2 σ 2 \sigma2σ的范围内
  • 99.730020%的面积在平均数左右三个标准差3 σ 3 \sigma3σ的范围内
  • 函数曲线的拐点(inflection point)为离平均数一个标准差距离的位置。

4. 指数分布

指数分布与其他分布的最大不同之处在于,它所针对的随机变量X是不是指独立随机事件值,而是指不同的独立事件发生之间时间间隔值的分布,时间越长发生的概率指数型增大(减小)。在我们日常的消费领域,通常的目的是求出在某个时间区间内,会发生随机事件的概率有多大。如:银行窗口服务、交通管理、火车票售票系统、消费市场研究报告中被广泛运用。

定义

其中λ > 0是分布的一个参数,常被称为率参数(rate parameter)。即每单位时间内发生某事件的次数。指数分布的区间是[0,∞)。 如果一个随机变量X呈指数分布,则可以写作:X~ E(λ)。θ=1/λ,因此概率密度函数:

img

其中θ>0为常数,则称X服从参数θ的指数分布。

5. 拉普拉斯分布

在概率论和统计学中,拉普拉斯是一种连续概率分布。由于它可以看做是俩个不同位置的指数分布背靠背拼在一起,所以它也叫做双指数分布。设随机变量img ,具有密度函数

img

其中img为常数,且img ,则称img服从参数为img的拉普拉斯分布。 与正态分布相比,正态分布是用相对于u平均值的差的平方来表示,而拉普拉斯概率密度用相对于差的绝对值来表示。因此,拉普拉斯的尾部比正态分布更加平坦。

1629369138404