目录
- 二维随机变量及其分布
- 离散型随机变量
- 连续型随机变量
- 边缘分布
- 边缘概率密度
- 举例
- 边缘概率密度
- 条件概率密度
- 边缘概率密度与条件概率密度的区别
- 边缘概率密度
- 条件概率密度
- 举个具体例子
- 参考资料
二维随机变量及其分布
离散型随机变量
把所有的概率,都理解成不同质量的物体,这些物体就分布在二维平面上(左图)。再把这些物体都看成是精简的质点。
如果
f
(
x
,
y
)
f(x,y)
f(x,y)是其中的某个点的话,那么
F
(
x
,
y
)
=
P
(
X
≤
x
,
Y
≤
y
)
F(x,y)=P(X≤x, Y≤y)
F(x,y)=P(X≤x,Y≤y)就是该点左下角所有质点的质量叠加。
连续型随机变量
它就不再是一个个质点了,而是一个个物体。
F
(
x
,
y
)
F(x,y)
F(x,y)叫联合分布函数。其分布函数仍然是质量。概率密度就是面密度(例如kg/m^2).
如果你要给爱人送一个礼物,中间部分是黄金做的,边缘部分是铁做的。从金到铁有一个渐变的过程,这就导致每个点的密度不太一样。(此处,这个物体是个薄片、扁平的,不研究它的厚度)。这个密度就叫概率密度
f
(
x
,
y
)
f(x,y)
f(x,y)
F
(
x
,
y
)
F(x,y)
F(x,y)还是表示点
(
x
,
y
)
(x,y)
(x,y)左下角的质量。也就是对面密度做积分,得到的就是质量。
把质量对应概率,把密度对应成面密度。
边缘分布
F
X
(
x
)
=
P
(
X
≤
x
)
F_X(x)=P(X≤x)
FX(x)=P(X≤x)与
F
(
x
,
y
)
=
P
(
X
≤
x
,
Y
≤
y
)
F(x,y)=P(X≤x, Y≤y)
F(x,y)=P(X≤x,Y≤y)的关系,如下图所示。
边缘概率密度
觉得礼品不太好看,沿着y方向压缩,一直压缩到从数学上来说y的厚度已经没有了(0),如下图所示
此时,这根线的密度,就叫线密度(g/cm)。
压缩过程如下。其代表的是x位于不同点的时候的密度。
所以,右侧图中线上每个点的质量(概率),其实就是左侧图片中对应的竖线的质量,竖直做积分。
同理 F Y ( y ) F_Y(y) FY(y)就是水平做积分。
举例
下图中,黄颜色代表大多数人都位于这个位置,集中在身高和体重的均值附近,概率密度比较大。
F(1.6, 100),计算的是身高≤1.6m,体重≤100kg的概率。从质量的角度来说,算的是质量。
而边缘概率,是身高小于1.6的人的概率,也可以理解为x<1.6的质量。
边缘概率密度
把同身高、不同体重的人进行积分,就得到单独身高的密度分布,
条件概率密度
它和边缘概率密度有点像,但又不一样。它研究的是单独某一条线(水平或竖直)的密度问题。常用于求条件概率密度。
如下图,让Y=b,此时就叫条件概率密度。只研究一条线的概率密度,
以身高体重为例子,研究体重为101斤的人,它的身高的分布,
同样,身高1m85的人,其体重的分布
边缘概率密度与条件概率密度的区别
让我用更简单的方式来解释这两个概念。
边缘概率密度
想象一下,你和朋友在玩一种抽奖游戏。这个抽奖游戏有两个转盘,一个转盘上有各种颜色(红色、绿色、蓝色),另一个转盘上有各种动物(狗、猫、鸟)。每次抽奖,你会同时转动这两个转盘,然后得到一个颜色和一个动物的组合。
现在,我们只对颜色感兴趣,不管动物是什么。这就像我们只看第一个转盘,不看第二个转盘。这时候,我们就得到了颜色的边缘概率密度。就是说,我们只关心颜色的分布情况,比如有多少次是红色的,有多少次是绿色的等等。
条件概率密度
继续这个抽奖游戏的例子。如果这次我们知道抽到的动物是狗,我们想知道在这种情况下颜色的分布情况。比如,在抽到狗的时候,有多少次是红色的,有多少次是绿色的等等。这就是条件概率密度。
条件概率密度告诉我们:在已知某个条件下(比如已经知道抽到的是狗),其他东西(比如颜色)的分布情况。
举个具体例子
假设我们玩了很多次这个游戏,统计结果如下:
- 总共抽了100次。
- 抽到红色的有30次,绿色的有50次,蓝色的有20次(这就是颜色的边缘概率)。
- 抽到狗的有40次,猫的有30次,鸟的有30次。
- 在抽到狗的40次里,红色的有10次,绿色的有20次,蓝色的有10次(这就是抽到狗时颜色的条件概率)。
所以,边缘概率密度就像我们只看颜色的总体情况,而条件概率密度就像我们知道抽到狗后再来看颜色的分布情况。
参考资料
[1] 边缘概率密度,条件概率密度,边缘分布函数,联合分布函数关系;