边缘概率密度、条件概率密度、边缘分布函数、联合分布函数关系

2024-07-10 12:11:05

目录

二维随机变量及其分布
- 离散型随机变量
- 连续型随机变量
- 边缘分布
- 边缘概率密度
- - 举例
  - 边缘概率密度
- 条件概率密度
- 边缘概率密度与条件概率密度的区别
- - 边缘概率密度
  - 条件概率密度
  - 举个具体例子
参考资料

二维随机变量及其分布

离散型随机变量

把所有的概率，都理解成不同质量的物体，这些物体就分布在二维平面上（左图）。再把这些物体都看成是精简的质点。

如果 $f (x, y)$ 是其中的某个点的话，那么 $F (x, y) = P (X \leq x, Y \leq y)$ 就是该点左下角所有质点的质量叠加。

连续型随机变量

它就不再是一个个质点了，而是一个个物体。 $F (x, y)$ 叫联合分布函数。其分布函数仍然是质量。概率密度就是面密度（例如kg/m^2).

如果你要给爱人送一个礼物，中间部分是黄金做的，边缘部分是铁做的。从金到铁有一个渐变的过程，这就导致每个点的密度不太一样。（此处，这个物体是个薄片、扁平的，不研究它的厚度）。这个密度就叫概率密度 $f (x, y)$

$F (x, y)$ 还是表示点 $(x, y)$ 左下角的质量。也就是对面密度做积分，得到的就是质量。

把质量对应概率，把密度对应成面密度。

边缘分布

$F_X(x)=P(X≤x)$ 与 $F (x, y) = P (X \leq x, Y \leq y)$ 的关系，如下图所示。

边缘概率密度

觉得礼品不太好看，沿着y方向压缩，一直压缩到从数学上来说y的厚度已经没有了（0），如下图所示

此时，这根线的密度，就叫线密度（g/cm）。

压缩过程如下。其代表的是x位于不同点的时候的密度。

所以，右侧图中线上每个点的质量（概率），其实就是左侧图片中对应的竖线的质量，竖直做积分。

同理 $F_Y(y)$ 就是水平做积分。

举例

下图中，黄颜色代表大多数人都位于这个位置，集中在身高和体重的均值附近，概率密度比较大。

F(1.6, 100)，计算的是身高≤1.6m，体重≤100kg的概率。从质量的角度来说，算的是质量。

而边缘概率，是身高小于1.6的人的概率，也可以理解为x<1.6的质量。

边缘概率密度

把同身高、不同体重的人进行积分，就得到单独身高的密度分布，

条件概率密度

它和边缘概率密度有点像，但又不一样。它研究的是单独某一条线（水平或竖直）的密度问题。常用于求条件概率密度。

如下图，让Y=b，此时就叫条件概率密度。只研究一条线的概率密度，

以身高体重为例子，研究体重为101斤的人，它的身高的分布，

同样，身高1m85的人，其体重的分布

边缘概率密度与条件概率密度的区别

让我用更简单的方式来解释这两个概念。

边缘概率密度

想象一下，你和朋友在玩一种抽奖游戏。这个抽奖游戏有两个转盘，一个转盘上有各种颜色（红色、绿色、蓝色），另一个转盘上有各种动物（狗、猫、鸟）。每次抽奖，你会同时转动这两个转盘，然后得到一个颜色和一个动物的组合。

现在，我们只对颜色感兴趣，不管动物是什么。这就像我们只看第一个转盘，不看第二个转盘。这时候，我们就得到了颜色的边缘概率密度。就是说，我们只关心颜色的分布情况，比如有多少次是红色的，有多少次是绿色的等等。

条件概率密度

继续这个抽奖游戏的例子。如果这次我们知道抽到的动物是狗，我们想知道在这种情况下颜色的分布情况。比如，在抽到狗的时候，有多少次是红色的，有多少次是绿色的等等。这就是条件概率密度。

条件概率密度告诉我们：在已知某个条件下（比如已经知道抽到的是狗），其他东西（比如颜色）的分布情况。

举个具体例子

假设我们玩了很多次这个游戏，统计结果如下：

总共抽了100次。
抽到红色的有30次，绿色的有50次，蓝色的有20次（这就是颜色的边缘概率）。
抽到狗的有40次，猫的有30次，鸟的有30次。
在抽到狗的40次里，红色的有10次，绿色的有20次，蓝色的有10次（这就是抽到狗时颜色的条件概率）。

所以，边缘概率密度就像我们只看颜色的总体情况，而条件概率密度就像我们知道抽到狗后再来看颜色的分布情况。

参考资料

[1] 边缘概率密度,条件概率密度,边缘分布函数,联合分布函数关系；