机器学习中的数学——常用概率分布(十一):狄利克雷分布(Dirichlet分布)

狄利克雷分布是关于一组 d d d个连续变量 x i ∈ [ 0 , 1 ] x_i\in[0, 1] xi​∈[0,1]的概率分布, ∑ i x i = 1 \sum_ix_i=1 ∑i​xi​=1。令 μ = ( μ 1 , μ 2 , ⋯   , μ d ) \mu=(\mu_1, \mu_2, \cdots, \mu_d) μ=(μ1​,μ2​,⋯,μd​),参数 α = ( α 1 , α 2 , ⋯   , α d ) \alpha=(\alpha_1, \alpha_2, \cdots, \alpha_d) α=(α1​,α2​,⋯,αd​),其中 α i > 0 \alpha_i>0 αi​>0且 α ^ = ∑ i α i \hat{\alpha}=\sum_i\alpha_i α^=∑i​αi​。

D i r ( x ∣ α ) = Γ ( α ^ ) Γ ( α 1 ) Γ ( α 2 ) ⋯ Γ ( α i ) ∏ i = 1 d x i α i − 1 Dir(x|\alpha)=\frac{\Gamma(\hat{\alpha})}{\Gamma(\alpha_1)\Gamma(\alpha_2)\cdots\Gamma(\alpha_i)}\prod_{i=1}^dx_i^{\alpha_i-1} Dir(x∣α)=Γ(α1​)Γ(α2​)⋯Γ(αi​)Γ(α^)​i=1∏d​xiαi​−1​

狄利克雷分布有如下性质:

  • E [ x i ] = α i α ^ E[x_i]=\frac{\alpha_i}{\hat{\alpha}} E[xi​]=α^αi​​
  • V a r ( x i ) = α i ( α ^ − α i ) α ^ 2 ( α ^ + 1 ) Var(x_i)=\frac{\alpha_i(\hat{\alpha}-\alpha_i)}{\hat{\alpha}^2(\hat{\alpha}+1)} Var(xi​)=α^2(α^+1)αi​(α^−αi​)​
  • C o v ( x i , x j ) = α i α j α ^ 2 ( α ^ + 1 ) Cov(x_i, x_j)=\frac{\alpha_i\alpha_j}{\hat{\alpha}^2(\hat{\alpha}+1)} Cov(xi​,xj​)=α^2(α^+1)αi​αj​​

当 d = 2 d=2 d=2时,狄利克雷分布退化为贝塔分布。

上一篇:Dirichlet 卷积学习笔记


下一篇:素数的性质