1.最大熵模型
终极目标
\(P(Y|X)\)
熵
\(H(P)=-\sum_{x}P(x)\log P(x)\)
将终极目标代入熵
\(H(P)=-\sum_{x}P(y|x)\log P(y|x)\)
做些改变,调整为条件熵
\(H(P)=H(y|x)=-\sum_{x}\tilde P(x)P(y|x)\log P(y|x)\)
\(\tilde P(x)代表经验分布,从训练集中统计出来的\)
2.约束条件
\(\tilde P(x)(X=x,Y=y)=\frac{v(X=x,Y=y)}{N}\)
\(\tilde P(x)(X=x)=\frac{v(X=x)}{N}\)
\(v(X=x,Y=y)表示统计训练集中满足 (X=x,Y=y) 的样本数量\)
3.特征函数
\(f(x,y)=\begin{cases}
1 , & X与y满足某一事实
0, & 其他
\end{cases}\)
\(特征函数f(x,y)关于经验分布\tilde P(x,y)的期望值\)
\(E_{\tilde p}(f)=\sum_{x,y}\tilde P(x,y)f(x,y)=\sum_{x,y}\tilde P(x) \tilde P(y|x)f(x,y)\)
4.优化方程
\(max_{P\in C}H(P)=-\sum_{x}\tilde P(x)P(y|x)\log P(y|x)\)
\(s.t.\ E_{\tilde p}(f_i)-E_{p}(f_i)=0,i=1,2,...,n\)
\(\sum_{y}P(y|x)=1\)
\(min_{P\in C}H(P)=-\sum_{x}\tilde P(x)\tilde P(y|x)\log P(y|x)\)
\(s.t.\ E_{\tilde p}(f_i)-E_{p}(f_i)=0,i=1,2,...,n\)
\(\sum_{y}P(y|x)=1\)