softmax为什么使用指数函数？（最大熵模型的理解）

2023-08-06 19:47:16

解释1：

他的假设服从指数分布族

解释2：

最大熵模型，即softmax分类是最大熵模型的结果。

关于最大熵模型，网上很多介绍：

在已知部分知识的前提下，关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断，其原则是承认已知事物（知识），且对未知事物不做任何假设，没有任何偏见。

所以，最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。

参考网址：

对于输入x，判断类别y

如果使他满足最大熵模型，则条件概率满足公式：

其中wi(i=1,2,...m)wi(i=1,2,...m)为拉格朗日乘子。如果大家也学习过支持向量机，就会发现这里用到的凸优化理论是一样的，接着用到了拉格朗日对偶也一样。

最大熵模型这里引入了一个特征函数的概念：

可以定义为：

为什么需要特征函数？比较容易理解的是，特征函数其实是一个用户接口，我们可以通过定制特征函数来控制模型的训练。

注意，f(x,y)必须是实数函数，而最大熵模型一般要求这个函数是一个二值函数。也就是说通过这个特征函数把x和y之间千丝万缕的关系转化成了一个实数值。

至此，我们可以看到softmax的表达式和最大熵模型的最优求解的表达式形式上是相似的，如果我们用θx表达最大熵中Wf(x,y)就得到了softmax的表达式。

码农公寓