在风控的业务场景里,需要知道申请用户获得授信的概率,目的是为了过滤掉某个阈值以下的用户或者为了更好地判断用户分配给哪个资方;
在计算广告/推荐系统的业务场景里,需要知道用户点击该广告、商品的概率(ctr),目的是为了过滤掉某些低于阈值的广告或者用于做商品排序展示。
对于逻辑回归而言,输出天然具有概率性质,即输入一个样本,它输出0.1,就表示该样本有10%的概率为正样本。
但是对于其他的二分类模型而言,例如SVM这类最大化margin的算法,它们的输出并不能代表真实概率,
此时就需要借助模型校准(calibration)的算法,使其输出与真实分布具有一致性。
逻辑回归、神经网络、随机森林、bagging tree无需校准;
SVM、boosted相关的算法经过校准后表现均大有提升。
参考:
https://blog.csdn.net/giskun/article/details/49329095
https://zhuanlan.zhihu.com/p/90479183(代码)
https://zhuanlan.zhihu.com/p/101766505(详细)
https://zhuanlan.zhihu.com/p/88623159(保序回归)