解释一
偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。
方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。
参考:Understanding the Bias-Variance Tradeoff
解释二
Bias:误差,对象是单个模型,期望输出与真实标记的差别
Variance:方差,对象是多个模型
从同一个数据集中,用科学的采样方法得到几个不同的子训练集,用这些训练集训练得到的模型往往并不相同。
以上图为例:
\1. 左上的模型偏差最大,右下的模型偏差最小;
\2. 左上的模型方差最小,右下的模型方差最大
为了理解第二点,可以看下图。蓝色和绿色分别是同一个训练集上采样得到的两个训练子集,由于采取了复杂的算法去拟合,两个模型差异很大。如果是拿直线拟合的话,显然差异不会这么大。
一般来说,偏差、方差和模型的复杂度之间的关系是这样子滴:
实际中,我们需要找到偏差和方差都较小的点。
XGBOOST中,我们选择尽可能多的树,尽可能深的层,来减少模型的偏差;
通过cross-validation,通过在验证集上校验,通过正则化,来减少模型的方差
从而获得较低的泛化误差。
Blog: https://blog.yilon.top