李宏毅机器学习(二)

Basic Concept

1.Error

Error 来源于bias(误差,期望歪了)和variance(方差,模型能覆盖的范围)。

bias大:underfitting欠拟合
原因:模型不够复杂,覆盖范围不够广
Variance大:overfitting过拟合
原因:模型太复杂,覆盖范围太大

2.Solution

Bias:

  1. more feature input
  2. more complex model

Variance

  1. more data(最有效,但有时很难实现)
  2. regularization(使函数变平滑)

数据不够时,可以自己造一些,如:

  1. 手写识别:调整字的大小,倾斜字体
  2. 声音识别:用变声器

3.模型选择

在bias和variance中做权衡,最终最小化总误差。
bias和variance的判断方法:符合training data是variance,不符合的是bias。

n折交叉验证

N-fold Cross Validation
李宏毅机器学习(二)
然后选择最好的一个模型,用全部Training Set进行训练。

上一篇:机器学习,什么是过拟合和欠拟合


下一篇:eclipse中将项目打包成jar的两种方法,及其问题与解决方法