model:带有未知参数的函数
label、feature、weight、bias
Loss:与weight和bias相关的损失函数
L = (1/n)Σe (默认求平均,pytorch中损失函数的reduction参数(‘ none ‘ | ‘mean‘ | ‘ sum ‘)默认为mean,none返回一个向量)
MAE(mean absolute error):e = |y - y_hat|
MSE(mean square error):e = (y - y_hat)^2
Cross_entropy
error surface:不同参数与Loss的关系图
hyperparameter:人为设定的超参数
parameter:机器学习过程中出现的参数
参数更新
对与较为复杂的数据,单纯的线性函数难以拟合。可以将复杂的model分解为多个线性函数的和(类似于分段函数)。
每一小段的函数可以用sigmoid函数表示。其中c、b、w参数用于调节函数在水平或垂直方向上的移动以及函数的缩放。(将sigmoid函数调整成除了在model对应段上为近似斜线,其余近似为常数,在正无穷为1*c,在负无穷为0)
最后将多个sigmoid函数相加,即可得到最终结果。
【李沐】sigmoid将每个计算的结果进行映射,结果再作为下一个计算的输入进行计算。其目的在于对计算进行非线性化(多个线性计算的任意组合,其结果仍为线性运算)
sigmoid
通常在实际操作中,将完整的数据集(数目为N)分为多个Batch(数目为B),每次的update为一个batch的数据参与计算并更新,当所有数据都计算完成后称为一个epoch
hard sigmoid函数可以使用两个ReLu函数替代
sigmoid函数
ReLu函数