下面的要训练m次。
假设所有任务之间,有共同的一个参数ω0.
ωi = ω0 + Δωi的意思是ωi在ω0的基础上,有一个变化量 Δωi
λ Δ||ω||2加了正则想,如果多任务的相关性比较强,那么loss就比较低,训练的比较好。但是如果它们的相关性很低,Δω就会比较大,loss就会很大。
rank最少的,非共线的向量的数量。如果是共线向量,这两个向量在机器学习中表达的含义是一样的。比如(1,2,3)表示and这个单词,(2,4,6)表示也是and的含义。
PT将三个向量,映射到相似的方向上。task就更加的相关了。
第3张图中,可以看到Δω保留了原task的方向信息。
相关文章
- 12-01ML之RL:强化学习Reinforcement Learning的简介、应用、经典案例、学习资源之详细攻略
- 12-01【李宏毅2020 ML/DL】P106 More about Life Long Learning
- 12-01ML之SL:监督学习(Supervised Learning)的简介、应用、经典案例之详细攻略
- 12-01【李宏毅2020 ML/DL】P59 Unsupervised Learning - Auto-encoder
- 12-01李宏毅2020ML——P84-P94 Meta Learning
- 12-01ML之UL:无监督学习Unsupervised Learning的概念、应用、经典案例之详细攻略
- 12-01ML Learning Tools / Websites
- 12-01Advanced ML Chapter12-Multi-Task Learning
- 12-01【李宏毅2020 ML/DL】补充:Meta Learning - Gradient Descent as LSTM
- 12-01【李宏毅2020 ML/DL】P99-105 Life Long Learning