前言
Bandits -> Contextual Bandits -> RL, 3个方向不断进阶。contextual bandits 相比于bandits多了特征优势,相比于RL是一步reward反馈。正好有个大佬整理了这几种算法的对比,顺便学习下。
资料链接:
github地址:https://github.com/sauxpa/neural_exploration
算法解读:https://zhuanlan.zhihu.com/p/262608477
2024-04-08 21:00:54
前言
Bandits -> Contextual Bandits -> RL, 3个方向不断进阶。contextual bandits 相比于bandits多了特征优势,相比于RL是一步reward反馈。正好有个大佬整理了这几种算法的对比,顺便学习下。
资料链接:
github地址:https://github.com/sauxpa/neural_exploration
算法解读:https://zhuanlan.zhihu.com/p/262608477