发表时间:2018 (NeurIPS 2018)
文章要点:这篇文章在model-based value expansion (MVE)的基础上提出了一个stochastic ensemble value expansion (STEVE)的model based算法,主要用来自适应选择不同horizon的rollout的权重,从而在target value和model error之间做trade off。
具体的,就是在算target value的时候,你可以算1-step,2-step甚至n-step,然后给这些target 加权,肯定比TD(1)要稳健。所以我们可以用学到的model来rollout轨迹,然后用来算这些target。但是问题是model是imperfect的,所以我们需要确定每个target的权重,越准确的估计应该给更大的权重。之前MVE没有考虑这个权重的问题,直接算的固定的horizon
这里具体做法就是去学很多个Q function,reward function和model,这样在每个model里面做rollout,就可以得到相同轨迹的多个估计,然后根据这些值的方差来给权重。方差越大,说明这些地方uncertainty越大,就给小的权重。具体给法是inverse variance weighting,根据方差的倒数来给权重
然后就结束了。
总结:法是make sense的,就是感觉这种ensemble的方式计算量太大了。
疑问:这个STEVE里面horizon的最大值只设置为5,会不会太小了点。
后面作者比较wall-clock时间的时候,STEVE用了并行的方式,还多用了一块P100,感觉不太公平啊。