eval_masks[eval_dones == True] = np.zeros(
((eval_dones == True).sum(), 1), dtype=np.float32)
eval_rnn_states[eval_dones == True] = np.zeros(
((eval_dones == True).sum(), self.recurrent_N, self.hidden_size), dtype=np.float32)
eval_rnn_states_critic[eval_dones == True] = np.zeros(
((eval_dones == True).sum(), self.recurrent_N, self.hidden_size), dtype=np.float32)
以上表示,在有N个agent,M个并行环境的情况下,当某个并行环境为done时,该环境下对应的N个angent的done的总和。
相关文章
- 10-14如何从多个相同长度的列表中获取numpy数组并沿轴排序?
- 10-14A+B 投入产出实践(IV)字体大小:← →问题描述你的任务是计算一些整数的总和。输入输入包含多个测试用例。每个测试用例包含一个整数 N,然后 N 个整数在同一行中。以 0 开头的测试用例终止
- 10-14MATLAB中的概率论与数理统计
- 10-14verilog-统计n位数据中1的个数
- 10-14在人类小鼠细胞系中的细胞特异性选择性剪切分析之统计方法篇
- 10-14统计学中假设检验有关P值的讨论
- 10-14利用EXCEL函数LINEST进行统计学中的回归分析
- 10-14统计s="hello alex alex hello haiyan cc haiyan com"中每个单词的个数
- 10-14保证测试通过的ip正则,antdIP/IP段的校验方法,antd的textArea中可以输入多个以换行分隔的ip/IP段,并自动检测出错行的原因
- 10-14python 中多个装饰器的执行顺序