mappo中的多个agent的done的统计

eval_masks[eval_dones == True] = np.zeros(
((eval_dones == True).sum(), 1), dtype=np.float32)
eval_rnn_states[eval_dones == True] = np.zeros(
((eval_dones == True).sum(), self.recurrent_N, self.hidden_size), dtype=np.float32)
eval_rnn_states_critic[eval_dones == True] = np.zeros(
((eval_dones == True).sum(), self.recurrent_N, self.hidden_size), dtype=np.float32)

以上表示,在有N个agent,M个并行环境的情况下,当某个并行环境为done时,该环境下对应的N个angent的done的总和。
上一篇:panda之series结构


下一篇:【自我管理】my schedule