机器人强化学习原理讲解二:关于机器人重置
1,机器人重置是在一个epoch结束之后,现代深度强化学习算法,通常是在一个epoch(或一个批次)收集足够的经验后,再统一进行一次更新,以保证训练的稳定性和效率。一般一个epoch可能是2000或者1万
-
在批量强化学习或策略梯度方法(如PPO、A3C等)中,智能体会先收集一个epoch内多个episode或多个step的经验数据,积累一定量的样本后,再统一进行一次策略或价值函数的更新。
-
这种方式利用批量数据进行更稳定的梯度估计。
2,一个epoch通常包含多个episode。
- 每个episode由若干步(step)组成,步数取决于任务的长度或终止条件(如达到目标或超时)。一般有一个最大值20或者24
- 一个epoch内的步数是所有包含的episode步数的总和。
3,关于机器人重置
- 首先在单个机器人如果跌掉了,会单独重置而不是让所有的envs重置
# 其中env_ids 是一个张量,包含需要重置的环境ID
def reset_idx(self, env_ids): super().reset_idx(env_ids)for i in range(self.obs_history.maxlen):self.obs_history[i][env_ids] *= 0