unitree rl gym项目实践记录2:通过TensorBoard查看奖励曲线
通过TensorBoard查看奖励曲线的操作流程如下:
启动TensorBoard服务
在终端执行命令tensorboard --logdir unitree_rl_gym/logs/g1/,默认会启动在6006端口。若端口冲突可通过--port参数指定其他端口(如--port=6007)7。
(rlgym) wen@wen-MS-7D22:~$ cd unitree_rl_gym
(rlgym) wen@wen-MS-7D22:~/unitree_rl_gym$ ls
deploy legged_gym logs README_zh.md setup.py
doc LICENSE README.md resources unitree_rl_gym.egg-info
(rlgym) wen@wen-MS-7D22:~/unitree_rl_gym$ tensorboard --logdir logs/g1/
访问可视化界面
浏览器输入localhost:6006或终端显示的URL(如http://localhost:6006),即可打开TensorBoard界面78。
定位奖励曲线
在TensorBoard的SCALARS选项卡中,查找标签为reward_mean或env/reward_mean的曲线,该曲线反映训练过程中的平均奖励变化趋势57。若需对比多条曲线(如训练/验证奖励),可使用add_scalars()方法记录的数据48。
高级功能
直方图分析:通过HISTOGRAMS选项卡查看奖励分布情况,需确保日志中已通过add_histogram()记录数据6。
时间筛选:调整界面左侧的时间范围滑块,可聚焦特定训练阶段的奖励变化39。
若日志路径包含多个实验(如按时间戳命名的子目录),需在--logdir中指定具体子目录或父目录以对比不同实验7。