机器人强化学习入门学习笔记(四)
强化学习模型性能优劣与奖励函数息息相关,如何设计一个好的奖励函数就显得尤为重要了。下面以参考文献1和双足机器人训练强化学习模型为例,对奖励函数进行如下总结:
一、设置奖励函数
一般而言奖励函数的设计策略主要包括:
原则 | 说明 |
---|---|
🎯 与任务目标一致 | 奖励函数必须能准确反映预期目标(如走得快、保持平衡) |
🔍 奖励信号要明确 | 避免稀疏奖励(即只有在最终成功时才给予奖励) |
🌊 奖励应平滑 | 保证小的行为变化不会导致奖励剧烈波动,避免训练不稳定 |
🚫 避免欺骗策略 | 不要让智能体能“利用奖励规则漏洞”来作弊(如原地晃动获得奖励) |
⚖️ 奖励加权合理 | 各子目标的奖励权重设置需平衡,不然容易让某个指标主导策略学习 |
而结合双足机器人强化学习中的主流奖励函数设计(研究与实战)其目标是让机器人“稳、快、省力地”行走,具体常见组成部分如下:
目标 | 奖励项设计 | 说明 |
---|---|---|
向前移动(走得快) | r_forward = velocity_along_x_axis |