apollo学习之纳什均衡求解最优策略
在自动驾驶的决策过程中,纳什均衡(Nash Equilibrium) 用于建模车辆与其他交通参与者(如他车、行人)的交互策略,通过博弈论框架找到多方动态博弈的最优解:
1. 纳什均衡的核心概念
- 定义:在多人博弈中,纳什均衡是指所有参与者策略的组合,在该组合下,任何一方单方面改变自己的策略都无法获得更大收益。
- 关键特性:
- 非合作性:参与者独立决策,无强制协议。
- 最优响应:每个参与者的策略是对其他参与者策略的最佳反应。
2. 自动驾驶中的博弈场景
在交叉口、无保护左转、合流等场景中,自动驾驶车辆(Ego车)与他车的决策相互影响,形成非零和博弈。
示例:
- 场景:Ego车试图左转,对向有直行车辆。
- 策略空间:
- Ego车:{加速通过,等待}
- 他车:{保持速度,减速让行}
3. 纳什均衡的数学建模
(1) 收益矩阵(Payoff Matrix)
假设两车的策略组合及收益如下(数值代表效用,越大越好):
他车: 保持速度 | 他车: 减速让行 | |
---|---|---|
Ego: 加速 | (-10, -10) | (5, 0) |
Ego: 等待 | (0, 5) | (1, 1) |
- 解释:
- 若双方选择“加速/保持速度”,可能碰撞,收益均为-10。
- 若Ego等待、他车保持速度,他车收益更高(直行优先)。
(2) 纳什均衡求解
- 步骤:
- 固定他车策略,找到Ego车的最佳响应。
- 若他车选择“保持速度”:Ego选择“等待”(0 > -10)。
- 若他车选择“减速让行”:Ego选择“加速”(5 > 1)。
- 固定Ego策略,找到他车的最佳响应。
- 若Ego选择“加速”:他车选择“减速让行”(0 > -10)。
- 若Ego选择“等待”:他车选择“保持速度”(5 > 1)。
- 均衡点:无纯策略均衡(无单元格同时是双方的最佳响应)。
- 混合策略均衡:双方以一定概率选择策略。
- 混合策略计算:
设Ego以概率 ( p ) 加速,他车以概率 ( q ) 保持速度。 - Ego的期望收益:
他车选择“保持速度”时:( -10p + 0(1-p) )
他车选择“减速让行”时:( 5p + 1(1-p) )
令他车收益无差异(Ego无法被预测):
[
-10q + 5(1-q) = 0q + 1(1-q) \implies q = \frac{4}{14} = \frac{2}{7}
] - 同理求解 ( p ):
他车的期望收益无差异:
[
-10p + 0(1-p) = 5p + 1(1-p) \implies p = \frac{1}{16}
] - 均衡策略:
Ego以 ( \frac{1}{16} ) 概率加速,他车以 ( \frac{2}{7} ) 概率保持速度。
4. Apollo中的实现细节
(1) 动态博弈框架
- 状态空间:包括车辆位置、速度、加速度、交通规则等。
- 策略空间:离散化动作为有限集合(如加速、减速、保持)。
- 收益函数设计:
- 安全性:碰撞风险(如TTCOffset)。
- 效率:到达目标时间。
- 舒适性:加速度变化率。
[
U_i = w_1 \cdot \text{Safety} + w_2 \cdot \text{Progress} + w_3 \cdot \text{Comfort}
]
(2) 实时求解方法
- 迭代求解:由于实时性要求,Apollo采用简化方法:
- 离散策略采样:生成他车的可能策略(如匀速、减速20%)。
- 最优响应搜索:对每个他车策略,计算Ego车的最佳策略。
- 均衡验证:检查是否存在策略组合使双方均无动力偏离。
(3) 与预测模块联动
- 多模态预测:预测模块生成他车的多种可能轨迹(如激进/保守),决策模块对每种轨迹求解均衡策略,选择最鲁棒的Ego策略。
5. 实际案例:无保护左转
- 预测输入:他车可能以80%概率保持速度,20%概率减速。
- 收益计算:
- 若Ego选择“加速”:
- 他车保持速度时:高风险(收益-10)。
- 他车减速时:安全通过(收益5)。
- 期望收益:( -10 \times 0.8 + 5 \times 0.2 = -7 )。
- 若Ego选择“等待”:
- 期望收益:( 0 \times 0.8 + 1 \times 0.2 = 0.2 )。
- 决策输出:选择“等待”(更高期望收益)。
6. 挑战与解决方案
- 计算复杂度:
- 使用分层博弈(如宏观策略选择+微观轨迹优化)减少状态空间。
- 不确定性:
- 结合POMDP(部分可观测马尔可夫决策过程)处理传感器噪声。
- 非理性行为:
- 引入“风险敏感”收益函数,对激进他车赋予更高惩罚。
总结
纳什均衡为自动驾驶的交互决策提供了理论框架,使车辆能够在博弈中平衡安全与效率。Apollo通过离散化策略空间、实时最优响应搜索和多模态预测融合,将理论应用于复杂动态环境,最终实现拟人化的决策效果。