当前位置：首页 > news >正文

apollo学习之纳什均衡求解最优策略

news 2025/9/2 10:03:42

在自动驾驶的决策过程中，纳什均衡（Nash Equilibrium） 用于建模车辆与其他交通参与者（如他车、行人）的交互策略，通过博弈论框架找到多方动态博弈的最优解：

1. 纳什均衡的核心概念

定义：在多人博弈中，纳什均衡是指所有参与者策略的组合，在该组合下，任何一方单方面改变自己的策略都无法获得更大收益。
关键特性：
非合作性：参与者独立决策，无强制协议。
最优响应：每个参与者的策略是对其他参与者策略的最佳反应。

2. 自动驾驶中的博弈场景

在交叉口、无保护左转、合流等场景中，自动驾驶车辆（Ego车）与他车的决策相互影响，形成非零和博弈。
示例：

场景：Ego车试图左转，对向有直行车辆。
策略空间：
Ego车：{加速通过，等待}
他车：{保持速度，减速让行}

3. 纳什均衡的数学建模

(1) 收益矩阵（Payoff Matrix）

假设两车的策略组合及收益如下（数值代表效用，越大越好）：

	他车: 保持速度	他车: 减速让行
Ego: 加速	(-10, -10)	(5, 0)
Ego: 等待	(0, 5)	(1, 1)

解释：
若双方选择“加速/保持速度”，可能碰撞，收益均为-10。
若Ego等待、他车保持速度，他车收益更高（直行优先）。

(2) 纳什均衡求解

步骤：

固定他车策略，找到Ego车的最佳响应。

若他车选择“保持速度”：Ego选择“等待”（0 > -10）。
若他车选择“减速让行”：Ego选择“加速”（5 > 1）。

固定Ego策略，找到他车的最佳响应。

若Ego选择“加速”：他车选择“减速让行”（0 > -10）。
若Ego选择“等待”：他车选择“保持速度”（5 > 1）。

均衡点：无纯策略均衡（无单元格同时是双方的最佳响应）。
混合策略均衡：双方以一定概率选择策略。

混合策略计算：
设Ego以概率 ( p ) 加速，他车以概率 ( q ) 保持速度。
Ego的期望收益：
他车选择“保持速度”时：( -10p + 0(1-p) )
他车选择“减速让行”时：( 5p + 1(1-p) )
令他车收益无差异（Ego无法被预测）：
[
-10q + 5(1-q) = 0q + 1(1-q) \implies q = \frac{4}{14} = \frac{2}{7}
]
同理求解 ( p )：
他车的期望收益无差异：
[
-10p + 0(1-p) = 5p + 1(1-p) \implies p = \frac{1}{16}
]
均衡策略：
Ego以 ( \frac{1}{16} ) 概率加速，他车以 ( \frac{2}{7} ) 概率保持速度。

4. Apollo中的实现细节

(1) 动态博弈框架

状态空间：包括车辆位置、速度、加速度、交通规则等。
策略空间：离散化动作为有限集合（如加速、减速、保持）。
收益函数设计：
安全性：碰撞风险（如TTCOffset）。
效率：到达目标时间。
舒适性：加速度变化率。
[
U_i = w_1 \cdot \text{Safety} + w_2 \cdot \text{Progress} + w_3 \cdot \text{Comfort}
]

(2) 实时求解方法

迭代求解：由于实时性要求，Apollo采用简化方法：

离散策略采样：生成他车的可能策略（如匀速、减速20%）。
最优响应搜索：对每个他车策略，计算Ego车的最佳策略。
均衡验证：检查是否存在策略组合使双方均无动力偏离。

(3) 与预测模块联动

多模态预测：预测模块生成他车的多种可能轨迹（如激进/保守），决策模块对每种轨迹求解均衡策略，选择最鲁棒的Ego策略。

5. 实际案例：无保护左转

预测输入：他车可能以80%概率保持速度，20%概率减速。
收益计算：

若Ego选择“加速”：
他车保持速度时：高风险（收益-10）。
他车减速时：安全通过（收益5）。
期望收益：( -10 \times 0.8 + 5 \times 0.2 = -7 )。
若Ego选择“等待”：
期望收益：( 0 \times 0.8 + 1 \times 0.2 = 0.2 )。

决策输出：选择“等待”（更高期望收益）。

6. 挑战与解决方案

计算复杂度：
使用分层博弈（如宏观策略选择+微观轨迹优化）减少状态空间。
不确定性：
结合POMDP（部分可观测马尔可夫决策过程）处理传感器噪声。
非理性行为：
引入“风险敏感”收益函数，对激进他车赋予更高惩罚。

总结

纳什均衡为自动驾驶的交互决策提供了理论框架，使车辆能够在博弈中平衡安全与效率。Apollo通过离散化策略空间、实时最优响应搜索和多模态预测融合，将理论应用于复杂动态环境，最终实现拟人化的决策效果。

http://www.dtcms.com/a/361844.html

相关文章：

MySQL 中 InnoDB 引擎的事务隔离级别与“可重复读”隔离级别下的 SQL 编写规范

2025 中国算力大会精彩回顾：算力驱动未来，液冷引领革新

从 Oracle 到 TiDB，通过ETL工具，高效实现数据拉通

HarvardX TinyML小笔记2（番外3：数据工程）（TODO）

【C++游记】AVL树

通过 select into outfile / load data infile 进行数据导入导出学习笔记

【网络安全入门基础教程】网络安全就业方向（非常详细）零基础入门到精通，收藏这篇就够了

three.js+WebGL踩坑经验合集(10.2):镜像问题又一坑——THREE.InstancedMesh的正反面向光问题

亥姆霍兹线圈和放载流线圈

【SpreadJS V18.2 新特性】Table 与 DataTable 双向转换功能详解

SD卡自动检测与挂载脚本

React 第七十一节 Router中generatePath的使用详解及注意事项

table表格字段明细展示

【前端教程】ES6 Promise 实战教程：从基础到游戏案例

django的URL路由配置常用方式

C# Task 入门：让你的程序告别卡顿

基于STM32单片机的无线鼠标设计

【ComfyUI】图像反推描述词总结

杰理ac791无法控制io脚原因

【算法】算法题核心类别与通用解题思路

时序数据库IoTDB：为何成为工业数据管理新宠？

【frontend】w3c的发展历史ToDo

accelerate、trainer、lightning还是pytorch？

SpringBoot 分库分表 - 实现、配置与优化

雅思听力第四课：配对题核心技巧与词汇深化

CLion编译基于WSL平台Ubuntu系统的ros项目

1.人工智能——概述

测试开发的角色

动态规划：硬币兑换II

异常类分析