当前位置: 首页 > news >正文

apollo学习之纳什均衡求解最优策略

在自动驾驶的决策过程中,纳什均衡(Nash Equilibrium) 用于建模车辆与其他交通参与者(如他车、行人)的交互策略,通过博弈论框架找到多方动态博弈的最优解:


1. 纳什均衡的核心概念

  • 定义:在多人博弈中,纳什均衡是指所有参与者策略的组合,在该组合下,任何一方单方面改变自己的策略都无法获得更大收益。
  • 关键特性
  • 非合作性:参与者独立决策,无强制协议。
  • 最优响应:每个参与者的策略是对其他参与者策略的最佳反应。

2. 自动驾驶中的博弈场景

在交叉口、无保护左转、合流等场景中,自动驾驶车辆(Ego车)与他车的决策相互影响,形成非零和博弈
示例

  • 场景:Ego车试图左转,对向有直行车辆。
  • 策略空间
  • Ego车:{加速通过,等待}
  • 他车:{保持速度,减速让行}

3. 纳什均衡的数学建模

(1) 收益矩阵(Payoff Matrix)

假设两车的策略组合及收益如下(数值代表效用,越大越好):

他车: 保持速度他车: 减速让行
Ego: 加速(-10, -10)(5, 0)
Ego: 等待(0, 5)(1, 1)
  • 解释
  • 若双方选择“加速/保持速度”,可能碰撞,收益均为-10。
  • 若Ego等待、他车保持速度,他车收益更高(直行优先)。
(2) 纳什均衡求解
  • 步骤
  1. 固定他车策略,找到Ego车的最佳响应。
  • 若他车选择“保持速度”:Ego选择“等待”(0 > -10)。
  • 若他车选择“减速让行”:Ego选择“加速”(5 > 1)。
  1. 固定Ego策略,找到他车的最佳响应。
  • 若Ego选择“加速”:他车选择“减速让行”(0 > -10)。
  • 若Ego选择“等待”:他车选择“保持速度”(5 > 1)。
  1. 均衡点:无纯策略均衡(无单元格同时是双方的最佳响应)。
  2. 混合策略均衡:双方以一定概率选择策略。
  • 混合策略计算
    设Ego以概率 ( p ) 加速,他车以概率 ( q ) 保持速度。
  • Ego的期望收益
    他车选择“保持速度”时:( -10p + 0(1-p) )
    他车选择“减速让行”时:( 5p + 1(1-p) )
    令他车收益无差异(Ego无法被预测):
    [
    -10q + 5(1-q) = 0q + 1(1-q) \implies q = \frac{4}{14} = \frac{2}{7}
    ]
  • 同理求解 ( p )
    他车的期望收益无差异:
    [
    -10p + 0(1-p) = 5p + 1(1-p) \implies p = \frac{1}{16}
    ]
  • 均衡策略
    Ego以 ( \frac{1}{16} ) 概率加速,他车以 ( \frac{2}{7} ) 概率保持速度。

4. Apollo中的实现细节

(1) 动态博弈框架
  • 状态空间:包括车辆位置、速度、加速度、交通规则等。
  • 策略空间:离散化动作为有限集合(如加速、减速、保持)。
  • 收益函数设计
  • 安全性:碰撞风险(如TTCOffset)。
  • 效率:到达目标时间。
  • 舒适性:加速度变化率。
    [
    U_i = w_1 \cdot \text{Safety} + w_2 \cdot \text{Progress} + w_3 \cdot \text{Comfort}
    ]
(2) 实时求解方法
  • 迭代求解:由于实时性要求,Apollo采用简化方法:
  1. 离散策略采样:生成他车的可能策略(如匀速、减速20%)。
  2. 最优响应搜索:对每个他车策略,计算Ego车的最佳策略。
  3. 均衡验证:检查是否存在策略组合使双方均无动力偏离。
(3) 与预测模块联动
  • 多模态预测:预测模块生成他车的多种可能轨迹(如激进/保守),决策模块对每种轨迹求解均衡策略,选择最鲁棒的Ego策略。

5. 实际案例:无保护左转

  1. 预测输入:他车可能以80%概率保持速度,20%概率减速。
  2. 收益计算
  • 若Ego选择“加速”:
  • 他车保持速度时:高风险(收益-10)。
  • 他车减速时:安全通过(收益5)。
  • 期望收益:( -10 \times 0.8 + 5 \times 0.2 = -7 )。
  • 若Ego选择“等待”:
  • 期望收益:( 0 \times 0.8 + 1 \times 0.2 = 0.2 )。
  1. 决策输出:选择“等待”(更高期望收益)。

6. 挑战与解决方案

  • 计算复杂度
  • 使用分层博弈(如宏观策略选择+微观轨迹优化)减少状态空间。
  • 不确定性
  • 结合POMDP(部分可观测马尔可夫决策过程)处理传感器噪声。
  • 非理性行为
  • 引入“风险敏感”收益函数,对激进他车赋予更高惩罚。

总结

纳什均衡为自动驾驶的交互决策提供了理论框架,使车辆能够在博弈中平衡安全与效率。Apollo通过离散化策略空间实时最优响应搜索多模态预测融合,将理论应用于复杂动态环境,最终实现拟人化的决策效果。

http://www.dtcms.com/a/361844.html

相关文章:

  • MySQL 中 InnoDB 引擎的事务隔离级别与“可重复读”隔离级别下的 SQL 编写规范
  • 2025 中国算力大会精彩回顾:算力驱动未来,液冷引领革新
  • 从 Oracle 到 TiDB,通过ETL工具,高效实现数据拉通
  • HarvardX TinyML小笔记2(番外3:数据工程)(TODO)
  • 【C++游记】AVL树
  • 通过 select into outfile / load data infile 进行数据导入导出学习笔记
  • 【网络安全入门基础教程】网络安全就业方向(非常详细)零基础入门到精通,收藏这篇就够了
  • three.js+WebGL踩坑经验合集(10.2):镜像问题又一坑——THREE.InstancedMesh的正反面向光问题
  • 亥姆霍兹线圈和放载流线圈
  • 【SpreadJS V18.2 新特性】Table 与 DataTable 双向转换功能详解
  • SD卡自动检测与挂载脚本
  • React 第七十一节 Router中generatePath的使用详解及注意事项
  • table表格字段明细展示
  • 【前端教程】ES6 Promise 实战教程:从基础到游戏案例
  • django的URL路由配置常用方式
  • C# Task 入门:让你的程序告别卡顿
  • 基于STM32单片机的无线鼠标设计
  • 【ComfyUI】图像反推描述词总结
  • 杰理ac791无法控制io脚原因
  • 【算法】算法题核心类别与通用解题思路
  • 时序数据库IoTDB:为何成为工业数据管理新宠?
  • 【frontend】w3c的发展历史ToDo
  • accelerate、trainer、lightning还是pytorch?
  • SpringBoot 分库分表 - 实现、配置与优化
  • 雅思听力第四课:配对题核心技巧与词汇深化
  • CLion编译基于WSL平台Ubuntu系统的ros项目
  • 1.人工智能——概述
  • 测试开发的角色
  • 动态规划:硬币兑换II
  • 异常类分析