当前位置: 首页 > news >正文

小鹏汽车在 VLA(视觉 - 语言 - 动作)算法模型框架细节与原理

小鹏汽车的 VLA(视觉 - 语言 - 动作)算法模型框架是其端到端自动驾驶系统的核心,融合了多模态感知、语言推理与动作生成能力。以下是其技术细节与原理的深度解析:

一、整体架构:混合式端到端设计


小鹏 VLA 采用云端基座模型 + 车端蒸馏模型的混合架构,兼顾超大规模训练与实时推理需求:

  1. 云端基座模型(720 亿参数):
    • 基于阿里巴巴 Qwen2.5-VL 大模型,整合视觉理解、链式推理(CoT)和动作生成能力。
    • 通过 2 亿 Clips 视频数据(含多摄像头、激光雷达、毫米波雷达)训练,支持复杂场景的长时序推理(如施工路段提前 5 秒预判)。

  2. 车端蒸馏模型(30 亿参数):
    • 通过知识蒸馏保留云端模型 90% 以上的推理能力,同时支持 INT8 量化和剪枝,适配图灵 AI 芯片的实时推理需求。
    • 采用动态路由机制LoRA 低秩适应技术,在消费级 GPU 上实现快速微调(如多目标清理任务成功率提升 20.4%)。


二、核心模块技术细节


1. 视觉处理:前景聚焦的动态 Token 压缩

  • 视觉编码器
    • 采用Grounded-SAM(由 IDEA 研究院提出)进行前景分割,生成细粒度掩码(如车辆、行人、交通标志)。
    • 结合ViT(视觉 Transformer)与 CNN 混合架构,处理 12 路摄像头、激光雷达和毫米波雷达数据,生成 BEV(鸟瞰图)特征。

  • ReconPruner 剪枝器
    • 通过 MAE(掩码自动编码器)风格的像素重建任务,将视觉 Token 从 3249 个压缩至 812 个,FLOPs 降低 7.5 倍,同时保持碰撞率等关键指标优于未剪枝基线。
    • 对抗式前景 - 背景重建策略:强制高分 Token 重建前景(如障碍物),低分 Token 重建背景(如天空),提升 Token 筛选准确性。


2. 语言推理:导航引导的语义解析

  • 语言模块
    • 基于 Qwen2.5-VL-3B 模型,通过导航引导推理(NSFT)和偏好优化(NPO)增强超视距决策能力。
    • 解析自然语言指令(如 “避开施工路段”),生成语义控制逻辑,并与全局导航信息(如高精地图路径)动态对齐。

  • NavigScene 数据集
    • 融合 nuScenes、NAVSIM 等数据,包含 24.1 万张带前景掩码的图像,标注聚焦于导航引导的自然语言指令(如 “前方 300 米右转”)。
    • 通过导航引导偏好优化(NPO),建立摘要答案与导航指令的相关性,提升 BVR(超出视觉范围)推理能力。


3. 动作生成:连续控制与安全校验

  • 动作解码器
    • 采用扩散模型生成连续动作序列(如方向盘角度、油门 / 刹车力度),支持机械臂协同(如充电机器人对接)和实时避障。
    • 在双臂协作任务中,动作生成延迟低至 20ms,推理速度达 6Hz,任务成功率 97.1%。

  • 安全冗余机制
    • 动作序列生成后,通过符号化模块(如碰撞检测、车道保持规则)进行安全校验,平衡泛化能力与可解释性。


4. 多模态融合:时空推理与跨模态对齐

  • 时空推理模块
    • 结合 Transformer 解码器与 LSTM,对多帧视觉数据进行时序建模,预测未来 5 秒内的场景变化(如车辆变道、行人横穿)。
    • 在无保护左转场景中,通过时空推理提前规划防御性策略,实现 “无感避险”。

  • 跨模态对齐
    • 通过交叉注意力机制,将视觉特征(如 “红色信号灯”)与语言语义(如 “停车”)动态关联,实现指令与场景的精准匹配。
    • 例如,在 ETC 场景中,模型通过视觉识别 “ETC 专用道” 文字与绿灯信号,结合语言指令 “绿灯可通行”,生成缓行至道闸的动作。


三、训练与优化策略


  1. 数据构建
    • nuScenes-FG 数据集:基于 nuScenes 数据集,使用 Grounded-SAM 生成 24.1 万张带前景分割掩码的图像,覆盖六个车载摄像头视角。
    • 对抗性数据增强:通过前景 - 背景重建对抗训练,强制模型区分驾驶相关的关键区域(如车道线、行人)。

  2. 训练目标
    • 重建损失约束:通过 MAE 风格的像素重建任务,优先保留前景区域 Token,抑制背景冗余信息。
    • 强化学习优化:在云端基座模型训练中引入强化学习(RL),优化复杂场景(如异形障碍物避让)的决策可靠性。


四、工程落地:芯片与算法的深度协同


  1. 自研图灵 AI 芯片
    • 3 颗图灵芯片提供 2250TOPS 有效算力(等效 9 颗英伟达 Orin-X),支持车端大模型实时运行。
    • 采用特定领域架构(DSA),算力利用率达 100%,推理延迟降低 60%,图像处理速度提升 75%。

  2. 实时性保障
    • 通过Token 压缩技术硬件加速,在复杂路况下实现 0.3 秒决策延迟,支持 10Hz 以上的推理速度。
    • 例如,在机械臂协作任务中,动作生成延迟低至 20ms,满足工业级实时性需求。


五、功能验证与场景应用


  1. 量产功能落地
    • 全场景 VLA 系统:支持车位到车位记忆泊车(斜角≤45° 的非标准车位)、主动安全强化(异形障碍物识别准确率提升 30%)等功能。
    • 人机共驾模式:驾驶员介入后 0.5 秒内无缝恢复 NGP,支持低速跟车、匝道汇入等灵活协作。

  2. 极端场景表现
    • 在夜间、雨天、逆光等复杂光线环境中,结合鹰眼 AI 纯视觉摄像头方案,成像质量提升显著,动态范围支持 24bit 处理位宽。
    • AEB 自动紧急制动系统在 130km/h 时速下实现行业最高刹停性能,碰撞风险降低 90% 以上。


六、技术创新与行业定位


  1. 核心突破
    • 即插即用剪枝框架:FastDriveVLA 通过基于图像复原的 Token 剪枝技术,在 nuScenes 开环规划基准上实现 SOTA 性能,同时降低 7.5 倍计算量。
    • 导航引导推理:通过 NavigScene 数据集和 NPO 方法,将全局导航信息(如地图路径)与局部传感器数据对齐,解决超视距决策问题。

  2. 差异化路线
    • 与特斯拉 FSD 的纯端到端架构不同,小鹏采用端到端 + 符号规则混合模式,在 VLA 生成动作序列后,仍通过碰撞检测等符号化模块进行安全校验,平衡泛化能力与可解释性。


总结


小鹏 VLA 模型框架的核心在于多模态融合、轻量化优化与硬件协同。其技术路径体现了 “开源模型复用 + 自研工程落地” 的混合策略,既依托 Qwen-2.5VL 等基石模型,又通过 ReconPruner 剪枝器、图灵芯片适配等创新实现车规级应用。这一框架不仅支撑了小鹏 G7 Ultra 等车型的量产落地,更标志着中国智能汽车产业从 “整合供应商方案” 向 “核心底层自研” 的关键跃迁。


文章转载自:

http://76bIwUzP.Lqgfm.cn
http://Vy0CRs91.Lqgfm.cn
http://CCDwskcE.Lqgfm.cn
http://vH9Mz3VO.Lqgfm.cn
http://iK5Nvx2u.Lqgfm.cn
http://8Ag5QChJ.Lqgfm.cn
http://4bvopqs8.Lqgfm.cn
http://hU6zBQKg.Lqgfm.cn
http://iCRa4Y5R.Lqgfm.cn
http://bhkUlZsn.Lqgfm.cn
http://JCeE36XJ.Lqgfm.cn
http://t9fbKvMJ.Lqgfm.cn
http://iM1I97nf.Lqgfm.cn
http://41KLQiTY.Lqgfm.cn
http://hB4YSLKv.Lqgfm.cn
http://lCvg16PA.Lqgfm.cn
http://piY0Voys.Lqgfm.cn
http://Dpou7Ofl.Lqgfm.cn
http://R1DR2bt6.Lqgfm.cn
http://3tkhu7cb.Lqgfm.cn
http://z28YgRrm.Lqgfm.cn
http://JO7J6BMU.Lqgfm.cn
http://NpoNAVvl.Lqgfm.cn
http://RRR4BpOy.Lqgfm.cn
http://3RqtWRvx.Lqgfm.cn
http://jNxFA3Oi.Lqgfm.cn
http://t8IK1ToA.Lqgfm.cn
http://vJUzyJn9.Lqgfm.cn
http://xsPbAs8Q.Lqgfm.cn
http://cBlLhskj.Lqgfm.cn
http://www.dtcms.com/a/377208.html

相关文章:

  • Rust语言组件RPM包编译原理与Cargo工具详解
  • 趣味学RUST基础篇(智能指针_结束)
  • nginx中配置https详解:配置SSL/TLS证书
  • Spark中Shuffle阶段的优化方法
  • LeetCode100-234回文链表
  • Docker 学习笔记(六):多容器管理与集群部署实践
  • 【AI论文】借助大型语言模型进行符号图形编程
  • 深入理解Java中的位运算
  • Docker 部署生产环境可用的 MySQL 主从架构
  • 设计模式-工厂方法原型模板方法外观
  • John the Ripper jumbo + HashCat 破解压缩密码 ubuntu amd GPU
  • 笔记 | ubuntu20.04离线安装Docker
  • 4.1.多线程JUC-什么是多线程?
  • 硅基计划4.0 算法 模拟
  • Android调用系统内置的UiAutomator工具实现自动化测试
  • vim 编辑器
  • RAG原理是什么?
  • 小白必看:AI智能体零基础搭建全攻略!
  • 品牌方与服务商布局 GEO 优化:差异化优势与商业价值落地路径​
  • 高防IP如何抵御CC攻击?2025年全面防护机制解析
  • Memory in LLM Agent
  • WebAssembly (WASM) 简介
  • Vue: 列表渲染 (v-for)
  • Python NumPy安装、导入与入门
  • Linux ip 命令使用指南
  • 【科研知识】常用细胞增殖检测方法
  • 微算法科技(NASDAQ: MLGO)基于阿基米德优化算法(AOA)的区块链存储优化方案
  • 国产双复旦微VU9P+ZYNQ7100-6U VPX板卡
  • 装备制造专用CRM销售系统推荐(8款)
  • 模块一 入门微服务