小鹏汽车的 VLA(视觉 - 语言 - 动作)算法模型框架是其端到端自动驾驶系统的核心,融合了多模态感知、语言推理与动作生成能力。以下是其技术细节与原理的深度解析:
小鹏 VLA 采用云端基座模型 + 车端蒸馏模型的混合架构,兼顾超大规模训练与实时推理需求:
- 云端基座模型(720 亿参数):
- 基于阿里巴巴 Qwen2.5-VL 大模型,整合视觉理解、链式推理(CoT)和动作生成能力。
- 通过 2 亿 Clips 视频数据(含多摄像头、激光雷达、毫米波雷达)训练,支持复杂场景的长时序推理(如施工路段提前 5 秒预判)。
- 车端蒸馏模型(30 亿参数):
- 通过知识蒸馏保留云端模型 90% 以上的推理能力,同时支持 INT8 量化和剪枝,适配图灵 AI 芯片的实时推理需求。
- 采用动态路由机制和LoRA 低秩适应技术,在消费级 GPU 上实现快速微调(如多目标清理任务成功率提升 20.4%)。
- 视觉编码器:
- 采用Grounded-SAM(由 IDEA 研究院提出)进行前景分割,生成细粒度掩码(如车辆、行人、交通标志)。
- 结合ViT(视觉 Transformer)与 CNN 混合架构,处理 12 路摄像头、激光雷达和毫米波雷达数据,生成 BEV(鸟瞰图)特征。
- ReconPruner 剪枝器:
- 通过 MAE(掩码自动编码器)风格的像素重建任务,将视觉 Token 从 3249 个压缩至 812 个,FLOPs 降低 7.5 倍,同时保持碰撞率等关键指标优于未剪枝基线。
- 对抗式前景 - 背景重建策略:强制高分 Token 重建前景(如障碍物),低分 Token 重建背景(如天空),提升 Token 筛选准确性。
- 语言模块:
- 基于 Qwen2.5-VL-3B 模型,通过导航引导推理(NSFT)和偏好优化(NPO)增强超视距决策能力。
- 解析自然语言指令(如 “避开施工路段”),生成语义控制逻辑,并与全局导航信息(如高精地图路径)动态对齐。
- NavigScene 数据集:
- 融合 nuScenes、NAVSIM 等数据,包含 24.1 万张带前景掩码的图像,标注聚焦于导航引导的自然语言指令(如 “前方 300 米右转”)。
- 通过导航引导偏好优化(NPO),建立摘要答案与导航指令的相关性,提升 BVR(超出视觉范围)推理能力。
- 动作解码器:
- 采用扩散模型生成连续动作序列(如方向盘角度、油门 / 刹车力度),支持机械臂协同(如充电机器人对接)和实时避障。
- 在双臂协作任务中,动作生成延迟低至 20ms,推理速度达 6Hz,任务成功率 97.1%。
- 安全冗余机制:
- 动作序列生成后,通过符号化模块(如碰撞检测、车道保持规则)进行安全校验,平衡泛化能力与可解释性。
- 时空推理模块:
- 结合 Transformer 解码器与 LSTM,对多帧视觉数据进行时序建模,预测未来 5 秒内的场景变化(如车辆变道、行人横穿)。
- 在无保护左转场景中,通过时空推理提前规划防御性策略,实现 “无感避险”。
- 跨模态对齐:
- 通过交叉注意力机制,将视觉特征(如 “红色信号灯”)与语言语义(如 “停车”)动态关联,实现指令与场景的精准匹配。
- 例如,在 ETC 场景中,模型通过视觉识别 “ETC 专用道” 文字与绿灯信号,结合语言指令 “绿灯可通行”,生成缓行至道闸的动作。
- 数据构建:
- nuScenes-FG 数据集:基于 nuScenes 数据集,使用 Grounded-SAM 生成 24.1 万张带前景分割掩码的图像,覆盖六个车载摄像头视角。
- 对抗性数据增强:通过前景 - 背景重建对抗训练,强制模型区分驾驶相关的关键区域(如车道线、行人)。
- 训练目标:
- 重建损失约束:通过 MAE 风格的像素重建任务,优先保留前景区域 Token,抑制背景冗余信息。
- 强化学习优化:在云端基座模型训练中引入强化学习(RL),优化复杂场景(如异形障碍物避让)的决策可靠性。
- 自研图灵 AI 芯片:
- 3 颗图灵芯片提供 2250TOPS 有效算力(等效 9 颗英伟达 Orin-X),支持车端大模型实时运行。
- 采用特定领域架构(DSA),算力利用率达 100%,推理延迟降低 60%,图像处理速度提升 75%。
- 实时性保障:
- 通过Token 压缩技术和硬件加速,在复杂路况下实现 0.3 秒决策延迟,支持 10Hz 以上的推理速度。
- 例如,在机械臂协作任务中,动作生成延迟低至 20ms,满足工业级实时性需求。
- 量产功能落地:
- 全场景 VLA 系统:支持车位到车位记忆泊车(斜角≤45° 的非标准车位)、主动安全强化(异形障碍物识别准确率提升 30%)等功能。
- 人机共驾模式:驾驶员介入后 0.5 秒内无缝恢复 NGP,支持低速跟车、匝道汇入等灵活协作。
- 极端场景表现:
- 在夜间、雨天、逆光等复杂光线环境中,结合鹰眼 AI 纯视觉摄像头方案,成像质量提升显著,动态范围支持 24bit 处理位宽。
- AEB 自动紧急制动系统在 130km/h 时速下实现行业最高刹停性能,碰撞风险降低 90% 以上。
- 核心突破:
- 即插即用剪枝框架:FastDriveVLA 通过基于图像复原的 Token 剪枝技术,在 nuScenes 开环规划基准上实现 SOTA 性能,同时降低 7.5 倍计算量。
- 导航引导推理:通过 NavigScene 数据集和 NPO 方法,将全局导航信息(如地图路径)与局部传感器数据对齐,解决超视距决策问题。
- 差异化路线:
- 与特斯拉 FSD 的纯端到端架构不同,小鹏采用端到端 + 符号规则混合模式,在 VLA 生成动作序列后,仍通过碰撞检测等符号化模块进行安全校验,平衡泛化能力与可解释性。
小鹏 VLA 模型框架的核心在于多模态融合、轻量化优化与硬件协同。其技术路径体现了 “开源模型复用 + 自研工程落地” 的混合策略,既依托 Qwen-2.5VL 等基石模型,又通过 ReconPruner 剪枝器、图灵芯片适配等创新实现车规级应用。这一框架不仅支撑了小鹏 G7 Ultra 等车型的量产落地,更标志着中国智能汽车产业从 “整合供应商方案” 向 “核心底层自研” 的关键跃迁。