当前位置: 首页 > news >正文

小鹏汽车 vla 算法最新进展和模型结构细节

小鹏汽车在 VLA(视觉 - 语言 - 动作)算法领域的最新进展和模型结构细节,体现了其在端到端智驾系统车端大模型部署上的技术突破。以下是基于 2025 年 9 月最新公开信息的深度解析:

一、最新进展:全场景 VLA 系统量产落地与跨代升级


  1. 首次 OTA 全量推送与功能强化
    2025 年 9 月 9 日,小鹏 G7 Ultra 车型完成全球首个全场景 VLA 系统的 OTA 全量推送,核心升级包括:

    • 专家级风险预判:在无保护转向、盲区路口等场景中,通过时空推理提前规划防御性策略。例如,系统可预判对向车辆可能的抢道行为,提前调整车速并预留安全距离,实现 “无感避险”。
    • 行业首创人机共驾模式:当 NGP(导航辅助驾驶)激活且时速低于 130km/h 时,驾驶员可通过轻转方向盘或踩加速踏板介入驾驶,系统在 0.5 秒内无缝恢复 NGP,支持低速跟车、匝道汇入等灵活协作。
    • 车位到车位记忆泊车:支持任意车位实时记录与停车场 3D 建模,车辆可自动泊入斜列式车位、断头路车位等非标准车位,识别精度达 ±15cm,支持斜角≤45° 的复杂场景。
    • 主动安全强化:AES 自动紧急转向避让功能在紧急碰撞危险且制动空间不足时,可自动发起转向避险并减速,对异形障碍物(如倒地的外卖箱)的识别准确率较传统方案提升 30%。

  2. 年底跨代更新计划与算力支撑
    小鹏计划于 2025 年底对 Ultra 版车型进行 VLA 跨代更新,目标是实现十倍于现役智驾系统的体验跃升,核心依托:

    • 云端 720 亿参数基座模型:通过万卡规模计算集群训练,数据规模从 2000 万 Clips 视频(每条 30 秒)扩展至 2 亿 Clips,支持复杂场景的长时序推理。
    • 自研图灵 AI 芯片的算力霸权:3 颗图灵芯片提供 2250TOPS 有效算力(等效 9 颗英伟达 Orin-X),支持车端大模型实时运行。例如,在双臂协作任务中,动作生成延迟低至 20ms,推理速度达 6Hz,同时保持 97.1% 的任务成功率。
    • Token 压缩技术突破:与北大联合研发的 FastDriveVLA 框架,通过基于图像复原的 token 剪枝技术,将视觉 token 数量从 3249 条压缩至 812 条,FLOPs 降低 7.5 倍,同时保持碰撞率等关键指标优于未剪枝基线。


二、模型结构细节:云端蒸馏与车端异构计算


1. 混合架构设计

小鹏 VLA 采用云端基座模型 + 车端蒸馏模型的混合架构,实现 “超大规模训练” 与 “实时推理” 的平衡:

  • 云端基座模型
    • 参数规模:720 亿参数,基于大语言模型(LLM)骨干网络,整合视觉理解、链式推理(CoT)和动作生成能力。
    • 训练策略:通过对比学习和掩码预测预训练,使用 2000 万 Clips 视频数据(含多摄像头、激光雷达、毫米波雷达数据),并通过强化学习(RL)优化复杂场景决策。

  • 车端蒸馏模型
    • 参数规模:约 30 亿参数(云端的 1/24),通过知识蒸馏保留云端模型 90% 以上的推理能力,同时支持 INT8 量化和剪枝,适配图灵芯片的实时推理需求。
    • 轻量化技术:采用 LoRA(低秩适应)和动态路由机制,在消费级 GPU 上实现快速微调,例如在多目标清理任务中,微调后的模型成功率比扩散模型提升 20.4%。


2. 核心模块技术细节

  • 视觉编码器

    • 多传感器融合:采用 ViT(视觉 Transformer)与 CNN 混合架构,处理 12 路摄像头、激光雷达和毫米波雷达数据,通过 BEV(鸟瞰图)特征融合生成稠密的 3D 环境感知图。
    • 动态 token 压缩:结合 FastDriveVLA 框架的 ReconPruner 剪枝器,通过 MAE(掩码自动编码器)风格的像素重建任务,优先保留前景区域 token(如车辆、行人、交通标志),抑制背景冗余信息。

  • 语言模型

    • 指令解析与推理:基于自研 LLM(可能为 Llama 2 或类似架构),解析自然语言指令(如 “避开施工路段”)并生成语义控制逻辑,支持多轮对话与上下文理解。
    • 跨模态对齐:通过交叉注意力机制,将视觉特征(如 “红色信号灯”)与语言语义(如 “停车”)动态关联,实现指令与场景的精准匹配。

  • 动作生成器

    • 端到端控制:采用扩散模型或序列到序列学习,直接生成连续动作序列(如方向盘角度、油门 / 刹车力度),支持机械臂协同与实时避障。例如,在家庭服务场景中,模型可通过 “将杯子从桌子移到架子” 的指令,自动规划路径并调整抓取力度。
    • 物理引擎验证:生成的动作序列需通过 Simulink 等物理引擎验证轨迹可行性,确保在动态环境中的安全性。


3. 多模态融合机制

  • 时空推理模块
    结合 Transformer 解码器与 LSTM,对多帧视觉数据进行时序建模,预测未来 5 秒内的场景变化(如车辆变道、行人横穿),支持复杂路口的博弈决策。
  • 对抗式训练策略
    在训练中引入对抗式前景 - 背景重建,强制模型区分前景(如障碍物)与背景(如建筑物),避免 token 剪枝时误删关键信息。例如,ReconPruner 通过同时重建前景和背景区域,提升 token 筛选的准确性。

4. 硬件协同优化

  • 图灵芯片的 DSA 架构
    采用 40 核处理器、2xNPU 神经网络处理单元和专用内存控制器,算力利用率达 100%,远超通用芯片的 30-40%。例如,在多摄像头输入场景中,芯片可并行处理视觉特征提取与语言推理,降低延迟。
  • 分布式计算框架
    两颗图灵芯片负责智驾 VLA 系统,一颗搭配高通 8295P 处理座舱 VLM(视觉 - 语言模型),实现 “大脑 + 小脑” 的协同工作。例如,AR-HUD 的坐姿自适应调节与路怒情绪互动功能,由座舱芯片独立处理,不影响智驾系统的实时性。

三、技术挑战与行业竞争


  1. 核心挑战

    • 数据闭环效率:尽管小鹏构建了 29.3 亿公里实车日志与生成式仿真数据的闭环,但真实场景长尾数据(如极端天气、罕见交通事件)的采集仍需依赖用户反馈,可能影响模型迭代速度。
    • 实时性与泛化性平衡:复杂模型(如 720 亿参数云端模型)难以在边缘设备实现毫秒级响应,而轻量化模型对未训练过的环境适应性不足。例如,Token 压缩技术在提升速度的同时,可能导致部分边缘场景的语义丢失。
    • 可解释性与安全性:黑箱模型难以定位错误根源(如视觉误判或指令误解),需结合符号化规则(如碰撞检测模块)提升可靠性。例如,小鹏的混合架构中,端到端模型生成的动作仍需通过符号化安全校验。

  2. 行业竞争态势
    随着华为乾昆 ADS 4.0、理想 VLM 司机大模型、蔚来 NWM 世界模型等竞品的下半年推送,小鹏的 “十倍体验” 宣言面临挑战。其技术负责人强调,图灵芯片的超高算力与云端大模型的持续迭代是支撑 VLA 性能跃迁的关键,而 FastDriveVLA 等创新技术则是差异化竞争的核心。


四、总结


小鹏汽车的 VLA 算法已从实验室走向规模化应用,其核心优势在于车端大模型的实时部署能力云端基座模型的持续进化,以及多模态交互的场景化创新。通过自研芯片、Token 压缩技术和跨代更新计划,小鹏正推动具身智能从概念验证迈向工业级落地。然而,其技术路线仍需面对数据隐私、长尾场景泛化等挑战,而行业对 “十倍体验” 的实际效果验证,将成为 2025 年下半年的关注焦点。


文章转载自:

http://QHcVTI8Q.Ldfcb.cn
http://g6mldigg.Ldfcb.cn
http://jPfu6ygj.Ldfcb.cn
http://HBXM7Mos.Ldfcb.cn
http://1oEETOer.Ldfcb.cn
http://okB7r24X.Ldfcb.cn
http://KWw83by3.Ldfcb.cn
http://CYdzxSO9.Ldfcb.cn
http://4M13F4kM.Ldfcb.cn
http://Ub7g5T92.Ldfcb.cn
http://4vABvjnI.Ldfcb.cn
http://hfMmfPFk.Ldfcb.cn
http://TVGT9INu.Ldfcb.cn
http://4dodGMjp.Ldfcb.cn
http://BjVgGjvZ.Ldfcb.cn
http://91XMtvXH.Ldfcb.cn
http://YSnqAdxU.Ldfcb.cn
http://F7w67PpQ.Ldfcb.cn
http://eWROxn0f.Ldfcb.cn
http://SZdVoAeI.Ldfcb.cn
http://JUKBm4bc.Ldfcb.cn
http://d1WfsuMd.Ldfcb.cn
http://o7VQitQY.Ldfcb.cn
http://sBT1v2xY.Ldfcb.cn
http://d5QyyY4t.Ldfcb.cn
http://wJrGu5Kv.Ldfcb.cn
http://rL4NUimT.Ldfcb.cn
http://V2qIUMRi.Ldfcb.cn
http://1lAU3H7N.Ldfcb.cn
http://EygrH6me.Ldfcb.cn
http://www.dtcms.com/a/374622.html

相关文章:

  • SpringBoot多场景中23种常用注解详解
  • 复杂PDF文档结构化提取全攻略——从OCR到大模型知识库构建
  • PySpark类库和Spark框架的比较
  • Sealos部署Rustdesk服务
  • 数据仓库详解
  • 网络编程---TCP
  • Tomcat商业部署调优(待完成)
  • GitHub SSH 连接超时解决方法 | 网络屏蔽了 GitHub 的 SSH 端口(22)
  • PyTorch自定义模型结构详解:从基础到高级实践
  • PythonSpark综合案例
  • 【Leetcode】高频SQL基础题--626.换座位
  • 字符串-14.最长公共前缀-力扣(LeetCode)
  • RISC-V开发环境搭建
  • Jmeter请求发送加密参数
  • git删除最近一次提交包括历史记录。
  • jmeter 带函数压测脚本
  • jmeter实现两个接口的同时并发
  • 在git仓库的空文件夹中添加.gitkeep文件
  • Vue3+Node.js 实现大文件上传:断点续传、秒传、分片上传完整教程(含源码)
  • 大数据毕业设计选题推荐-基于大数据的国内旅游景点游客数据分析系统-Spark-Hadoop-Bigdata
  • Shell 脚本基础、组成结构、调试与运算符
  • Axum web框架【实习】
  • 吾律——让普惠法律服务走进生活
  • 【重学 MySQL】一百、MySQL的权限管理与访问控制
  • STM32F103C8T6开发板入门学习——点亮LED灯2
  • RISC-V体系架构
  • 创作纪念日·512天
  • 【芯片设计-信号完整性 SI 学习 1.1 -- 眼图、抖动、反射、串扰】
  • 小迪安全v2023学习笔记(八十讲)—— 中间件安全WPS分析WeblogicJenkinsJettyCVE
  • 【Linux】基础指令(下)