当前位置：首页 > news >正文

VLA模型和世界模型知识总结

news 2025/11/10 14:28:03

前言

本文主要对VLA模型和世界模型两种自动驾驶实现路径的相关知识进行总结，以便后续学习过程中查阅。

VLA模型

VLA（视觉-语言-行动模型）模型，是把视觉感知、语言理解和动作生成串联起来的一套方法。
其工作原理：
先通过视觉编码器，把摄像头识别到的画面转换成语义丰富的特征向量（如SigLIP、Dino V2/V3这类模型就是完成这项任务的）。接着，这些视觉特征会被“翻译”成一种类似语言的表征单元（token），并送入到一个大语言模型（LLM）中；
LLM经过多模态改造后，其任务不再只是生成文本，而是能够基于视觉信息进行如分析车道线状态、预判前方行人意图、评估不同驾驶策略合理性等更高层次的语义推理；
LLM的推理结果会被转化为如轨迹、速度等信息，从而驱动车辆执行具体的控制指令。
通俗理解就是：VLA让车辆先用语言描述清楚眼睛看到了什么，再用语言模型进行思考，最后把思考结果转化为行动。
这种方法的优势在于，语言层面天然适合进行抽象和长时序推理，也便于整合上下文信息和规则知识，使得从感知到决策的桥梁可以建立在更明确、更具可迁移性的语义表示之上。
因为语言模型擅长将零散信息组合成高层结论，VLA在遇到多种复杂场景时，理论上更容易进行"概念化"的判断，同时也更容易将人类规则、法规或场景说明以文本形式融入到训练与调优的流程中。
当然，想将视觉特征可靠地转换为LLM能够有效利用的token并不容易，有很多问题需要解决。视觉与语言之间的信息损失和对齐问题是一定要解决的；语言推理产生的结论也需要被严格约束在物理可行的动作范围内，否则就可能出现“想法很好”但“执行不安全”的情况。此外，LLM的推理开销、系统实时性以及决策的可解释性等都是需要解决的问题。虽然语言的抽象能力很强，但物理世界对控制精度和约束的要求极高，如何在语义抽象与精确控制之间建立可信赖的映射，更是VLA需要去攻克的。
VLA的优势在于其强大的语义理解能力，对复杂的社交互动和规则理解有天然优势，适合用较少的显式规则去捕捉场景中的行为意图。对于那些希望利用“数据和模型”将驾驶经验迁移到不同车型、不同城市的厂商而言，VLA的通

查看全文

http://www.dtcms.com/a/590529.html