VLA模型和世界模型知识总结
前言
本文主要对VLA模型和世界模型两种自动驾驶实现路径的相关知识进行总结,以便后续学习过程中查阅。
VLA模型
VLA(视觉-语言-行动模型)模型,是把视觉感知、语言理解和动作生成串联起来的一套方法。
其工作原理:
先通过视觉编码器,把摄像头识别到的画面转换成语义丰富的特征向量(如SigLIP、Dino V2/V3这类模型就是完成这项任务的)。接着,这些视觉特征会被“翻译”成一种类似语言的表征单元(token),并送入到一个大语言模型(LLM)中;
LLM经过多模态改造后,其任务不再只是生成文本,而是能够基于视觉信息进行如分析车道线状态、预判前方行人意图、评估不同驾驶策略合理性等更高层次的语义推理;
LLM的推理结果会被转化为如轨迹、速度等信息,从而驱动车辆执行具体的控制指令。
通俗理解就是:VLA让车辆先用语言描述清楚眼睛看到了什么,再用语言模型进行思考,最后把思考结果转化为行动。
这种方法的优势在于,语言层面天然适合进行抽象和长时序推理,也便于整合上下文信息和规则知识,使得从感知到决策的桥梁可以建立在更明确、更具可迁移性的语义表示之上。
因为语言模型擅长将零散信息组合成高层结论,VLA在遇到多种复杂场景时,理论上更容易进行"概念化"的判断,同时也更容易将人类规则、法规或场景说明以文本形式融入到训练与调优的流程中。
当然,想将视觉特征可靠地转换为LLM能够有效利用的token并不容易,有很多问题需要解决。视觉与语言之间的信息损失和对齐问题是一定要解决的;语言推理产生的结论也需要被严格约束在物理可行的动作范围内,否则就可能出现“想法很好”但“执行不安全”的情况。此外,LLM的推理开销、系统实时性以及决策的可解释性等都是需要解决的问题。虽然语言的抽象能力很强,但物理世界对控制精度和约束的要求极高,如何在语义抽象与精确控制之间建立可信赖的映射,更是VLA需要去攻克的。
VLA的优势在于其强大的语义理解能力,对复杂的社交互动和规则理解有天然优势,适合用较少的显式规则去捕捉场景中的行为意图。对于那些希望利用“数据和模型”将驾驶经验迁移到不同车型、不同城市的厂商而言,VLA的通
