从“看懂”到“行动”: VLM 与 VLA
从“看懂”到“行动”: VLM 与 VLA
我们的目标是让机器(如自动驾驶汽车、机器人)能像人一样在物理世界中智能地行动。要实现这一目标,机器必须解决两个核心问题:
- 我看到了什么,当前情况是怎样的? (Perception & Reasoning)
- 基于当前情况,我下一步该怎么做? (Decision & Action)
VLM (视觉语言模型) 和 VLA (视觉语言动作模型) 正是分别解答这两个问题的关键技术。
第一层:VLM - 让机器拥有“带注释的眼睛”
VLM 的核心任务是将视觉信号(像素)与人类语言(语义)进行深度对齐,让机器不仅“看到”,更能“看懂”。
1. 起点:AI 如何“看”世界?—— 从像素到“词汇”
计算机看到的图片只是一堆像素矩阵(RGB值),它本身不包含任何意义。为了让 AI 理解,我们必须将这些原始信息转化成它能处理的“词汇”或“概念”,这个过程叫做嵌入 (Embedding)。
- 传统方法 (CNN): 卷积神经网络通过层层叠加的滤波器提取特征,比如从边缘、角点到物体的轮廓。但这是一种高度概括的、间接的理解方式。
- 现代核心技术 (Vision Transformer - ViT): Transformer是近年来 AI 领域的颠覆性技术。ViT 的做法更直接、更强大:
- 图像分块 (Image Patching): 将一张图片像切披萨一样,切成若干个固定大小的小方块(Patches)。
- “视觉词汇”化: 每个小方块被展平并线性映射成一个向量(一串数字),这个向量就成为了一个“视觉词汇 (Visual Token)”。
现在,一张完整的图片就变成了一系列“视觉词汇”组成的“句子”。
2. 核心机制:如何“理解”图像句子?—— 注意力机制 (Attention)
有了“视觉句子”,AI 如何理解其中哪些部分更重要?答案是注意力机制 (Attention Mechanism)。
- 工作原理: 注意力机制会计算句子中每个“词汇”与其他所有“词汇”之间的关联强度。当模型分析某个区域(某个 Patch)时,它会“特别关注”图像中与该区域最相关的其他部分。
- 举例: 当模型看到一个轮胎的 Patch 时,注意力机制会引导它高度关注车辆的其他部分(车灯、车窗),而不是背景里的树木或天空。这使得模型能够理解物体内部以及物体之间的结构关系,形成对场景的整体认知。
3. 终点:如何连接“看”与“说”?—— 多模态融合 (Multimodal Fusion)
VLM 的精髓在于,它不仅处理视觉,还同时处理语言。
- 语言的“词汇”化: 同样地,一个自然语言句子(如 “A cat is sitting on the mat”)也被分解成词汇 (Tokens),每个词汇也通过 Embedding 变成一个向量。
- 进入“共同思考空间”: 模型将“视觉词汇”和“语言词汇”投影到一个共享的高维向量空间(Shared Embedding Space)中。在这个空间里,模型通过海量数据训练,学会了将“看起来像猫的像素集合”所对应的视觉向量,与“cat”这个词的语言向量拉到极近的位置。
- VLM 的产出: 当你给 VLM 一张图,它内部已经将其转化为了富含上下文关系的视觉向量。此时你再提问(语言向量),模型就能在这个“共同思考空间”里进行检索、推理,并生成最匹配的答案(语言)。
VLM = (图像分块 + 语言分词) → 统一向量化 → 通过注意力机制理解各自上下文 → 在共享空间中对齐、融合 → 实现视觉问答、场景描述等深度理解任务。
第二层:VLA - 赋予机器“行动的灵魂”
VLA 的核心任务是在 VLM 理解世界的基础上,直接输出可执行的物理动作。
1. 范式革命:为何需要 VLA?—— 从“模块化”到“端到端”
传统自动驾驶系统像一个瀑布流,由多个独立模块串联而成:
感知模块 → 预测模块 → 规划模块 → 控制模块
- 弊端:
- 信息损失: 每个模块只输出下一个模块需要的信息,大量原始的、丰富的细节(如行人微妙的身体姿态)在传递中丢失了。
- 错误累积: 感知模块的一个小错误,可能会在后续模块中被不断放大。
- 协同困难: 各个模块独立优化,难以实现全局最优。
VLA 采用的是端到端 (End-to-End) 架构:
- 工作原理: 它是一个单一的、庞大的神经网络。输入端是传感器原始数据(如摄像头图像),输出端直接就是车辆的驾驶指令(如方向盘转角、加速度)。
- 类比: 传统方法像一个严格按照菜谱分步做菜的新手;端到端模型则像一位经验丰富的大厨,他看一眼食材,就能凭借直觉和经验,行云流水地完成整道菜。
- 优势: VLM 提供的强大世界理解能力,使得这种“直觉”成为可能。模型可以直接从像素中,挖掘出与最终驾驶决策最相关的深层联系,避免了中间环节的信息损失和错误累积。
2. 核心技术:如何做出“高质量决策”?—— 概率式动作生成
现实世界充满不确定性。路口等待的行人,可能向前冲,也可能继续等待。因此,只预测一种“最优路径”是极其危险的。
- 问题: 如何生成既安全又覆盖多种可能性的动作?
- 前沿方案:扩散模型 (Diffusion Models)
- 起点 (加噪): 想象一下,我们有一组专家司机开出的“完美轨迹”。我们不断地往这些轨迹上添加随机“噪声”,直到它们变成完全无序的混乱状态。模型学习的是这个“从有序到无序”的逆过程。
- 终点 (去噪生成): 在真实决策时,模型从一堆完全随机的噪声点出发,在 VLM 对当前环境的理解(例如,“前方有行人,路况湿滑”)的引导 (Guidance) 下,一步步地将噪声去除,最终“雕刻”出一条或多条清晰、平滑、且符合当前路况的驾驶轨迹。
- 核心优势 (多模态预测): 由于去噪过程的随机性,每次运行,模型都可以生成一条略有不同但同样合理的轨迹。这使得 VLA 能够同时输出多种可能性(如“方案A:减速让行”、“方案B:轻微绕行”),并评估各自的概率,从而在不确定性中做出更鲁棒、更安全的决策。
VLA = VLM 的深度理解能力 + 端到端架构 + 概率式动作生成器 (如扩散模型)。它直接将“看懂了什么”转化为“具体怎么动”,并能同时考虑多种未来可能性。
- VLM 是“大脑皮层”: 负责高级认知、推理、理解和语言。它告诉你:“那是一个红灯,旁边有个推婴儿车的行人正在等待。”
- VLA 是“小脑+运动神经”: 负责将大脑的意图,转化为精确、协调的肌肉动作。它接收到大脑的指令后,立刻计算出需要踩下多深的刹车、保持多大的方向盘角度,才能平稳地在停车线前停下。
VLA 的终极形态,将是在内部构建一个可以模拟物理世界的“沙盒”,即世界模型。在做出实际动作前,AI 可以在这个脑内世界里“预演”不同决策的后果(“如果我加速会怎样?如果我变道会怎样?”),从而选择最优策略。这是实现通用人工智能 (AGI) 和完全自主机器人的关键一步。
VLA 从“理解”到“执行”的技术跨越
如果说 VLM 是让机器拥有了聪明的“眼睛和大脑”,那么 VLA 就是为这台机器装上了反应敏捷的“小脑和四肢”。VLA 的核心使命,是将 VLM 产生的丰富世界理解,转化为在物理世界中精准、合理、安全的动作序列。
下面,我们将从 “为何要用”、“如何构成”、“怎样行动” 和 “如何学习” 四个层面,彻底解构 VLA。
一、 VLA 的核心思想:端到端 (End-to-End) 的行动哲学
VLA 的出现,首先是一场思想上的革命,即从“模块化”转向“端到端”。
-
传统模块化系统 (The Assembly Line):
- 流程:
感知 → 预测 → 规划 → 控制
。这就像一条汽车装配线,每个工位(模块)只负责自己的任务,然后将半成品交给下一个人。 - 弊端: 感知模块识别出车辆后,可能只传递“一辆车,位置X,速度Y”给预测模块,而这辆车是老旧的货车还是崭新的跑车、司机是否在左顾右盼等丰富的视觉细节,在传递过程中被大量丢失。这种信息损耗导致后续的决策是基于一个被“阉割”过的世界信息做出的。
- 流程:
-
VLA 端到端系统 (The Master Artisan):
- 流程:
传感器输入 → VLA 模型 → 驾驶指令
。这更像一位经验丰富的工匠,他从观察一块木料(原始传感器数据)开始,脑海中就已经构思好了最终成品的样子,并直接动手(输出驾驶指令),整个过程一气呵成。 - 核心优势: VLA 能够学习到像素和最终动作之间那些难以用规则描述的隐性关联。比如,它能直接从“前方车辆刹车灯周围像素的微妙闪烁”直接关联到“我应该以何种平滑曲线减速”这一动作,而无需经过“识别刹车灯→判断减速意图→规划减速路径→执行刹车”的僵硬流程。
- 流程:
简而言之,端到端让决策过程更直接、信息保真度更高,从而实现更像“人类直觉”的驾驶行为。
VLA 的内部构造:一个“决策大脑”是如何运作的?
一个典型的 VLA 模型,虽然表面看是一个整体,但其内部依然有清晰的逻辑分工,我们可以将其理解为三大部件:
[输入感知] → [编码与推理核心] → [动作解码器]
-
输入感知层 (Sensory Input):
- 这是 VLA 的“感官”,负责接收最原始的世界数据。主要是来自多个摄像头的高清视频流,有时也会融合激光雷达 (LiDAR) 的点云数据、毫米波雷达信号等,力求 360 度无死角地感知环境。
-
编码与推理核心 (Encoder & Reasoning Core):
- 这是 VLA 的“大脑”,其核心通常就是一个强大的 VLM。
- 视觉编码器 (Vision Encoder): 利用 Vision Transformer (ViT) 将输入的视频流分解成时序的“视觉词汇”序列,并通过注意力机制理解画面中的物体、场景以及它们的动态变化。
- 多模态融合: 在这里,纯粹的视觉信息会与其他关键信息进行融合,形成更全面的“情境认知”。这些信息包括:
- 语言指令: 例如,用户通过语音说“在下一个路口左转”或“帮我找一个停车位”。
- 自身状态: 车辆当前的速度、加速度、方向盘角度等。
- 导航信息: 高精地图提供的道路结构、限速、交通规则等。
- 融合后的信息形成一个高维的“思想向量 (Thought Vector)”,它代表了 VLA 在这一瞬间对“我是谁、我在哪、周围发生了什么、我的目标是什么”的全部理解。
-
动作解码器 (Action Decoder):
- 这是 VLA 的“小脑和神经系统”,是整个架构的点睛之笔。它的任务是将抽象的“思想向量”翻译成具体、连续、可执行的物理动作。这是 VLA 最具挑战也最关键的部分。
解码“行动”:如何生成一连串驾驶指令?
动作解码器的主流技术,经历了从简单到复杂、从确定性到概率性的演进。
-
方法一 (早期探索): 直接回归 (Direct Regression)
- 做法: 将“思想向量”直接通过一个简单的全连接神经网络,输出一个确定的数值,如“方向盘转 15.3 度,油门踩 25%”。
- 缺点: 过于僵硬,无法应对现实世界的不确定性。它只能给出一个“它认为最优”的答案,如果判断失误,后果不堪设想。
-
方法二 (序列化生成): 自回归模型 (Autoregressive Model - “动作GPT”)
- 思想: 将复杂的驾驶行为分解成一连串的动作“词汇”,例如
[token_steer_5, token_accel_10, token_hold_0.5s, ...]
。 - 做法: 像 GPT 生成文本一样,模型根据当前的“思想向量”和已经生成的动作,预测下一个最可能的动作词汇。
- 优点: 能够生成连贯、复杂的长时序动作序列。
- 缺点: 容易产生“一步错,步步错”的累积误差,且本质上还是在寻找一条单一的最优路径。
- 思想: 将复杂的驾驶行为分解成一连串的动作“词汇”,例如
-
方法三 (前沿主流): 扩散模型 (Diffusion Model - “概率式雕塑家”)
- 思想: 与其预测一个“唯一”的未来,不如生成一个“充满可能性的未来分布”,然后从中选择。
- 做法:
- 从混沌开始: 模型从一堆完全随机的动作点(代表无限的可能性和完全的不确定性)出发。
- 在理解中雕琢: 以 VLA 大脑产生的“思想向量”作为强力引导,模型开始一轮轮地“去噪”,逐步将随机点向“合理”和“安全”的轨迹上约束。就像一位雕塑家,看着模特的脸(环境理解),将一块粗糙的石头(随机噪声)雕刻成精美的人像(最终轨迹)。
- 输出多种未来: 由于去噪过程的内在随机性,每次运行都可以生成略有不同但都同样合理的轨迹方案。例如,面对前方慢车,它可以同时生成“方案A:保持安全距离跟车”和“方案B:打灯、加速、变道超车”两条轨迹,并附上各自的置信度。
- 核心优势: 这种多模态预测 (Multi-modal Prediction) 能力完美契合了现实驾驶的复杂性和不确定性,为决策提供了极大的安全冗余和灵活性。
训练 VLA:AI 如何从“新手”成长为“老司机”?
如此强大的模型,需要通过海量数据进行训练,主要方式有两种:
-
核心基础:模仿学习 (Imitation Learning)
- 也称为行为克隆 (Behavioral Cloning)。这是 VLA 最主要的训练方式。
- 流程: 收集数百万甚至上亿公里的人类专家驾驶数据,这些数据包含了在各种天气、路况和交通场景下的视频和对应的驾驶操作(方向盘、油门、刹车)。
- 目标: VLA 模型的目标就是,当输入和人类司机当时看到的画面相同时,其输出的驾驶指令要与人类司机的操作无限接近。本质上,就是让 AI 模仿成千上万个“老司机”的行为。
-
未来方向:强化学习 (Reinforcement Learning)
- 流程: 在高度逼真的模拟环境中,让 VLA “自由发挥”。通过设置奖励和惩罚机制(如:平稳驾驶得奖励、发生碰撞受惩罚、高效到达目的地得高奖励),让 AI 在不断的试错中,自我探索和学习,从而发现可能比人类更优的驾驶策略。
- 挑战: 模拟环境与现实世界的差距 (Sim-to-Real Gap) 以及安全验证是当前的主要难题。
VLA 并非单一技术,而是一个集大成的系统。它以端到端为核心哲学,采用 “编码-解码” 的内部架构,利用 VLM 的强大能力对世界进行深度理解和推理,最终通过 扩散模型 等先进的生成技术,将抽象的理解转化为具体的、概率性的、多模态的动作序列。而这一切,都建立在对海量人类专家数据进行 模仿学习 的基础之上。