当前位置：首页 > news >正文

从“看懂”到“行动”： VLM 与 VLA

news 2025/9/22 16:12:45

从“看懂”到“行动”： VLM 与 VLA

我们的目标是让机器（如自动驾驶汽车、机器人）能像人一样在物理世界中智能地行动。要实现这一目标，机器必须解决两个核心问题：

我看到了什么，当前情况是怎样的？ (Perception & Reasoning)
基于当前情况，我下一步该怎么做？ (Decision & Action)

VLM (视觉语言模型) 和 VLA (视觉语言动作模型) 正是分别解答这两个问题的关键技术。

第一层：VLM - 让机器拥有“带注释的眼睛”

VLM 的核心任务是将视觉信号（像素）与人类语言（语义）进行深度对齐，让机器不仅“看到”，更能“看懂”。

1. 起点：AI 如何“看”世界？—— 从像素到“词汇”

计算机看到的图片只是一堆像素矩阵（RGB值），它本身不包含任何意义。为了让 AI 理解，我们必须将这些原始信息转化成它能处理的“词汇”或“概念”，这个过程叫做嵌入 (Embedding)。

传统方法 (CNN): 卷积神经网络通过层层叠加的滤波器提取特征，比如从边缘、角点到物体的轮廓。但这是一种高度概括的、间接的理解方式。
现代核心技术 (Vision Transformer - ViT): Transformer是近年来 AI 领域的颠覆性技术。ViT 的做法更直接、更强大：
1. 图像分块 (Image Patching): 将一张图片像切披萨一样，切成若干个固定大小的小方块（Patches）。
2. “视觉词汇”化: 每个小方块被展平并线性映射成一个向量（一串数字），这个向量就成为了一个“视觉词汇 (Visual Token)”。

现在，一张完整的图片就变成了一系列“视觉词汇”组成的“句子”。

2. 核心机制：如何“理解”图像句子？—— 注意力机制 (Attention)

有了“视觉句子”，AI 如何理解其中哪些部分更重要？答案是注意力机制 (Attention Mechanism)。

工作原理: 注意力机制会计算句子中每个“词汇”与其他所有“词汇”之间的关联强度。当模型分析某个区域（某个 Patch）时，它会“特别关注”图像中与该区域最相关的其他部分。
举例: 当模型看到一个轮胎的 Patch 时，注意力机制会引导它高度关注车辆的其他部分（车灯、车窗），而不是背景里的树木或天空。这使得模型能够理解物体内部以及物体之间的结构关系，形成对场景的整体认知。

3. 终点：如何连接“看”与“说”？—— 多模态融合 (Multimodal Fusion)

VLM 的精髓在于，它不仅处理视觉，还同时处理语言。

语言的“词汇”化: 同样地，一个自然语言句子（如 “A cat is sitting on the mat”）也被分解成词汇 (Tokens)，每个词汇也通过 Embedding 变成一个向量。
进入“共同思考空间”: 模型将“视觉词汇”和“语言词汇”投影到一个共享的高维向量空间（Shared Embedding Space）中。在这个空间里，模型通过海量数据训练，学会了将“看起来像猫的像素集合”所对应的视觉向量，与“cat”这个词的语言向量拉到极近的位置。
VLM 的产出: 当你给 VLM 一张图，它内部已经将其转化为了富含上下文关系的视觉向量。此时你再提问（语言向量），模型就能在这个“共同思考空间”里进行检索、推理，并生成最匹配的答案（语言）。

VLM = (图像分块 + 语言分词) → 统一向量化 → 通过注意力机制理解各自上下文 → 在共享空间中对齐、融合 → 实现视觉问答、场景描述等深度理解任务。

第二层：VLA - 赋予机器“行动的灵魂”

VLA 的核心任务是在 VLM 理解世界的基础上，直接输出可执行的物理动作。

1. 范式革命：为何需要 VLA？—— 从“模块化”到“端到端”

传统自动驾驶系统像一个瀑布流，由多个独立模块串联而成：
感知模块 → 预测模块 → 规划模块 → 控制模块

弊端:
- 信息损失: 每个模块只输出下一个模块需要的信息，大量原始的、丰富的细节（如行人微妙的身体姿态）在传递中丢失了。
- 错误累积: 感知模块的一个小错误，可能会在后续模块中被不断放大。
- 协同困难: 各个模块独立优化，难以实现全局最优。

VLA 采用的是端到端 (End-to-End) 架构：

工作原理: 它是一个单一的、庞大的神经网络。输入端是传感器原始数据（如摄像头图像），输出端直接就是车辆的驾驶指令（如方向盘转角、加速度）。
类比: 传统方法像一个严格按照菜谱分步做菜的新手；端到端模型则像一位经验丰富的大厨，他看一眼食材，就能凭借直觉和经验，行云流水地完成整道菜。
优势: VLM 提供的强大世界理解能力，使得这种“直觉”成为可能。模型可以直接从像素中，挖掘出与最终驾驶决策最相关的深层联系，避免了中间环节的信息损失和错误累积。

2. 核心技术：如何做出“高质量决策”？—— 概率式动作生成

现实世界充满不确定性。路口等待的行人，可能向前冲，也可能继续等待。因此，只预测一种“最优路径”是极其危险的。

问题: 如何生成既安全又覆盖多种可能性的动作？
前沿方案：扩散模型 (Diffusion Models)
1. 起点 (加噪): 想象一下，我们有一组专家司机开出的“完美轨迹”。我们不断地往这些轨迹上添加随机“噪声”，直到它们变成完全无序的混乱状态。模型学习的是这个“从有序到无序”的逆过程。
2. 终点 (去噪生成): 在真实决策时，模型从一堆完全随机的噪声点出发，在 VLM 对当前环境的理解（例如，“前方有行人，路况湿滑”）的引导 (Guidance) 下，一步步地将噪声去除，最终“雕刻”出一条或多条清晰、平滑、且符合当前路况的驾驶轨迹。
3. 核心优势 (多模态预测): 由于去噪过程的随机性，每次运行，模型都可以生成一条略有不同但同样合理的轨迹。这使得 VLA 能够同时输出多种可能性（如“方案A：减速让行”、“方案B：轻微绕行”），并评估各自的概率，从而在不确定性中做出更鲁棒、更安全的决策。

VLA = VLM 的深度理解能力 + 端到端架构 + 概率式动作生成器 (如扩散模型)。它直接将“看懂了什么”转化为“具体怎么动”，并能同时考虑多种未来可能性。

VLM 是“大脑皮层”: 负责高级认知、推理、理解和语言。它告诉你：“那是一个红灯，旁边有个推婴儿车的行人正在等待。”
VLA 是“小脑+运动神经”: 负责将大脑的意图，转化为精确、协调的肌肉动作。它接收到大脑的指令后，立刻计算出需要踩下多深的刹车、保持多大的方向盘角度，才能平稳地在停车线前停下。

VLA 的终极形态，将是在内部构建一个可以模拟物理世界的“沙盒”，即世界模型。在做出实际动作前，AI 可以在这个脑内世界里“预演”不同决策的后果（“如果我加速会怎样？如果我变道会怎样？”），从而选择最优策略。这是实现通用人工智能 (AGI) 和完全自主机器人的关键一步。

VLA 从“理解”到“执行”的技术跨越

如果说 VLM 是让机器拥有了聪明的“眼睛和大脑”，那么 VLA 就是为这台机器装上了反应敏捷的“小脑和四肢”。VLA 的核心使命，是将 VLM 产生的丰富世界理解，转化为在物理世界中精准、合理、安全的动作序列。

下面，我们将从 “为何要用”、“如何构成”、“怎样行动” 和 “如何学习” 四个层面，彻底解构 VLA。

一、 VLA 的核心思想：端到端 (End-to-End) 的行动哲学

VLA 的出现，首先是一场思想上的革命，即从“模块化”转向“端到端”。

传统模块化系统 (The Assembly Line):
- 流程: 感知 → 预测 → 规划 → 控制。这就像一条汽车装配线，每个工位（模块）只负责自己的任务，然后将半成品交给下一个人。
- 弊端: 感知模块识别出车辆后，可能只传递“一辆车，位置X，速度Y”给预测模块，而这辆车是老旧的货车还是崭新的跑车、司机是否在左顾右盼等丰富的视觉细节，在传递过程中被大量丢失。这种信息损耗导致后续的决策是基于一个被“阉割”过的世界信息做出的。
VLA 端到端系统 (The Master Artisan):
- 流程: 传感器输入 → VLA 模型 → 驾驶指令。这更像一位经验丰富的工匠，他从观察一块木料（原始传感器数据）开始，脑海中就已经构思好了最终成品的样子，并直接动手（输出驾驶指令），整个过程一气呵成。
- 核心优势: VLA 能够学习到像素和最终动作之间那些难以用规则描述的隐性关联。比如，它能直接从“前方车辆刹车灯周围像素的微妙闪烁”直接关联到“我应该以何种平滑曲线减速”这一动作，而无需经过“识别刹车灯→判断减速意图→规划减速路径→执行刹车”的僵硬流程。

简而言之，端到端让决策过程更直接、信息保真度更高，从而实现更像“人类直觉”的驾驶行为。

VLA 的内部构造：一个“决策大脑”是如何运作的？

一个典型的 VLA 模型，虽然表面看是一个整体，但其内部依然有清晰的逻辑分工，我们可以将其理解为三大部件：

[输入感知] → [编码与推理核心] → [动作解码器]

输入感知层 (Sensory Input):
- 这是 VLA 的“感官”，负责接收最原始的世界数据。主要是来自多个摄像头的高清视频流，有时也会融合激光雷达 (LiDAR) 的点云数据、毫米波雷达信号等，力求 360 度无死角地感知环境。
编码与推理核心 (Encoder & Reasoning Core):
- 这是 VLA 的“大脑”，其核心通常就是一个强大的 VLM。
- 视觉编码器 (Vision Encoder): 利用 Vision Transformer (ViT) 将输入的视频流分解成时序的“视觉词汇”序列，并通过注意力机制理解画面中的物体、场景以及它们的动态变化。
- 多模态融合: 在这里，纯粹的视觉信息会与其他关键信息进行融合，形成更全面的“情境认知”。这些信息包括：
  - 语言指令: 例如，用户通过语音说“在下一个路口左转”或“帮我找一个停车位”。
  - 自身状态: 车辆当前的速度、加速度、方向盘角度等。
  - 导航信息: 高精地图提供的道路结构、限速、交通规则等。
- 融合后的信息形成一个高维的“思想向量 (Thought Vector)”，它代表了 VLA 在这一瞬间对“我是谁、我在哪、周围发生了什么、我的目标是什么”的全部理解。
动作解码器 (Action Decoder):
- 这是 VLA 的“小脑和神经系统”，是整个架构的点睛之笔。它的任务是将抽象的“思想向量”翻译成具体、连续、可执行的物理动作。这是 VLA 最具挑战也最关键的部分。

解码“行动”：如何生成一连串驾驶指令？

动作解码器的主流技术，经历了从简单到复杂、从确定性到概率性的演进。

方法一 (早期探索): 直接回归 (Direct Regression)
- 做法: 将“思想向量”直接通过一个简单的全连接神经网络，输出一个确定的数值，如“方向盘转 15.3 度，油门踩 25%”。
- 缺点: 过于僵硬，无法应对现实世界的不确定性。它只能给出一个“它认为最优”的答案，如果判断失误，后果不堪设想。
方法二 (序列化生成): 自回归模型 (Autoregressive Model - “动作GPT”)
- 思想: 将复杂的驾驶行为分解成一连串的动作“词汇”，例如 [token_steer_5, token_accel_10, token_hold_0.5s, ...]。
- 做法: 像 GPT 生成文本一样，模型根据当前的“思想向量”和已经生成的动作，预测下一个最可能的动作词汇。
- 优点: 能够生成连贯、复杂的长时序动作序列。
- 缺点: 容易产生“一步错，步步错”的累积误差，且本质上还是在寻找一条单一的最优路径。
方法三 (前沿主流): 扩散模型 (Diffusion Model - “概率式雕塑家”)
- 思想: 与其预测一个“唯一”的未来，不如生成一个“充满可能性的未来分布”，然后从中选择。
- 做法:
  1. 从混沌开始: 模型从一堆完全随机的动作点（代表无限的可能性和完全的不确定性）出发。
  2. 在理解中雕琢: 以 VLA 大脑产生的“思想向量”作为强力引导，模型开始一轮轮地“去噪”，逐步将随机点向“合理”和“安全”的轨迹上约束。就像一位雕塑家，看着模特的脸（环境理解），将一块粗糙的石头（随机噪声）雕刻成精美的人像（最终轨迹）。
  3. 输出多种未来: 由于去噪过程的内在随机性，每次运行都可以生成略有不同但都同样合理的轨迹方案。例如，面对前方慢车，它可以同时生成“方案A：保持安全距离跟车”和“方案B：打灯、加速、变道超车”两条轨迹，并附上各自的置信度。
- 核心优势: 这种多模态预测 (Multi-modal Prediction) 能力完美契合了现实驾驶的复杂性和不确定性，为决策提供了极大的安全冗余和灵活性。

训练 VLA：AI 如何从“新手”成长为“老司机”？

如此强大的模型，需要通过海量数据进行训练，主要方式有两种：

核心基础：模仿学习 (Imitation Learning)
- 也称为行为克隆 (Behavioral Cloning)。这是 VLA 最主要的训练方式。
- 流程: 收集数百万甚至上亿公里的人类专家驾驶数据，这些数据包含了在各种天气、路况和交通场景下的视频和对应的驾驶操作（方向盘、油门、刹车）。
- 目标: VLA 模型的目标就是，当输入和人类司机当时看到的画面相同时，其输出的驾驶指令要与人类司机的操作无限接近。本质上，就是让 AI 模仿成千上万个“老司机”的行为。
未来方向：强化学习 (Reinforcement Learning)
- 流程: 在高度逼真的模拟环境中，让 VLA “自由发挥”。通过设置奖励和惩罚机制（如：平稳驾驶得奖励、发生碰撞受惩罚、高效到达目的地得高奖励），让 AI 在不断的试错中，自我探索和学习，从而发现可能比人类更优的驾驶策略。
- 挑战: 模拟环境与现实世界的差距 (Sim-to-Real Gap) 以及安全验证是当前的主要难题。

VLA 并非单一技术，而是一个集大成的系统。它以端到端为核心哲学，采用 “编码-解码” 的内部架构，利用 VLM 的强大能力对世界进行深度理解和推理，最终通过 扩散模型 等先进的生成技术，将抽象的理解转化为具体的、概率性的、多模态的动作序列。而这一切，都建立在对海量人类专家数据进行 模仿学习 的基础之上。

查看全文

http://www.dtcms.com/a/254614.html