当前位置：首页 > news >正文

51c大模型~合集150

news 2025/7/7 5:42:29

我自己的原文哦~ https://blog.51cto.com/whaosoft/14034001

#原来Scaling Law还能被优化

Meta这招省token又提效

2017 年，一篇《Attention Is All You Need》论文成为 AI 发展的一个重要分水岭，其中提出的 Transformer 依然是现今主流语言模型的基础范式。尤其是在基于 Transformer 的语言模型的 Scaling Law 得到实验验证后，AI 领域的发展更是进入了快车道。

现如今，这篇论文的引用量正向 19 万冲刺，而 Transformer 和注意力机制本身也已经历了很多改进和创新，比如我们前段时间报道过的「Multi-Token Attention」和「Multi-matrix Factorization Attention」等。

随着 AI 的不断发展，现如今的一个重要挑战是如何获得足够多高质量的 token。又或者，该如何更高效地利用这些 token？为此，还必须对 Transformer 进行进一步的升级改造。

近日，Meta 的一篇论文公布了他们在这方面取得的一个新进展，提出了一种旋转不变型三线性注意力机制，并证明其表示能力与 2-simplicial Transformer 相当。更重要的是，它的表现甚至足以改变 Scaling Law 中的系数。Meta 也用 Triton 实现了这种注意力机制。

该研究基于 RoPE 向三线性函数的泛化；而 2-simplicial Transformer 则源自 2019 年 Clift et al. 的研究《Logic and the 2-Simplicial Transformer》，其中将 Transformer 的点积注意力机制泛化到了三线性形式。

论文标题：Fast and Simplex: 2-Simplicial Attention in Triton

论文地址：https://arxiv.org/pdf/2507.02754.pdf

他们进一步证明，在有限的 token 预算下，2-simplicial Transformer 的扩展性优于 Transformer。

此外，他们的实验还表明，2-simplicial Transformer 相对于 Transformer 具有更有利的参数数量 scaling 指数。这表明，与 Chinchilla scaling 不同，有可能以比 2-simplicial Transformer 的参数增长更慢的速度增加 token 数量。

研究结果表明，在 token 约束下运行时，与点积注意力机制 Transformer 相比，2-simplicial Transformer 可以更有效地逼近自然语言的不可约熵。

神经 Scaling Law 概述

要理解这项研究的意义，首先需要了解一下 Scaling Law。

简单来说，就是损失 L 会随模型参数总数 N 和 token 数量 D 呈幂律衰减：

其中，第一项 E 通常被描述为不可约损失，对应于自然文本的熵。第二项描述了这样一个事实：具有 N 个参数的模型的表现达不到理想的生成过程。第三项则对应于这样一个事实：我们仅使用有限的数据样本进行训练，并且没有将模型训练到收敛。

理论上，当 N → ∞ 且 D → ∞ 时，大型语言模型应该接近底层文本分布的不可约损失 E。

对于给定的计算预算 C，其中 F LOP s (N, D) = C，可以将最佳参数数量表示为 Nopt ∝ C a，将最佳数据集大小表示为 Dopt ∝ C b。Hoffmann 等人 (2022) 的作者进行了多项实验，并将参数函数拟合到损失函数中，以估计指数 a 和 b：多种不同的方法证实，a 大约为 0.49，b 大约为 0.5。这引出了 Hoffmann 等人 (2022) 的核心论点：必须根据模型大小按比例缩放 token 数量。

对于给定的计算预算 C，其中 FLOPs (N, D) = C，可以将最佳参数数量表示为 N_opt ∝ C^a，将最佳数据集大小表示为 D_opt ∝ C^b。Hoffmann et al. (2022) 进行了多次实验，并根据损失拟合了参数函数，以估计指数 a 和 b。

结果，通过多种不同方法发现：a 约为 0.49，b 约为 0.5。

如此，便引出了 Hoffmann et al. (2022) 的一个核心论点：必须根据模型大小按比例扩展 token 数量。

但是，正如前面讨论的那样，足够高质量且足够数量的 token 是预训练扩展的新瓶颈，因此需要探索替代的训练算法和架构。另一方面，最近的研究表明，之前文献中提出的大多数建模和优化技术仅仅改变了误差（偏移了 E），并没有从根本上改变幂律中的指数。谷歌 DeepMind 的研究者 Katie Everett 对此进行过精彩的讨论：

https://x.com/_katieeverett/status/1925665335727808651

2-simplicial Transformer

2-simplicial Transformer 由 Clift et al. (2019) 提出，他们将点积注意力机制从双线性扩展为三线性形式，也就是从 1-simplex 扩展成了 2-simplex。

先来看看标准的注意力机制：

其中，每一项都是点积

。

然后，通过逐行 softmax 运算将注意力分数（logit）转换为概率权重：

注意力层的最终输出是根据这些注意力分数对这些值进行线性组合得到的

。

Clift et al. (2019) 的 2-simplicial Transformer 论文将其推广到三线性积，其中有两个额外的键和值投射矩阵 W_K′ 和 W_V′，从而得到 K′ = XW_K′ 和 V′ = XW_V′。然后，2-simplicial Transformer 的注意力 logit 由 Q、K 和 K′ 的三线性积给出，从而得到以下三阶张量：

从而注意力张量变为：

注意力运算的最终输出定义为：

其中

表示两个向量的元素级 Hadamard 积。2-simplicial Transformer 的伪代码如算法 1 所示。注意，公式 5 不包含 RoPE 等任何位置编码。

基于行列式的三线性形式

Su et al., 2024 提出 RoPE 时，是想将其作为一种用于 Transformer 语言模型的序列位置信息捕获方法。RoPE 对查询 q_i 和键 k_j 应用位置相关的旋转，使得点积 <q_i, K_j> 是相对距离 i-j 的函数。特别需要注意的是，点积对于正交变换 R 具有不变性：

这对于 RoPE 至关重要，因为对于同一位置 i 相同的查询 q_i 和键 k_i，我们期望其点积不会因基于位置的旋转而发生变化。请注意，(5) 式中定义的三线性形式并非是旋转不变，并且对 q_i 、k_i 和 k′_i 进行相同的旋转不再保留内积。因此，为了将 RoPE 泛化到 2-simplicial 注意力模型，探索其他具有旋转不变性的双线性和三线性形式至关重要。

而 Meta 的这个团队注意到，以下函数也具有旋转不变性：

可以使用带符号的行列式运算

来计算 A^(det) ∈ ℝ^n×n×n。对于任意向量 q，令 q^(l) = q = q [3 (l - 1) : 3l] 为其第 l 个大小为 3 的块。其 logit 定义为：

由于公式 8 根据 Sarrus 规则包含 2 个点积项，因此需要修改算法 1，使用 2 个 einsum 而不是第 2 行中的 1 个。最终的注意力权重 S 是通过对上述 logit 应用 softmax 函数来计算的，类似于公式 6。然后，token i 的输出是值向量的加权和，如公式 7 所示。

定理：对于任意输入大小 n 和输入范围 m = n^{O (1)}，存在一个具有单个注意力头的 Transformer 架构，其 logit 计算方式如公式 (9) 所示，注意力头维度为 d = 7，使得对于所有 X ∈ [M]^N，如果

，则 Transformer 对元素 x_i 的输出为 1，否则为 0。

对该定理的证明请见原论文附录。

模型设计

由于 2-simplicial 注意力在序列长度 n 上的扩展复杂度为 O (n^3)，因此将其应用于整个序列是不切实际的。该团队的做法是将其参数化为 O (n× w_1 × w_2)，其中 w_1 和 w_2 定义的是序列上滑动窗口的维度。每个查询向量 Q_i 会关注 w_1 个 K 键和 w_2 个 K′ 键的局部区域，从而减轻计算负担。该团队系统地评估了 w_1 和 w_2 的各种配置，以确定计算效率和模型性能之间的最佳平衡点（见表 1）。

对于因果点积注意力机制，长度为 n 的序列的复杂度由下式给出：

其中 n 是序列长度。这涉及两次矩阵乘法：一次用于 Q@K，一次用于 P@V，每次乘法每个元素都需要两次浮点运算。因果掩码使其能够跳过 1/2 的计算。

相比之下，以 w_1 和 w_2 为参数的 2-simplicial 注意力机制的复杂度表示为：

其复杂度的增长来源是三线性 einsum 运算，与标准点积注意力机制相比，它需要进行一次额外的乘法运算。

该团队选择窗口大小为 (512, 32)，以平衡延迟和质量。在此配置下，2-simplicial 注意力机制的计算复杂度与 48k 上下文长度的点积注意力机制相当。

图 2 给出了一个实现。因此，像在 Flash 注意力机制中那样平铺式查询 Q 会导致计算吞吐量较低。受 Native Sparse Attention 的启发，Meta 该团队采用的模型架构利用了较高 (64) 的分组查询注意力 (GQA) 比率。这种方法能够沿着查询头高效地平铺，确保密集计算，并消除昂贵的逐元素掩码。

该团队还引入了一系列针对 2-simplicial 注意力的核优化，这些优化基于使用在线 softmax 的 Flash Attention。详见原论文。下面来重点看看实验表现。

实验与结果

这个团队训练了一系列 MoE 模型，其参数范围从 1B 活动参数和 57B 总参数到 3.5B 活动参数和 176B 总参数。具体配置见原论文。

该团队发现，从 1B （活动）参数模型到 3.5B （活动）参数模型，负对数似然的扩展（∆）出现了下降。

此外，在小于 2B （活动）参数的模型中，使用 2-simplicial 注意力机制没有任何好处。

基于此，该团队估算了 2-simplicial 注意力机制与点积注意力机制的幂律系数有何不同。基于前述方法，其损失可以表示为：

由于训练这两个模型使用的 token 数量相同，因此可以忽略第三项，将损失简化为：

其中 β = - log E′′ - logA ，由于 E′ 较小，E′′ 是 E′ 的近似值。注意，这里使用了 log (a + b) = log (1 + a/b) + log (b) 来分离这两个项，并将 1 + a/b 项隐藏在 E′′ 中。

因此，可以根据表 2 中的损失估算两组模型的 α 和 β，其中 N 代表每个模型中的有效参数。

该团队在表 3 中估计了 Transformer 和 2-simplicial Transformer 的斜率 α 和截距 β。

可以看到，与点积注意力 Transformer 相比，2-simplicial 注意力具有更陡的斜率 α，即其 Scaling Law 的指数更高。

#Causal-Copilot

集成20+先进算法，优于GPT-4o，自主因果分析智能体来了

来自加利福尼亚大学圣迭戈分校（UC San Diego）Biwei Huang 实验室的研究团队提出了一种自主因果分析智能体 Causal-Copilot。该实验室专注于因果推理与机器学习的交叉研究，在因果发现和因果表征学习领域取得了多项重要成果。论文共同第一作者 Xinyue Wang、Kun Zhou 和 Wenyi Wu 均来自 Biwei Huang 教授实验室，他们在因果推理与大语言模型结合方面开展了这项创新性研究。同时这项研究也得到了创业公司 Abel.ai 的大力支持和协助。

一个普遍的困境

想象这样一个场景：你是一位生物学家，手握基因表达数据，直觉告诉你某些基因之间存在调控关系，但如何科学地验证这种关系？你听说过 "因果发现" 这个词，但对于具体算法如 PC、GES 就连名字都非常陌生。

或者你是一位社会学家，想要评估教育政策对学生成绩的真实影响。你知道简单对比可能受其他因素干扰，但面对双重差分、倾向得分匹配等方法及其不同假设条件，你感到无从下手。

这就是因果分析的现状：理论越来越丰富，工具越来越强大，但使用门槛却始终居高不下。

预训练模型的局限性

当前的 AI 系统，包括最先进的大语言模型，本质上都是模式识别器。它们可以发现 "A 和 B 经常一起出现"，但无法理解 "A 导致了 B" 还是 "B 导致了 A"，抑或是 "C 同时影响了 A 和 B"。

这种局限性在实际应用中带来严重后果。数据显示使用某款教育 App 的学生成绩更好，基于相关性的 AI 可能建议推广这款 App 来提高成绩。但因果分析可能揭示：是成绩好的学生更倾向于使用学习 App，而非 App 提高了成绩。

因果分析包含两个核心任务。因果发现 (Causal Discovery) 从数据中识别变量间的因果关系，构建因果图，帮助我们理解系统的运作机制。因果推断 (Causal Inference) 则基于这些因果关系，量化干预效应，回答 "如果我们这样做会怎样" 的问题。这两个任务相辅相成，共同构成了理解世界运行机制的完整图景。

然而，掌握这些方法需要深厚的统计学背景和丰富的实践经验。每种算法都有其适用场景和限制条件，选错方法可能导致完全错误的结论。这种专业门槛将大量需要因果分析的研究者拒之门外。

Causal-Copilot：让复杂变简单

我们提出了一个优雅的解决方案：既然因果分析的使用难点主要在于方法选择和参数调优，为什么不让 AI 来承担这部分工作？

Causal-Copilot 正是基于这一理念构建的自主因果分析智能体。这个系统的强大之处在于其前所未有的全面性 —— 集成了超过 20 种最先进的因果分析算法，真正实现了 "一站式" 因果分析。无论你的数据是表格形式还是时间序列，是线性关系还是复杂的非线性模式，是完美的实验数据还是充满噪声的观察数据，Causal-Copilot 都能自动找到合适的分析方法。

论文链接：https://arxiv.org/abs/2504.13263

开源代码：https://github.com/Lancelot39/Causal-Copilot

在线体验：https://causalcopilot.com/

统一因果发现与推断的智能系统

Causal-Copilot 的核心创新在于将因果发现和因果推断的完整流程智能化、自动化。该系统集成了 20 余种最先进的算法作为工具，覆盖了从结构学习到效应估计的全过程：

因果发现能力：

自动识别变量间的因果关系，构建因果图
可以处理线性 / 非线性、离散 / 连续、静态 / 时序、高斯 / 非高斯噪音等多种数据特性
处理潜在混杂、数据缺失、数据异质性等现实挑战
内置 CPU/GPU 算法加速实现更好解决大规模和高维应用场景

因果推断能力：

基于发现的因果结构，估计干预效应
支持平均处理效应、异质性效应、反事实推理
提供效应的不确定性量化和稳健性检验

Causal-Copilot 在 Online shop, Climate, Abalone 数据集上挖掘出的因果关系

模块化技术架构

Causal-Copilot 采用模块化架构设计，包含五个核心组件：

1. 用户交互模块：支持自然语言查询输入和交互式反馈例如指定偏好和约束。

2. 预处理模块：执行全面的数据准备功能，包括缺失值检测和插补、特征转换、模式提取和适用于表格和时序数据的统计信息诊断。这些诊断结果直接指导后续的算法选择。

3. 算法选择模块：根据数据特性和因果分析的专家知识和实证数据进行算法过滤和排名、结合上下文进行超参数配置、以及执行算法和处理可能的错误。

4. 后处理模块：通过 Boostrap、利用 LLM 常识推理验证因果连接的合理性，理解用户反馈来增强因果图的准确性。同时对于因果效应，进行敏感性分析和稳健性检验。

5. 报告生成模块：将分析结果编译成用户友好的可视化研究报告包含因果分析全程、LLM 对分析结果的推断和洞察。

因果发现与推断的多维度评估

我们系统性地评估了 Causal-Copilot 在不同因果发现和因果推断场景中的数据分析和算法决策能力，其中因果发现评估囊括时序和非时序数据。

我们在多维度场景中系统评估了 Causal-Copilot 的性能。在表格数据上，涵盖了基本场景、数据质量挑战（异质域、测量误差、缺失值）和复合场景（临床、金融、社交网络数据），系统在极大规模网络（高达 1000 节点）中仍保持优异表现。时间序列和因果推断评估同样证实了系统的强大适应性。在 CSuite 基准测试和真实数据集上，Causal-Copilot 显著优于以 GPT-4o 直接调用因果算法为基线的方法，以及现有的传统因果发现算法。

实际应用

用户初始请求：这是一个关于地震的时序数据集，请帮我调查其中的因果关系。

结语

通过统一因果发现和推断的全流程，Causal-Copilot 让研究者能够完整理解因果机制、做出可靠决策、加速科学发现。研究团队已将系统完全开源，提供代码、教程和在线演示平台，邀请全球研究者共同参与改进。

#RoboRefer

复杂空间指令也能秒懂？让机器人理解推理空间，开放世界也能精准行动！

本文的主要作者来自北京航空航天大学、北京大学和北京智源人工智能研究院。本文的第一作者为北京航空航天大学硕士生周恩申，主要研究方向为xx智能和多模态大模型。本文的共一作者兼项目负责人为北京智源研究院研究员迟程。本文的通讯作者为北京航空航天大学副教授盛律和北京大学计算机学院研究员、助理教授仉尚航。

机器人走出实验室、进入真实世界真正可用，远比想象中更复杂。现实环境常常杂乱无序、物体种类繁多、灵活多变，远不像实验室那样干净、单一、可控。

想象一下，你正在餐厅吃饭，身边有个服务机器人。你对它说：「把第二列最远的黄色寿司盘，放到离我最近的寿司和酱油碟之间的空位上。」（左图）又或者，你希望它「拿起最左边、饮料 logo 正对的苹果，放到最近的桌子上，并与之前的苹果排成一排、间距一致。」（右图）

这些听起来是我们日常再熟悉不过的指令，其实是一个典型空间指代（Spatial Referring）任务。简单来说，就是让机器人通过「最远」「第二列」「等间距」「正对着」这类空间关系，搞清楚要抓哪个对象、放在哪里、或者走向哪个位置。

听着简单，做起来却不容易。哪怕是目前最强大、最先进的多模态大模型，也依然难以准确理解复杂的三维场景，并根据指令动态推理出正确的交互位置。这是因为空间指代任务，背后其实包含了两个维度的挑战：

单步空间理解：机器人得先看懂世界。这要求模型能够准确识别物体的空间属性（比如位置、朝向）以及它们之间的空间关系（比如远近、方向）。这是空间指代任务的基础，大部分研究目前还停留在这一层。

多步空间推理：真正的挑战来了：面对一连串复杂的空间关系约束，机器人不仅要理解，还要逐步推理、动态判断，灵活应对各种开放世界中各种各样的空间关系组合。这种能力对于实现真正的空间指代至关重要，但目前仍然是一个被严重低估和不足探索的方向。

为了破解空间指代的难题，北京航空航天大学、北京大学与北京智源人工智能研究院联合提出了一个具备三维空间理解推理能力的多模态大模型 —— RoboRefer。这个模型不仅通过全参数微调（SFT），实现了对空间信息的精准理解，还通过强化学习微调（RFT），大幅提升了推理与泛化能力，最终实现开放世界的空间指代。

论文链接：https://arxiv.org/pdf/2506.04308
论文标题：RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
项目主页：https://zhoues.github.io/RoboRefer
代码仓库：https://github.com/Zhoues/RoboRefer
数据链接：https://huggingface.co/datasets/JingkunAn/RefSpatial
评测链接：https://huggingface.co/datasets/BAAI/RefSpatial-Bench

SFT 训练下的 RoboRefer 在空间理解任务中达到了 89.6% 的平均成功率，刷新了当前最先进水平。而在研究者提出的高难度空间指代任务评测基准 RefSpatial-Bench 上，RFT 训练后的 RoboRefer 更是领先所有其他模型，比 Gemini-2.5-Pro 高出 17.4% 的平均准确率，优势显著。

更重要的是，RoboRefer 并非「纸上谈兵」。它可以灵活集成到不同类型的机器人上，比如 UR5 机械臂、G1 仿人机器人等，实现对现实世界中复杂、动态、多步骤任务的精准执行，真正让机器人「听得懂、看得清、动得准」。

RoboRefer 是什么

RoboRefer 是一个具备三维空间理解与推理能力的多模态大模型，拥有独立的图像编码器和深度图编码器，其不仅能回答各种空间感知类问答，无论是「这个物体离我有多远？」这样的定量问题，还是「哪个物体在左边？」这样的定性问题；更厉害的是，它还能基于多种空间关系（比如物体的位置和朝向），进行复杂的组合式推理，最终准确定位需要交互的位置。

比如，面对一个指令：「把这个物体放在笔筒和键盘的中间，水瓶的 logo 要正对着你。」RoboRefer 不仅能理解这句自然语言的空间逻辑，还能在真实三维场景中，找到唯一正确的位置来完成任务。

RoboRefer 的核心是什么

为什么相较于以往的方法，RoboRefer 不仅可以精确的感知空间，而且又可以根据多个空间关系组合泛化推理出交互的位置呢？其关键因素在于以下几点：

SFT 增强空间感知能力，RFT 搭配过程奖励提升泛化推理能力

当前多模态大模型在 2D 预训练阶段缺乏对空间关系的深入理解，为了提升模型的单步空间理解能力，研究人员引入了一个独立的深度编码器，使模型能够更有效地感知和利用三维信息，并通过全参数微调（SFT）进行训练。

尽管 SFT 使用了各种空间感知和推理数据，但模型更倾向于记忆答案，而不是泛化到新的空间约束条件。为了解决这一问题，研究者进一步引入了基于 GRPO 的强化学习微调。

值得一提的是，团队不仅关注结果导向的奖励（outcome-based reward），还创新性地设计了基于过程的奖励函数（process reward functions），这些函数能够感知中间推理过程的质量，从而提升模型多步空间指代任务中的推理精度。最终，模型增强了显式多步推理能力，实现了开放世界的空间指代任务。

提出 RefSpatial 数据集，教一个多模态大模型从 0 到 1 学会空间指代

为了支持前述的 SFT 和 RFT 训练，研究团队构建了一个大规模、高质量的数据集 ——RefSpatial，具有以下几个核心特点：

精细标注：每个物体都配有层级式描述，从「杯子」这类种类类别，到像「左数第三个杯子」「最靠近摄像头的杯子」这样的精确空间指代，确保在复杂场景中也能清晰用文字表述。
多维推理：数据集不仅标注了目标，还附带详细的多步推理过程（最高有 5 步），为复杂空间指代提供支持。
高质量筛选：数据经过严格筛选，确保标注准确、语义清晰。
规模庞大：共包含 250 万个样本、2000 万个问答对，数据量是同类数据集的两倍。
场景丰富：覆盖室内外环境，涵盖多种日常交互情境，并整合了 31 种空间关系（对比以往最多 15 种）。
易于扩展：支持从多种来源生成空间指代数据，包括 2D 图像、3D 视频（含边界框）和模拟资产，具备高度扩展性。

RoboRefer 到底有多厉害

单步空间理解评测

SFT 训练后的 RoboRefer 在各种空间理解任务中达到了 89.6% 的平均成功率，取得了当前最先进水平。

多步空间指代评测

RFT 训练后的 RoboRefer 在已有的机器人指代榜单上依旧超越现有方法，在研究者们提出的高难度空间指代任务评测基准 RefSpatial-Bench 上，其更是领先所有其他模型，比 Gemini-2.5-Pro 高出 17.4% 的平均准确率。

下面展示一些 RoboRefer 与其它模型输出结果的可视化样例：

仿真与真机实验

在空间操控的机械臂仿真评测中，RoboRefer 的表现远超现有的视觉 - 语言 - 动作（VLA）系统。不仅在模拟环境中成功率遥遥领先，面对开放世界中的多步推理与复杂指代任务，唯有 RoboRefer 能够完成！

，时长01:18

，时长00:59

更多的实验结果，可视化展示（包括更多的杂乱场景下的真机 Demo 视频的空间指代结果）详见论文和主页！

#一个气泡水广告，为何几十万人围观

原来整个都是Veo 3生成的

最近，一个完全由 AI 制作的广告在社交媒体上爆火，在 X 上有三十多万人观看。

这是一个叫 Too Short for Modeling 的团队发布在 LinkedIn 上的作品，不过它并不是一个商业作品，而是该团队为一直想合作的品牌制作的概念影片。

距离 Veo 3 发布已经过去一个半月了，虽然此前模型视频生成已经能达到很逼真的状态，但 Veo 3 的「音画同步」功能，引领 AI 视频创作进入了全新的声画一体化阶段。同时它也让 AI 视频生成进入了更有实践意义的阶段，极大地降低了视频创作的门槛。

我们先来看看这个广告效果怎么样。

，时长01:01

来源：https://www.linkedin.com/posts/arielyoriginal_veo3-aicreative-fakeads-activity-7346271275020902400-P9fd

人物1：下午好，小伙子。 (Good afternoon, son.)

人物2：想猜猜我为什么让你靠边停车吗？ (Wanna take a guess why I pulled you over?)

人物1：哦，不是你想的那样。 (Oh, it's not what you think.)

人物1：这是“液态死亡”。是苏打山泉水。 (It's liquid death. They're sparkling mountain water.)

人物2：嗯。哇。你没开玩笑。 (Mmm. Wow. You weren't kidding.)

人物2：确实很清爽。 (That is refreshing.)

人物2：但这不是我让你靠边停车的原因。 (But it's not why I pulled you over.)

人物1：哦，天哪。 (Oh boy.)

人物1：是因为破损的尾灯吗？ (Is it the busted taillight?)

人物2：不是。 (Uh-uh.)

人物1：是因为车牌吗？ (Is it because of the license plate?)

人物2：不是。 (Nope.)

人物1：该死，伙计。是那个死人，对吧？ (Shit, man. It's the dead guy, right?)

人物2：不，先生。 (No, sir.)

人物1：也许是人口贩卖？ (Is it the human trafficking, perhaps?)

人物2：不是。 (Uh-uh.)

人物1：伙计，是卡车的事吗？ (Man, is it the truck thing?)

人物2：我不这么认为。 (I don't think so.)

人物1：好吧，那到底是什么？ (Well, what is it then?)

人物1：抢劫案？ (The robbery?)

人物2：不。 (No.)

人物1：是保险杠贴纸？ (The bumper sticker?)

人物2：不。 (No.)

人物1：是被车撞死的动物，对不对？ (It's the roadkill, isn't it?)

人物2：没听说过。 (Haven't heard of it.)

人物1：是化学废料？ (The chemical waste?)

人物2：不是。 (Uh-uh.)

人物1：是过山车座位吗？ (Is it the roller coaster seat?)

人物1：是邪教的事吗？ (Is it the cult thing?)

人物2：绝对不是。当然不。 (Absolutely not. Hell no.)

人物1：好吧，我放弃了。 (All right, I give up.)

人物1：到底是什么？ (What is it?)

人物2：因为今天是你的生日。 (It's because it's your birthday.)

人物2：生日快乐，凯文。 (Happy birthday, Kevin.)

人物1：爸爸，你还记得。 (Dad, you remembered.)

人物2：祝你生日快乐，祝你生日快乐，祝你生日快乐。 (Happy birthday to you, Happy Birthday to you, Happy Birthday to you.)

视频字幕，上下滑动查看。

这个广告的笑点密集，令人捧腹。但其真正的亮点在于惊人的「角色一致性」。在一分钟内，视频流畅地切换了10个场景，每个画面的风格都保持了高度统一，核心人物和道具也完美衔接。尽管在车窗、内饰等细节上能察觉到微小的跳跃，但这丝毫未影响其出色的整体连贯性。

要知道 AI 生成视频中经常出现容貌突变、物体错乱等问题。

主创团队分享了他们保持一致性的秘诀——超精细提示 (Hyper-specific Prompting)：为模型提供极其详尽、具体且包含大量上下文细节的指令或问题。

这种提示的设计目的是为了最大限度地减少模型的自由发挥空间，引导它生成高度精确、符合特定格式和要求的输出。

相关的提示词优化方法，在我们之前的文章中也提到过，读者可以参考：实测惊艳全球的 Veo3！音画同步无敌，贵是有原因的

值得一提的是，创意、策略与审美依然由人类主导。从最初的灵感、脚本，到由剪辑师完成的最终效果呈现，人的价值贯穿始终。AI 是强大的「执行者」，但遵循的是概率而非远见——至少在今天，这道边界依然清晰。

AI为何总在细节上「翻车」？

关于「角色一致性」的问题，技术层面来讲，并非模型「犯了糊涂」，而是主流视频生成模型背后的核心技术——扩散模型本身的工作原理、训练数据以及从图像到视频的技术跨越之中，主要是以下几点原因：

模型没有「理解」世界，只有「概率统计」：模型并非真正理解「人有五根手指」这类事实，而是通过学习海量数据，知道「五指的手」是最高概率的模式。当生成过程中出现随机偏差时，由于缺乏常识性规则的约束，它可能会生成一个概率上虽低但仍有可能的「六指」结果。

局部生成与全局和谐的矛盾：模型更擅长生成逼真的局部细节（如皮肤纹理），但对整体结构（如完整的身体解剖）的把握较弱。它可能会因为专注于让局部「看起来对」，而忽略了其在整体画面中的逻辑是否合理，导致「只见树木，不见森林」的结构性错误。
从图像到视频的挑战：视频的本质是连续的图像序列，而模型在生成每一帧时都可能存在微小的随机差异。这种帧与帧之间的「失忆」累积起来，就会导致角色外观、服饰或背景等元素在时间线上发生不连贯的漂移和变化，破坏了时间一致性。
训练数据的「不完美」：模型的知识完全来源于它所学习的训练数据。网络数据本身就包含大量错误、低质量和不合逻辑的内容。模型会将这些「坏数据」也一并学会，并在生成时复现出来，可谓「垃圾进，垃圾出」。

探索AI的创意玩法

当前，大量猎奇、同质化的 AI 视频内容，正是 AI 技术被「降维使用」的体现。真正值得我们探索的，是 AI 作为「创意催化剂」的巨大潜力。

下面这些会不会是 AI 的正确打开方式？