当前位置：首页 > news >正文

MIT新论文：数据即上限，扩散模型的关键能力来自图像统计规律，而非复杂架构

news 2025/9/21 5:40:18

现在的文生图模型已经十分强大了，例如我们在输入框敲下 “a photorealistic astronaut riding a horse on the moon”，几秒钟后屏幕生成从未出现过的图像，细节丰富，几近完美。扩散模型（diffusion models）推动了这一切，早已将旧方法远远甩在身后。主流观点认为，这一成功依赖于像 U-Net 这类高度专门化的神经网络架构，以及它们内置的“归纳偏置”。但也许“魔法”并不在引擎，而在燃料：数据。

来自 MIT 与丰田研究院（Toyota Research Institute, TRI）的论文《Locality in Image Diffusion Models Emerges from Data Statistics（图像扩散模型中的局部性源自数据统计）》对这一说法提出挑战。作者给出证据表明，扩散模型一个被反复强调的属性——关注局部像素关系——并不需要依赖架构的巧妙设计，它可以从训练图像的统计规律中自然涌现。

“我们给出证据表明，深度扩散模型中的局部性，是图像数据集的统计属性所促成的，而不是卷积神经网络的归纳偏置所致。”

这意味着：模型并没有“发明”新的视觉范式，更像是把自然图像中最显而易见的统计模式学到了极致。下面我们详细说说这篇论文

我们以为的扩散模型工作

从清晰图像出发，逐步加噪直至完全随机；训练一个模型去逆转这个过程，逐步去噪，生成新图像。长期以来，U-Net 被视为是这里的主力，它承担“去噪器”的核心职责。我们也通常把它的“超能力”归因于架构：

局部性（Locality）：卷积层像滑动的放大镜，以重叠小块处理图像，默认相邻像素的相关性更强。
平移等变（Shift Equivariance）：同一只猫，放在左上角或右下角仍是猫。输入平移，表示随之平移，理解保持一致。

这些归纳偏置常被认为是模型在复杂视觉世界里“少走弯路”的关键。

“完美”的去噪器

扩散框架里存在一个理论上的“最优去噪器”。给定带噪声的图像，它能返回最可能的原始图像。但它对生成新图像没什么用，因为它是一个近乎完美的抄写者：在训练集中检索最近邻，然后再吐回去。它不会泛化、不懂组合与迁移，更像搜索引擎而不是生成模型者。你的数据里有猫和狗，它就能给你猫或狗，却永远想不出“狗猫”这个不存在的动物。

图 1，摘自论文。右侧的“最优”去噪器只是从记忆（训练集）里寻找最近的图像。深度去噪器会生成一个合理且新颖的图像。研究者试图解释的正是这两者之间的差距。

训练深度扩散模型（如 U-Net）的目标，是以一种“模糊”的方式逼近这一最优解，在保留统计一致性的同时获得创造性。这件事到底靠什么实现，一直是个谜。

关键不在发动机，而在燃料

MIT×TRI 的作者直接创建了一个几乎“反范式”的去噪器：不是深而复杂的网络，而是线性模型。它不内置任何关于局部性的假设，像一个“只看数据”的统计工具，唯一的任务是学习整个训练集里像素与像素之间的相关性结构。

如果 U-Net 像训练有素的画家，这个线性模型更像统计学家。它不懂“脸”是什么，但它知道两类像素几乎总是相邻（比如：眼睛与鼻子），另外一些几乎从不相邻（眼睛与鞋）。最终得到的结果是：这位统计学家的行为，越来越像那位画家。

让无形可见：它们到底“看”哪里

论文作者可视化了“去噪中心像素时，模型对其他像素的敏感度”——也就是所谓的敏感度场（sensitivity field）。先看标准 U-Net 去噪器的表现，高度局部。

图 2，摘自论文。热力图展示 U-Net 在为中心像素去噪时“看”的区域。关注呈现紧致、近似圆形的局部斑块，符合对深度去噪器局部性的共识。

再看一下没有任何局部性先验的线性模型：

图 3，摘自论文。作者的简单线性去噪器仅凭数据统计就学会了“只看附近”。敏感度场与 U-Net 高度相似。

这就是论文的亮点时刻：不靠架构偏置，线性模型同样学到了“局部性”。原因不是架构多聪明，而是自然图像本身的统计规律推动了这种结果。天空总在地平线旁，眼睛总在鼻子附近，数据把答案写在了像素的联合分布里。

作者进一步在 CIFAR10（汽车、飞机等）上验证，敏感度场依然成立，有时甚至隐约勾勒出物体形状。

图 4，摘自论文。在 CIFAR10 上，敏感度场不只是一个斑块，而是有结构地反映了数据集的相关性。数据为王。

从统计到生成：简单模型能否“创作”

“聚焦”学会了，但是还能不能“生成”？作者把分析式（analytical）的线性模型与一个完全训练的最先进 DDPM 做了对比。

图 5，摘自论文。图中 “Wiener (linear)” 与 “Ours” 为解析型、数据驱动的模型。虽然不如完全训练的 DDPM 锐利，但生成结果结构稳定、语义轮廓清楚，并优于其他解析方法。