【AI论文】NextStep-1:迈向大规模连续令牌自回归图像生成
摘要:当前主流的用于文本生成图像的自回归(AR)模型,要么依赖庞大且计算密集的扩散模型来处理连续的图像令牌,要么采用向量量化(VQ)技术获取带有量化损失的离散令牌。在本文中,我们借助NextStep-1推动了自回归范式的发展。NextStep-1是一个拥有140亿参数的自回归模型,搭配一个1.57亿参数的流匹配头,使用下一个令牌预测目标,在离散文本令牌和连续图像令牌上进行训练。NextStep-1在文本生成图像任务中,为自回归模型取得了迄今最先进的性能,在高保真图像合成方面展现出强大能力。此外,我们的方法在图像编辑方面也表现出色,凸显了我们统一方法的强大功能与通用性。为促进开放研究,我们将向社区公开代码和模型。Huggingface链接:Paper page,论文链接:2508.10711
研究背景和目的
研究背景:
近年来,自回归(Autoregressive, AR)模型在大型语言模型领域取得了显著成功,这促使研究人员将其扩展到文本到图像的生成任务中。通过将多模态输入统一到单个序列中,自回归图像生成模型提供了一种可扩展且灵活的方法来处理文本到图像的生成任务,并且能够自然地融入多种条件信号。然而,现有的自回归方法在处理文本到图像生成任务时,往往依赖于计算密集的扩散模型来处理连续的图像令牌,或者采用向量量化(Vector Quantization, VQ)技术来获取带有量化损失的离散令牌。这些方法存在局限性,如暴露偏差(Exposure Bias)和次优的图像令牌化(Image Tokenization)问题。尽管最近有研究尝试使用连续潜在表示(Continuous Latent Representations)来改进性能,但自回归模型与最先进的扩散方法之间在图像质量和一致性方面仍存在显著差距。
研究目的:
本文旨在通过引入NextStep-1模型,推动自回归图像生成范式的发展。NextStep-1是一个140亿参数的自回归模型,搭配一个1.57亿参数的流匹配头(Flow Matching Head),在离散文本令牌和连续图像令牌上使用下一个令牌预测目标进行训练。研究的主要目的包括:
- 提升自回归模型在文本到图像生成任务中的性能:通过结合连续图像令牌和离散文本令牌的自回归建模,实现高质量的图像合成。
- 展示自回归模型在图像编辑任务中的强大能力:通过统一的框架,实现高效的图像编辑功能。
- 推动开放研究:通过公开代码和模型,促进社区对自回归图像生成技术的进一步研究和改进。
研究方法
模型架构:
NextStep-1模型由以下几个关键部分组成:
- 文本令牌器(Text Tokenizer):用于将输入文本转换为离散令牌。
- 图像令牌器(Image Tokenizer):基于改进的Flux VAE,将图像编码为16通道的连续潜在表示,并进行通道归一化和随机扰动以增强鲁棒性。
- 因果变换器(Causal Transformer):采用Qwen2.5-14B作为基础模型,处理混合的文本和图像令牌序列。
- 语言建模头(Language Modeling Head):用于计算文本令牌的交叉熵损失。
- 流匹配头(Flow Matching Head):一个12层、1536隐藏维度的MLP,用于预测连续图像令牌的流匹配损失。
训练策略:
- 预训练(Pre-Training):分为三个阶段,逐步增加图像分辨率和复杂性。第一阶段学习基础图像结构和组成;第二阶段采用动态分辨率策略;第三阶段通过退火(Annealing)过程优化模型性能。
- 后训练(Post-Training):包括监督微调(Supervised Fine-Tuning, SFT)和直接偏好优化(Direct Policy Optimization, DPO)两个阶段,以进一步对齐模型输出与人类偏好。
数据集构建:
- 纯文本语料库:包含4000亿个文本令牌,用于保持大型语言模型的语言能力。
- 图像-文本对数据:从多种来源收集并严格过滤,最终得到5.5亿个高质量的图像-文本对。
- 指令引导的图像到图像数据:包括视觉感知、可控图像生成、图像修复和一般图像编辑等任务,共收集约450万个样本。
- 交错数据:包括视频交错数据、教程视频、角色中心场景和多视图数据,共8000万个样本,用于增强模型的上下文理解能力。
研究结果
文本到图像生成性能:
NextStep-1在多个基准测试中展现了卓越的性能。在GenEval、GenAI-Bench和DPG-Bench等基准上,NextStep-1分别取得了0.63、0.88(基础提示)和0.67(高级提示)以及85.28的得分,展示了其在视觉-文本对齐和组合能力方面的强大实力。此外,在WISE基准测试中,NextStep-1以0.54的整体得分(使用Self-CoT时为0.67)超越了大多数自回归模型,甚至超过了一些扩散模型,显示了其强大的世界知识和语义对齐能力。
图像编辑性能:
通过微调NextStep-1在100万个高质量的图像编辑数据上,NextStep-1-Edit在GEdit-Bench和ImgEdit-Bench等基准测试中展现了强大的图像编辑能力,分别取得了6.58和3.71的得分,表明其在指令跟随和图像编辑方面的实用性和高效性。
研究局限
生成稳定性问题:
尽管NextStep-1在多个基准测试中展现了卓越的性能,但在处理高维连续令牌时,模型仍面临生成稳定性挑战。例如,在使用更高维度的潜在空间(如16通道)时,模型偶尔会出现局部噪声或块状伪影,尤其是在生成的后期阶段。
高分辨率训练挑战:
与扩散模型相比,NextStep-1在扩展到高分辨率图像生成时面临两个主要挑战。首先,自回归生成的严格顺序性需要更多的训练步骤来在高分辨率下收敛。其次,针对高分辨率扩散模型开发的技术(如时间步长偏移)难以直接适应到NextStep-1中,因为流匹配头主要作为轻量级采样器,而变换器主干执行核心生成建模。
后训练挑战:
在SFT阶段,NextStep-1在小型高质量数据集上表现出不稳定的动态。与扩散模型相比,NextStep-1通常需要数百万样本的数据集才能实现显著的改进,而在小规模数据集上训练时,模型要么改进甚微,要么突然过拟合到目标分布。
未来研究方向
提高生成稳定性和效率:
未来的研究可以探索减少流匹配头的参数数量、应用蒸馏技术实现少步生成,以及使用更先进的少步采样器来提高生成效率和稳定性。此外,借鉴大型语言模型领域的最新进展,如推测解码(Speculative Decoding)和多令牌预测(Multi-Token Prediction),也可以应用于图像令牌生成中,以加速自回归骨干的推理过程。
高分辨率生成策略:
设计专门针对块状自回归模型的高分辨率生成策略是一个重要的研究方向。这可能包括开发新的训练技术和采样方法,以更好地利用2D空间归纳偏置,并改进流匹配头与变换器主干之间的交互。
改进后训练方法:
未来的研究可以探索更有效的后训练方法,以在小规模高质量数据集上实现稳定的模型对齐。这可能包括开发新的正则化技术、数据增强策略,以及更精细的模型选择标准,以在保持模型泛化能力的同时,实现与目标分布的精确对齐。
多模态交互和融合:
进一步探索多模态交互和融合技术,以提升模型在复杂场景下的理解和生成能力。这可能包括开发新的注意力机制、跨模态预训练策略,以及更有效的上下文学习方法,使模型能够更好地理解和生成包含多种模态信息的复杂场景。