【论文阅读】VARGPT-v1.1
VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning
-
原文摘要
-
模型定位与基础
-
VARGPT-v1.1是基于前代VARGPT框架的先进统一视觉自回归模型,延续了"双范式"设计:
-
视觉理解:通过next-token prediction实现
-
图像合成:通过next-scale generation实现
-
-
-
五大核心改进
-
训练策略创新
- 结合迭代式视觉指令微调
- 引入基于DPO的强化学习
-
数据扩展:训练语料库扩充至830万视觉-生成指令对
-
骨干网络升级:语言模型主干替换为更先进的Qwen2
-
生成质量提升:增强图像生成分辨率
-
涌现能力:无需架构修改即获得图像编辑功能
-
-
性能表现
-
在多模态理解和文本到图像的指令跟随任务中达到SOTA
-
理解和生成指标均有显著提升
-
-
关键发现
-
通过视觉指令微调,模型在保持架构一致性的前提下获得了图像编辑能力
-
揭示了统一模型在视觉理解、生成和编辑三方面的潜力
-
-
方法启示
-
设计良好的统一视觉自回归模型可有效借鉴LLM的灵活训练策略
-
展现出良好的可扩展性
-
-
1. Introduction
-
多模态AI研究背景与现状
-
领域双突破
- 理解侧:MLLMs主导跨模态理解
- 生成侧:Denoising Diffusion Models通过迭代优化引领视觉生成
-
统一框架的三大范式
- 组装系统(Assembly Systems):LLM+Diffusion模型级联
- 纯自回归架构(Pure Autoregression):视觉token预测
- 双扩散模型(Dual-diffusion):并行生成机制
-
现存问题
- 理解与生成任务存在表征冲突
- 即使TokenFlow统一了tokenization,其生成与理解流程仍解耦
-
-
VARGPT的初始设计及局限
-
前代方案
- VARGPT首次在视觉自回归MLLM中统一生成与理解
- 双范式机制:
- 视觉理解:next-token prediction
- 视觉生成:next-scale prediction
-
存在缺陷
- 训练数据规模不足
- 训练迭代次数不足
- 图像生成指令跟随能力欠佳
- 生成领域受限(仅覆盖ImageNet类别)
-
-
VARGPT-v1.1的核心改进
-
四大技术创新
-
多阶段训练范式
- 迭代视觉指令微调 + DPO强化学习
- 渐进式分辨率提升(256×256→512×512)与交替SFT-RL训练
-
数据扩展
- 830万指令对:420万真实数据、410万合成数据
-
骨干网络升级
- 迁移至Qwen2-7B:更优tokenization效率与注意力机制
-
无架构修改的图像编辑
- 通过构建编辑数据集实现架构无关的微调
-
-
实验验证的优势
-
量化优势
- SOTA级视觉理解性能
- 超越统一模型/MLLM的跨基准表现
-
三大特性
- 提升生成质量与指令遵循性
- 无需特定架构的图像编辑能力
- 高分辨率下保持生成多样性
-
-
-
全文贡献总结
-
模型层面:通过数据/骨干/训练策略的全面改进,推进视觉理解与生成的统一
-
方法层面:提出渐进分辨率提升与指令微调+RL的迭代训练框架
-
实证层面:实验证实模型在理解/生成/编辑能力的全面进步
-
2. Related Work
2.1 视觉生成与多模态学习
-
生成模型技术路线
-
扩散模型:
- 核心方法:通过逆向噪声到图像的扩散过程实现生成
- 优化方向:采样算法改进和架构创新
-
流模型:提供简化替代方案
-
自回归方法:
- 采用GPT式token预测
- 依赖视觉tokenizer将图像离散化
- 最新变体:基于尺度预测的VAR 和HART ,遵循缩放定律原则
-
-
多模态大语言模型(MLLMs)
-
典型架构:视觉编码器+文本解码器+跨模态连接器
-
代表性工作:
- LLaVA系列及其衍生模型 :通过指令微调和高质数据集提升视觉-语言理解
- Qwen-VL 和InstructBLIP :在训练范式和多模态融合方面取得进展
-
-
本文定位:结合自回归尺度预测与多模态框架的见解
2.2 视觉理解与生成的统一模型
-
现有技术局限
- 主流方案:将预训练扩散模型与现有系统集成
- 本质缺陷:扩散模型作为外部工具而非模型内在生成能力
-
探索
-
混合建模:
- Show-o:结合自回归与离散扩散模型,处理混合模态I/O
- Dual Diffusion:双扩散模型并行处理理解与生成
-
自回归统一:
- LWM 和Chameleon:使用VQ tokenizer 实现多模态理解与生成
- Janus :通过视觉编码路径解耦提升灵活性
- Liquid:同一嵌入空间下的自回归视觉理解与生成(next-token预测)
-
-
最新进展:
- QLIP:文本对齐的视觉token化方法
- VILA-U:统一理解与生成的基座模型
- UniTok:统一tokenizer框架
- MINT:多模态思维链增强生成
- Janus-Pro:通过数据与模型规模扩展提升性能
-
本文差异化
- 双范式统一:
- 视觉理解:next-token prediction
- 视觉生成:next-scale prediction
- 双范式统一:
2.3 强化学习在语言模型中的应用
-
核心进展
-
偏好对齐:DeepSeek-R1:基于AI反馈的规模化RFT
-
数学推理:
- Math-Shepherd:步骤级验证
- DeepSeek-Math:GRPO 消除critic模型需求
-
效率提升:
- LIMR:高影响力样本训练减少84%数据需求
-
-
多模态扩展
-
Visual-RFT 和Grounding-LLM :扩展到多模态与交互环境
-
MM-RLHF :12万人类标注细粒度偏好对比数据集
-
-
对本文的启示
-
采用DPO实现输出偏好对齐
-
继承RL在LLM优化中的方法论(如交替SFT-RL阶段)
-
3. Methodology
3.1 Model Architecture
-
VARGPT1.1
-
为了方便理解,我附上VARGPT的架构图
3.1.1 整体架构设计
- 继承性:完全遵循VARGPT的架构设计
- 双范式核心:
- 视觉理解:next-token prediction
- 图像生成:next-scale prediction
- 可视化:架构示意图见上图Figure 4
3.1.2 视觉理解模块
-
方式:Next token predict
-
组件构成
-
语言模型骨干:Qwen2(记为θ)
-
视觉编码器:Vision Transformer (ViT)
-
投影器:双层线性网络
-
-
数据处理流程
-
图像输入:视觉理解图像 X i m g X^{img} Ximg经ViT编码为嵌入 H i m g H^{img} Himg
-
对齐处理:通过接口调整 H i m g H^{img} Himg 使其与文本查询 X q u e r y X^{query} Xquery 的嵌入 H t x t H^{txt} Htxt 对齐
-
联合输入:对齐后的 ( H i m g , H t x t ) (H^{img}, H^{txt}) (Himg,Htxt) 作为LLM输入
-
自回归生成:
Y t t x t ∼ p θ ( Y t t x t ∣ X i m g , X q u e r y , Y < t t x t ) Y_t^{txt} \sim p_\theta(Y_t^{txt} | X^{img}, X^{query}, Y_{<t}^{txt}) Yttxt∼pθ(Yttxt∣Ximg,Xquery,Y<ttxt)-
Y t t x t Y_t^{txt} Yttxt:第t步生成的文本token
-
Y < t t x t Y_{<t}^{txt} Y<ttxt:历史生成序列
-
-
-
注意力机制
- 对所有LLM输入token(包括图像生成相关token)施加因果注意力掩码
3.1.3 视觉生成模块
-
方式:Next-scale predict
- 主要参考Infinity和VAR的方案
-
核心组件
-
多尺度tokenizer:采用bitwise multi-scale residual quantizer
-
双投影器:在LLM输入/输出端分别构建图像生成投影器
-
视觉解码器:
-
独立32层Transformer结构(参数量2B)
-
作用:解码视觉特征,避免文本解码器与图像生成知识冲突
-
-
多尺度VAE解码器:将视觉解码器输出转换为最终图像
-
-
注意力机制
-
采用块因果注意力(block causal attention)
-
支持next-scale的token预测
-
-
训练优化:使用Infinity的无限词汇分类器技术计算视觉生成相关损失
3.1.4 混合模态生成控制
-
提示模板:使用特殊token标记区分文本生成与图像合成任务(继承VARGPT设计)
-
生成质量增强:采用与VARGPT相同的 CFG 技术提升图像生成质量
3.2 Training
-
整体训练框架
-
训练框架概述
-
三阶段继承性:延续VARGPT的三阶段训练方法
-
核心改进:在第三阶段引入迭代指令微调和强化学习
-
以下为stage 3的具体流程
3.2.1 视觉指令微调 Visual Instruction Tuning
-
训练目标:通过监督微调赋予模型视觉生成能力
-
参数设置
-
解冻参数:视觉解码器 + 双生成投影器
-
冻结参数:其余所有组件
-
-
渐进式分辨率训练
-
第一阶段SFT
- 分辨率:256×256
- 训练步数:40,000步
- 目标:建立基础图像生成能力
-
第二阶段SFT
-
分辨率:512×512
-
训练步数:30,000步
-
目标:增强高分辨率生成能力
-
-
-
训练数据:830万指令对
3.2.2 基于人类反馈的强化学习 RLHF
-
问题建模:将生成质量提升转化为偏好选择问题,通过DPO实现
-
偏好数据构建
-
输入提示:从Midjourney prompt数据集中采样100k条 x x x
-
负样本 y l y_l yl:不同SFT检查点模型的输出
-
正样本 y w y_w yw:商业模型(Midjourney v6 + Flux-1.1 pro)生成
-
数据集: D = { ( x , y l , y w ) } D = \{(x, y_l, y_w)\} D={(x,yl,yw)}
-
-
策略优化目标
L r l ( π θ ; π r e f ) = − E ( x , y w , y l ) ∼ D [ log σ ( β log π θ i m g ( y w ∣ x ) π r e f i m g ( y w ∣ x ) − β log π θ i m g ( y l ∣ x ) π r e f i m g ( y l ∣ x ) ) ] \mathcal{L}_{rl}(\pi_\theta; \pi_{ref}) = -\mathbb{E}_{(x,y_w,y_l)\sim D} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta^{img}(y_w|x)}{\pi_{ref}^{img}(y_w|x)} - \beta \log \frac{\pi_\theta^{img}(y_l|x)}{\pi_{ref}^{img}(y_l|x)} \right) \right] Lrl(πθ;πref)=−E(x,yw,yl)∼D[logσ(βlogπrefimg(yw∣x)πθimg(yw∣x)−βlogπrefimg(yl∣x)πθimg(yl∣x))]-
π θ i m g \pi_\theta^{img} πθimg:策略模型(针对图像token)
-
π r e f i m g \pi_{ref}^{img} πrefimg:参考模型(后SFT训练的模型)【可以看Figure 6】
-
β \beta β:奖励相关超参
-
隐式奖励表示: r ^ ( x , y ) = β log π θ i m g ( y ∣ x ) π r e f i m g ( y ∣ x ) \hat{r}(x,y) = \beta \log \frac{\pi_\theta^{img}(y|x)}{\pi_{ref}^{img}(y|x)} r^(x,y)=βlogπrefimg(y∣x)πθimg(y∣x)
-
-
图像token策略模型
π ∗ i m g = softmax ( logit ∗ [ i m g ] ) , ∗ ∈ { θ , r e f } \pi_*^{img} = \text{softmax}(\text{logit}_*^{[img]}), \quad * \in \{\theta, ref\} π∗img=softmax(logit∗[img]),∗∈{θ,ref}- logit ∗ [ i m g ] \text{logit}_*^{[img]} logit∗[img]:图像token位置的logits
3.2.3 视觉编辑的SFT微调
-
数据构建
-
来源:StyleBooth
-
规模:11,325条编辑指令样本
-
-
训练流程
-
输入处理:
- 目标图像经视觉编码器处理
- 编辑指令作为文本提示
-
优化目标:监督模型逼近编辑后图像的分布
-
-
关键特性
-
架构不变性:仅通过参数空间优化实现编辑能力
-
统一多模态编辑:联合文本-图像token预测
-
全参数微调:解冻所有参数以平衡编辑保真度与生成多样性
-
4. Data & Experiments
-
Data
-
Experiments