当前位置：首页 > news >正文

【论文阅读】VARGPT-v1.1

news 2025/7/5 9:32:39

VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning

原文摘要
- 模型定位与基础
  - VARGPT-v1.1是基于前代VARGPT框架的先进统一视觉自回归模型，延续了"双范式"设计：
    - 视觉理解：通过next-token prediction实现
    - 图像合成：通过next-scale generation实现
- 五大核心改进
  - 训练策略创新
    - 结合迭代式视觉指令微调
    - 引入基于DPO的强化学习
  - 数据扩展：训练语料库扩充至830万视觉-生成指令对
  - 骨干网络升级：语言模型主干替换为更先进的Qwen2
  - 生成质量提升：增强图像生成分辨率
  - 涌现能力：无需架构修改即获得图像编辑功能
- 性能表现
  - 在多模态理解和文本到图像的指令跟随任务中达到SOTA
  - 理解和生成指标均有显著提升
- 关键发现
  - 通过视觉指令微调，模型在保持架构一致性的前提下获得了图像编辑能力
  - 揭示了统一模型在视觉理解、生成和编辑三方面的潜力
- 方法启示
  - 设计良好的统一视觉自回归模型可有效借鉴LLM的灵活训练策略
  - 展现出良好的可扩展性

1. Introduction

多模态AI研究背景与现状
- 领域双突破
  - 理解侧：MLLMs主导跨模态理解
  - 生成侧：Denoising Diffusion Models通过迭代优化引领视觉生成
- 统一框架的三大范式
  1. 组装系统（Assembly Systems）：LLM+Diffusion模型级联
  2. 纯自回归架构（Pure Autoregression）：视觉token预测
  3. 双扩散模型（Dual-diffusion）：并行生成机制
- 现存问题
  - 理解与生成任务存在表征冲突
  - 即使TokenFlow统一了tokenization，其生成与理解流程仍解耦
VARGPT的初始设计及局限
- 前代方案
  - VARGPT首次在视觉自回归MLLM中统一生成与理解
  - 双范式机制：
    - 视觉理解：next-token prediction
    - 视觉生成：next-scale prediction
- 存在缺陷
  1. 训练数据规模不足
  2. 训练迭代次数不足
  3. 图像生成指令跟随能力欠佳
  4. 生成领域受限（仅覆盖ImageNet类别）
VARGPT-v1.1的核心改进
- 四大技术创新
  1. 多阶段训练范式
    - 迭代视觉指令微调 + DPO强化学习
    - 渐进式分辨率提升（256×256→512×512）与交替SFT-RL训练
  2. 数据扩展
    - 830万指令对：420万真实数据、410万合成数据
  3. 骨干网络升级
    - 迁移至Qwen2-7B：更优tokenization效率与注意力机制
  4. 无架构修改的图像编辑
    - 通过构建编辑数据集实现架构无关的微调
- 实验验证的优势
  - 量化优势
    - SOTA级视觉理解性能
    - 超越统一模型/MLLM的跨基准表现
  - 三大特性
    1. 提升生成质量与指令遵循性
    2. 无需特定架构的图像编辑能力
    3. 高分辨率下保持生成多样性
全文贡献总结
- 模型层面：通过数据/骨干/训练策略的全面改进，推进视觉理解与生成的统一
- 方法层面：提出渐进分辨率提升与指令微调+RL的迭代训练框架
- 实证层面：实验证实模型在理解/生成/编辑能力的全面进步

2. Related Work

2.1 视觉生成与多模态学习

生成模型技术路线
- 扩散模型：
  - 核心方法：通过逆向噪声到图像的扩散过程实现生成
  - 优化方向：采样算法改进和架构创新
- 流模型：提供简化替代方案
- 自回归方法：
  - 采用GPT式token预测
  - 依赖视觉tokenizer将图像离散化
  - 最新变体：基于尺度预测的VAR 和HART ，遵循缩放定律原则
多模态大语言模型(MLLMs)
- 典型架构：视觉编码器+文本解码器+跨模态连接器
- 代表性工作：
  - LLaVA系列及其衍生模型：通过指令微调和高质数据集提升视觉-语言理解
  - Qwen-VL 和InstructBLIP ：在训练范式和多模态融合方面取得进展
本文定位：结合自回归尺度预测与多模态框架的见解

2.2 视觉理解与生成的统一模型

现有技术局限
- 主流方案：将预训练扩散模型与现有系统集成
- 本质缺陷：扩散模型作为外部工具而非模型内在生成能力
探索
- 混合建模：
  - Show-o：结合自回归与离散扩散模型，处理混合模态I/O
  - Dual Diffusion：双扩散模型并行处理理解与生成
- 自回归统一：
  - LWM 和Chameleon：使用VQ tokenizer 实现多模态理解与生成
  - Janus ：通过视觉编码路径解耦提升灵活性
  - Liquid：同一嵌入空间下的自回归视觉理解与生成（next-token预测）
最新进展：
- QLIP：文本对齐的视觉token化方法
- VILA-U：统一理解与生成的基座模型
- UniTok：统一tokenizer框架
- MINT：多模态思维链增强生成
- Janus-Pro：通过数据与模型规模扩展提升性能
本文差异化
- 双范式统一：
  - 视觉理解：next-token prediction
  - 视觉生成：next-scale prediction

2.3 强化学习在语言模型中的应用

核心进展
- 偏好对齐：DeepSeek-R1：基于AI反馈的规模化RFT
- 数学推理：
  - Math-Shepherd：步骤级验证
  - DeepSeek-Math：GRPO 消除critic模型需求
- 效率提升：
  - LIMR：高影响力样本训练减少84%数据需求
多模态扩展
- Visual-RFT 和Grounding-LLM ：扩展到多模态与交互环境
- MM-RLHF ：12万人类标注细粒度偏好对比数据集
对本文的启示
- 采用DPO实现输出偏好对齐
- 继承RL在LLM优化中的方法论（如交替SFT-RL阶段）

3. Methodology

3.1 Model Architecture

VARGPT1.1
为了方便理解，我附上VARGPT的架构图

3.1.1 整体架构设计

继承性：完全遵循VARGPT的架构设计
双范式核心：
- 视觉理解：next-token prediction
- 图像生成：next-scale prediction
可视化：架构示意图见上图Figure 4

3.1.2 视觉理解模块

方式：Next token predict
组件构成
- 语言模型骨干：Qwen2（记为θ）
- 视觉编码器：Vision Transformer (ViT)
- 投影器：双层线性网络
数据处理流程
1. 图像输入：视觉理解图像 $X^{img}$ 经ViT编码为嵌入 $H^{img}$
2. 对齐处理：通过接口调整 $H^{img}$ 使其与文本查询 $X^{query}$ 的嵌入 $H^{txt}$ 对齐
3. 联合输入：对齐后的 $H^{img}, H^{txt})$ 作为LLM输入
4. 自回归生成：
  $Y_t^{txt} \sim p_\theta(Y_t^{txt} | X^{img}, X^{query}, Y_{<t}^{txt})$
  - $Y_t^{txt}$ ：第t步生成的文本token
  - $Y_{<t}^{txt}$ ：历史生成序列
注意力机制
- 对所有LLM输入token（包括图像生成相关token）施加因果注意力掩码

3.1.3 视觉生成模块

方式：Next-scale predict
- 主要参考Infinity和VAR的方案
核心组件
1. 多尺度tokenizer：采用bitwise multi-scale residual quantizer
2. 双投影器：在LLM输入/输出端分别构建图像生成投影器
3. 视觉解码器：
  - 独立32层Transformer结构（参数量2B）
  - 作用：解码视觉特征，避免文本解码器与图像生成知识冲突
4. 多尺度VAE解码器：将视觉解码器输出转换为最终图像
注意力机制
- 采用块因果注意力（block causal attention）
- 支持next-scale的token预测
训练优化：使用Infinity的无限词汇分类器技术计算视觉生成相关损失

3.1.4 混合模态生成控制

提示模板：使用特殊token标记区分文本生成与图像合成任务（继承VARGPT设计）
生成质量增强：采用与VARGPT相同的 CFG 技术提升图像生成质量

3.2 Training

整体训练框架
训练框架概述
三阶段继承性：延续VARGPT的三阶段训练方法
核心改进：在第三阶段引入迭代指令微调和强化学习
以下为stage 3的具体流程

3.2.1 视觉指令微调 Visual Instruction Tuning

训练目标：通过监督微调赋予模型视觉生成能力
参数设置
- 解冻参数：视觉解码器 + 双生成投影器
- 冻结参数：其余所有组件
渐进式分辨率训练
1. 第一阶段SFT
  - 分辨率：256×256
  - 训练步数：40,000步
  - 目标：建立基础图像生成能力
2. 第二阶段SFT
  - 分辨率：512×512
  - 训练步数：30,000步
  - 目标：增强高分辨率生成能力
训练数据：830万指令对

3.2.2 基于人类反馈的强化学习 RLHF

问题建模：将生成质量提升转化为偏好选择问题，通过DPO实现
偏好数据构建
- 输入提示：从Midjourney prompt数据集中采样100k条 $x$
- 负样本 $y_l$ ：不同SFT检查点模型的输出
- 正样本 $y_w$ ：商业模型（Midjourney v6 + Flux-1.1 pro）生成
- 数据集： $D = \{(x, y_l, y_w)\}$
策略优化目标
$\mathcal{L}_{rl}(\pi_\theta; \pi_{ref}) = -\mathbb{E}_{(x,y_w,y_l)\sim D} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta^{img}(y_w|x)}{\pi_{ref}^{img}(y_w|x)} - \beta \log \frac{\pi_\theta^{img}(y_l|x)}{\pi_{ref}^{img}(y_l|x)} \right) \right]$
- $\pi_\theta^{img}$ ：策略模型（针对图像token）
- $\pi_{ref}^{img}$ ：参考模型（后SFT训练的模型）【可以看Figure 6】
- $\beta$ ：奖励相关超参
- 隐式奖励表示： $\hat{r}(x,y) = \beta \log \frac{\pi_\theta^{img}(y|x)}{\pi_{ref}^{img}(y|x)}$
图像token策略模型
$\pi_*^{img} = \text{softmax}(\text{logit}_*^{[img]}), \quad * \in \{\theta, ref\}$
- $\text{logit}_*^{[img]}$ ：图像token位置的logits

3.2.3 视觉编辑的SFT微调

数据构建
- 来源：StyleBooth
- 规模：11,325条编辑指令样本
训练流程
1. 输入处理：
  - 目标图像经视觉编码器处理
  - 编辑指令作为文本提示
2. 优化目标：监督模型逼近编辑后图像的分布
关键特性
1. 架构不变性：仅通过参数空间优化实现编辑能力
2. 统一多模态编辑：联合文本-图像token预测
3. 全参数微调：解冻所有参数以平衡编辑保真度与生成多样性