当前位置: 首页 > news >正文

【论文阅读】VARGPT-v1.1

VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning

  • 原文摘要

    • 模型定位与基础

      • VARGPT-v1.1是基于前代VARGPT框架的先进统一视觉自回归模型,延续了"双范式"设计:

        • 视觉理解:通过next-token prediction实现

        • 图像合成:通过next-scale generation实现

    • 五大核心改进

      • 训练策略创新

        • 结合迭代式视觉指令微调
        • 引入基于DPO的强化学习
      • 数据扩展:训练语料库扩充至830万视觉-生成指令对

      • 骨干网络升级:语言模型主干替换为更先进的Qwen2

      • 生成质量提升:增强图像生成分辨率

      • 涌现能力:无需架构修改即获得图像编辑功能

    • 性能表现

      • 在多模态理解和文本到图像的指令跟随任务中达到SOTA

      • 理解和生成指标均有显著提升

    • 关键发现

      • 通过视觉指令微调,模型在保持架构一致性的前提下获得了图像编辑能力

      • 揭示了统一模型在视觉理解、生成和编辑三方面的潜力

    • 方法启示

      • 设计良好的统一视觉自回归模型可有效借鉴LLM的灵活训练策略

      • 展现出良好的可扩展性

1. Introduction

  • 多模态AI研究背景与现状

    • 领域双突破

      • 理解侧:MLLMs主导跨模态理解
      • 生成侧:Denoising Diffusion Models通过迭代优化引领视觉生成
    • 统一框架的三大范式

      1. 组装系统(Assembly Systems):LLM+Diffusion模型级联
      2. 纯自回归架构(Pure Autoregression):视觉token预测
      3. 双扩散模型(Dual-diffusion):并行生成机制

    • 现存问题

      • 理解与生成任务存在表征冲突
      • 即使TokenFlow统一了tokenization,其生成与理解流程仍解耦
  • VARGPT的初始设计及局限

    • 前代方案

      • VARGPT首次在视觉自回归MLLM中统一生成与理解
      • 双范式机制
        • 视觉理解:next-token prediction
        • 视觉生成:next-scale prediction
    • 存在缺陷

      1. 训练数据规模不足
      2. 训练迭代次数不足
      3. 图像生成指令跟随能力欠佳
      4. 生成领域受限(仅覆盖ImageNet类别)
  • VARGPT-v1.1的核心改进

    • 四大技术创新

      1. 多阶段训练范式

        • 迭代视觉指令微调 + DPO强化学习
        • 渐进式分辨率提升(256×256→512×512)与交替SFT-RL训练
      2. 数据扩展

        • 830万指令对:420万真实数据、410万合成数据
      3. 骨干网络升级

        • 迁移至Qwen2-7B:更优tokenization效率与注意力机制
      4. 无架构修改的图像编辑

        • 通过构建编辑数据集实现架构无关的微调
    • 实验验证的优势

      • 量化优势

        • SOTA级视觉理解性能
        • 超越统一模型/MLLM的跨基准表现

      • 三大特性

        1. 提升生成质量与指令遵循性
        2. 无需特定架构的图像编辑能力
        3. 高分辨率下保持生成多样性
  • 全文贡献总结

    • 模型层面:通过数据/骨干/训练策略的全面改进,推进视觉理解与生成的统一

    • 方法层面:提出渐进分辨率提升与指令微调+RL的迭代训练框架

    • 实证层面:实验证实模型在理解/生成/编辑能力的全面进步

2. Related Work

2.1 视觉生成与多模态学习

  • 生成模型技术路线

    • 扩散模型

      • 核心方法:通过逆向噪声到图像的扩散过程实现生成
      • 优化方向:采样算法改进和架构创新
    • 流模型:提供简化替代方案

    • 自回归方法

      • 采用GPT式token预测
      • 依赖视觉tokenizer将图像离散化
      • 最新变体:基于尺度预测的VAR 和HART ,遵循缩放定律原则
  • 多模态大语言模型(MLLMs)

    • 典型架构:视觉编码器+文本解码器+跨模态连接器

    • 代表性工作:

      • LLaVA系列及其衍生模型 :通过指令微调和高质数据集提升视觉-语言理解
      • Qwen-VL 和InstructBLIP :在训练范式和多模态融合方面取得进展
  • 本文定位:结合自回归尺度预测与多模态框架的见解

2.2 视觉理解与生成的统一模型

  • 现有技术局限

    • 主流方案:将预训练扩散模型与现有系统集成
    • 本质缺陷:扩散模型作为外部工具而非模型内在生成能力
  • 探索

    • 混合建模

      • Show-o:结合自回归与离散扩散模型,处理混合模态I/O
      • Dual Diffusion:双扩散模型并行处理理解与生成
    • 自回归统一

      • LWM 和Chameleon:使用VQ tokenizer 实现多模态理解与生成
      • Janus :通过视觉编码路径解耦提升灵活性
      • Liquid:同一嵌入空间下的自回归视觉理解与生成(next-token预测)
  • 最新进展

    • QLIP:文本对齐的视觉token化方法
    • VILA-U:统一理解与生成的基座模型
    • UniTok:统一tokenizer框架
    • MINT:多模态思维链增强生成
    • Janus-Pro:通过数据与模型规模扩展提升性能
  • 本文差异化

    • 双范式统一
      • 视觉理解:next-token prediction
      • 视觉生成:next-scale prediction

2.3 强化学习在语言模型中的应用

  • 核心进展

    • 偏好对齐:DeepSeek-R1:基于AI反馈的规模化RFT

    • 数学推理

      • Math-Shepherd:步骤级验证
      • DeepSeek-Math:GRPO 消除critic模型需求
    • 效率提升

      • LIMR:高影响力样本训练减少84%数据需求
  • 多模态扩展

    • Visual-RFT 和Grounding-LLM :扩展到多模态与交互环境

    • MM-RLHF :12万人类标注细粒度偏好对比数据集

  • 对本文的启示

    • 采用DPO实现输出偏好对齐

    • 继承RL在LLM优化中的方法论(如交替SFT-RL阶段)

3. Methodology

3.1 Model Architecture

  • VARGPT1.1

  • 为了方便理解,我附上VARGPT的架构图

3.1.1 整体架构设计
  • 继承性:完全遵循VARGPT的架构设计
  • 双范式核心
    • 视觉理解:next-token prediction
    • 图像生成:next-scale prediction
  • 可视化:架构示意图见上图Figure 4
3.1.2 视觉理解模块
  • 方式:Next token predict

  • 组件构成

    • 语言模型骨干:Qwen2(记为θ)

    • 视觉编码器:Vision Transformer (ViT)

    • 投影器:双层线性网络

  • 数据处理流程

    1. 图像输入:视觉理解图像 X i m g X^{img} Ximg经ViT编码为嵌入 H i m g H^{img} Himg

    2. 对齐处理:通过接口调整 H i m g H^{img} Himg 使其与文本查询 X q u e r y X^{query} Xquery 的嵌入 H t x t H^{txt} Htxt 对齐

    3. 联合输入:对齐后的 ( H i m g , H t x t ) (H^{img}, H^{txt}) (Himg,Htxt) 作为LLM输入

    4. 自回归生成
      Y t t x t ∼ p θ ( Y t t x t ∣ X i m g , X q u e r y , Y < t t x t ) Y_t^{txt} \sim p_\theta(Y_t^{txt} | X^{img}, X^{query}, Y_{<t}^{txt}) Yttxtpθ(YttxtXimg,Xquery,Y<ttxt)

      • Y t t x t Y_t^{txt} Yttxt:第t步生成的文本token

      • Y < t t x t Y_{<t}^{txt} Y<ttxt:历史生成序列

  • 注意力机制

    • 对所有LLM输入token(包括图像生成相关token)施加因果注意力掩码
3.1.3 视觉生成模块
  • 方式:Next-scale predict

    • 主要参考Infinity和VAR的方案
  • 核心组件

    1. 多尺度tokenizer:采用bitwise multi-scale residual quantizer

    2. 双投影器:在LLM输入/输出端分别构建图像生成投影器

    3. 视觉解码器

      • 独立32层Transformer结构(参数量2B)

      • 作用:解码视觉特征,避免文本解码器与图像生成知识冲突

    4. 多尺度VAE解码器:将视觉解码器输出转换为最终图像

  • 注意力机制

    • 采用块因果注意力(block causal attention)

    • 支持next-scale的token预测

  • 训练优化:使用Infinity的无限词汇分类器技术计算视觉生成相关损失

3.1.4 混合模态生成控制
  • 提示模板:使用特殊token标记区分文本生成与图像合成任务(继承VARGPT设计)

  • 生成质量增强:采用与VARGPT相同的 CFG 技术提升图像生成质量

3.2 Training

  • 整体训练框架

  • 训练框架概述

  • 三阶段继承性:延续VARGPT的三阶段训练方法

  • 核心改进:在第三阶段引入迭代指令微调强化学习

  • 以下为stage 3的具体流程

3.2.1 视觉指令微调 Visual Instruction Tuning
  • 训练目标:通过监督微调赋予模型视觉生成能力

  • 参数设置

    • 解冻参数:视觉解码器 + 双生成投影器

    • 冻结参数:其余所有组件

  • 渐进式分辨率训练

    1. 第一阶段SFT

      • 分辨率:256×256
      • 训练步数:40,000步
      • 目标:建立基础图像生成能力
    2. 第二阶段SFT

      • 分辨率:512×512

      • 训练步数:30,000步

      • 目标:增强高分辨率生成能力

  • 训练数据:830万指令对

3.2.2 基于人类反馈的强化学习 RLHF
  • 问题建模:将生成质量提升转化为偏好选择问题,通过DPO实现

  • 偏好数据构建

    • 输入提示:从Midjourney prompt数据集中采样100k条 x x x

    • 负样本 y l y_l yl:不同SFT检查点模型的输出

    • 正样本 y w y_w yw:商业模型(Midjourney v6 + Flux-1.1 pro)生成

    • 数据集 D = { ( x , y l , y w ) } D = \{(x, y_l, y_w)\} D={(x,yl,yw)}

  • 策略优化目标
    L r l ( π θ ; π r e f ) = − E ( x , y w , y l ) ∼ D [ log ⁡ σ ( β log ⁡ π θ i m g ( y w ∣ x ) π r e f i m g ( y w ∣ x ) − β log ⁡ π θ i m g ( y l ∣ x ) π r e f i m g ( y l ∣ x ) ) ] \mathcal{L}_{rl}(\pi_\theta; \pi_{ref}) = -\mathbb{E}_{(x,y_w,y_l)\sim D} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta^{img}(y_w|x)}{\pi_{ref}^{img}(y_w|x)} - \beta \log \frac{\pi_\theta^{img}(y_l|x)}{\pi_{ref}^{img}(y_l|x)} \right) \right] Lrl(πθ;πref)=E(x,yw,yl)D[logσ(βlogπrefimg(ywx)πθimg(ywx)βlogπrefimg(ylx)πθimg(ylx))]

    • π θ i m g \pi_\theta^{img} πθimg:策略模型(针对图像token)

    • π r e f i m g \pi_{ref}^{img} πrefimg:参考模型(后SFT训练的模型)【可以看Figure 6】

    • β \beta β:奖励相关超参

    • 隐式奖励表示: r ^ ( x , y ) = β log ⁡ π θ i m g ( y ∣ x ) π r e f i m g ( y ∣ x ) \hat{r}(x,y) = \beta \log \frac{\pi_\theta^{img}(y|x)}{\pi_{ref}^{img}(y|x)} r^(x,y)=βlogπrefimg(yx)πθimg(yx)

  • 图像token策略模型
    π ∗ i m g = softmax ( logit ∗ [ i m g ] ) , ∗ ∈ { θ , r e f } \pi_*^{img} = \text{softmax}(\text{logit}_*^{[img]}), \quad * \in \{\theta, ref\} πimg=softmax(logit[img]),{θ,ref}

    • logit ∗ [ i m g ] \text{logit}_*^{[img]} logit[img]:图像token位置的logits
3.2.3 视觉编辑的SFT微调
  • 数据构建

    • 来源:StyleBooth

    • 规模:11,325条编辑指令样本

  • 训练流程

    1. 输入处理

      • 目标图像经视觉编码器处理
      • 编辑指令作为文本提示
    2. 优化目标:监督模型逼近编辑后图像的分布

  • 关键特性

    1. 架构不变性:仅通过参数空间优化实现编辑能力

    2. 统一多模态编辑:联合文本-图像token预测

    3. 全参数微调:解冻所有参数以平衡编辑保真度与生成多样性

4. Data & Experiments

  • Data

  • Experiments

http://www.dtcms.com/a/266582.html

相关文章:

  • Webpack构建工具
  • node.js下载教程
  • 机器学习数学基础与Python实现
  • 机器学习在智能建筑中的应用:能源管理与环境优化
  • 每日问题总结记录
  • 一、如何用MATLAB画一个三角形 代码
  • 基于AR和SLAM技术的商场智能导视系统技术原理详解
  • 京东小程序JS API仓颉改造实践
  • 深圳安锐科技发布国内首款4G 索力仪!让斜拉桥索力自动化监测更精准高效
  • 【centos8服务如何给服务器开发3306端口】
  • Python 中线程和进程在实际项目使用中的区别和联系
  • 解决HttpServletRequest无法获取@RequestBody修饰的参数
  • Java并发性能优化|读写锁与互斥锁解析
  • Python 中的可迭代对象与迭代器:原理与项目实战
  • 【Verilog】parameter、localparam和 `define的区别
  • Android View的绘制原理详解
  • 基于虚拟化技术的网闸安全交换:物理隔离时代的智能数据流通引擎
  • 最快实现的前端灰度方案
  • python打卡day58@浙大疏锦行
  • 算法19天|回溯算法:理论基础、组合、组合总和Ⅲ、电话号码的字母组合
  • 用原生 JS + Vue 实现一套可复用的前端错误监控系统
  • Python 机器学习核心入门与实战进阶 Day 2 - KNN(K-近邻算法)分类实战与调参
  • 【MATLAB代码】AOA与TDOA混合定位例程,适用于三维环境、4个锚点的情况,订阅专栏后可以获得完整代码
  • 计算机网络笔记(不全)
  • Windows 本地安装部署 Apache Druid
  • 无人机载重模块技术要点分析
  • Science Robotics发表 | 20m/s自主飞行+避开2.5mm电线的微型无人机!
  • CSS长度单位问题
  • 通过Claude 生成图片的prompt集锦(一)
  • 7.4项目一问题准备