当前位置: 首页 > news >正文

【MLLM】字节BAGEL多模态理解和生成统一模型

Note

  • 字节跳动发布BAGEL-7B-MoT混合专家多模态模型,支持视觉理解,文本到图像生成,图像编辑,并且思考模式可以选择开启。官方说要比 Qwen2.5-VL 和 InternVL-2.5 表现好。
  • 这个模型本身是基于 Qwen2.5-7B-Instruct 和 siglip-so400m-14-980-flash-attn2-navit 模型微调的,并使用 FLUX.1-schnell VAE 模型。
  • 多模态模型效果:seed_vl>qwenvl>internvl>kimivl>minicpm

文章目录

  • Note
  • 一、字节BAGEL多模态模型
  • 二、训练数据和模型训练
    • 1. 训练数据
    • 2. 模型训练
  • 三、效果分析
  • Reference

一、字节BAGEL多模态模型

  • BAGEL 在标准多模态理解排行榜上超越了当前顶级的开源VLMs,如Qwen2.5-VL和InternVL-2.5,并且提供了与强大的专业生成器如SD3竞争的文本到图像质量。
  • BAGEL 在经典的图像编辑场景中展示了比领先的开源模型更好的定性结果。更重要的是,它扩展到了自由形式的视觉操作、多视图合成和世界导航,这些能力构成了超出以往图像编辑模型范围的“世界建模”任务。

使用MoE架构,有两个transformer expert,每个专家都通过共享的自注意力操作处理相同的token序列:
在这里插入图片描述
视觉编码器:

  • 视觉理解:使用ViT编码器将图片像素转为token
  • 视觉生成:使用Flux的预训练VAE模型将图片从像素空间转为latent空间

二、训练数据和模型训练

1. 训练数据

视频数据​​:从大规模网络视频中提取高质量训练片段,通过时间分割、空间裁剪和质量过滤来确保视频数据的质量。使用Koala36M和MVImgNet2.0等开源数据集来补充视频数据。
​​网页数据​​:从OmniCorpus等大规模网页文档中提取数据,采用两阶段过滤策略:首先使用LLM进行轻量级主题选择,然后进行细粒度过滤。过滤规则包括UI去除、分辨率限制、图像清晰度检查、文本密度检查和相关性检查等。
​​交错数据构建​​:从视频中生成时间对齐的文本描述,从网页文档中生成概念性的标题。此外,构建50万条推理增强的例子,涵盖文本到图像生成、自由形式图像编辑和抽象编辑四类任务。

2. 模型训练

  • ​​对齐阶段(Alignment)​​:在这个阶段,仅训练MLP连接器,保持视觉编码器和语言模型冻结。使用图像-文本对数据进行图像字幕生成,以初始化ViT编码器与Qwen2.5 LLM的对齐。
  • ​​预训练阶段(Pre-training, PT)​​:在这个阶段,除了VAE之外的所有模型参数都是可训练的。训练语料库包括2.5T令牌,涵盖文本、图像-文本对、多模态对话、网页交错和视频交错数据。采用原生分辨率策略,限制图像的最大长边和最小短边。
  • ​​继续训练阶段(Continued Training, CT)​​:在这个阶段,提高视觉输入分辨率,并增加交错数据的采样比例,以强调跨模态推理的学习。CT阶段消耗约2.6T令牌。
  • ​​监督微调阶段(Supervised Fine-tuning, SFT)​​:在这个阶段,构建高质量的图像-文本对子集和交错生成子集,分别用于多模态生成和多模态理解。SFT阶段的总训练令牌数为72.7亿。

三、效果分析

  • 图像理解​​:在六个广泛使用的视觉理解基准上,BAGEL在大多数基准上超越了现有的统一模型。例如,在MM-Vet基准上,BAGEL比Janus-Pro提高了17.1个百分点。
  • 图像生成​​:在GenEval基准上,BAGEL的综合得分为0.88,超过了所有现有的开源模型和私有模型,包括GPT-4o。
  • ​​图像编辑​​:在GEdit-Bench基准上,BAGEL的表现与现有的专业图像编辑模型Step1X-Edit相当,并在IntelligentBench基准上显著优于现有开源模型。
  • ​​推理增强生成​​:在WISE基准上,使用链式思维过程(CoT)的BAGEL得分提高了0.18,显著优于现有开源模型。
  • ​​世界建模​​:通过增加视频和导航数据的训练比例,BAGEL展示了强大的世界理解和模拟能力,包括世界导航、旋转和多帧生成。

Reference

https://huggingface.co/papers/2505.14683,
https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT,
https://github.com/bytedance-seed/BAGEL

相关文章:

  • 获取 OpenAI API Key
  • GIC700概述
  • python中Tk小工具-物料品名匹配系统
  • 基于51单片机的24小时倒计时仿真
  • VB.net复制Ntag213卡写入UID
  • 统一点云数据格式:高效转换与属性保留
  • 桌面图标无法对齐!
  • CountingDINO
  • C++中的排列组合算法详解
  • 学习使用YOLO的predict函数使用
  • Go 语言 range 关键字全面解析
  • 算法题(164):贴海报
  • Mysql 插入中文乱码
  • MS2691 全频段、多模导航、射频低噪声放大器芯片,应用于导航仪 双频测量仪
  • STM32标准库-输入捕获
  • 在 Windows 11 或 10 上删除、创建和格式化分区
  • 力扣刷题(第五十天)
  • 蓝桥杯单片机之通过实现同一个按键的短按与长按功能
  • Java-IO流之序列化与反序列化详解
  • exec进程替换函数族
  • 营销型网站建设优化/网站优化的方式有哪些
  • 黑客入侵网站怎么做/推广网络广告
  • 泰州高端网站建设/怎么制作小程序
  • 网站中的二级菜单怎么做23/网店推广培训
  • wordpress论坛系统/微信搜索seo优化
  • wordpress怎样加快访问/汽车seo是什么意思