当前位置: 首页 > wzjs >正文

网站开发与管理内容上海做网站优化

网站开发与管理内容,上海做网站优化,做淘客网站怎么,歌曲网站模板Note 字节跳动发布BAGEL-7B-MoT混合专家多模态模型,支持视觉理解,文本到图像生成,图像编辑,并且思考模式可以选择开启。官方说要比 Qwen2.5-VL 和 InternVL-2.5 表现好。这个模型本身是基于 Qwen2.5-7B-Instruct 和 siglip-so400…

Note

  • 字节跳动发布BAGEL-7B-MoT混合专家多模态模型,支持视觉理解,文本到图像生成,图像编辑,并且思考模式可以选择开启。官方说要比 Qwen2.5-VL 和 InternVL-2.5 表现好。
  • 这个模型本身是基于 Qwen2.5-7B-Instruct 和 siglip-so400m-14-980-flash-attn2-navit 模型微调的,并使用 FLUX.1-schnell VAE 模型。
  • 多模态模型效果:seed_vl>qwenvl>internvl>kimivl>minicpm

文章目录

  • Note
  • 一、字节BAGEL多模态模型
  • 二、训练数据和模型训练
    • 1. 训练数据
    • 2. 模型训练
  • 三、效果分析
  • Reference

一、字节BAGEL多模态模型

  • BAGEL 在标准多模态理解排行榜上超越了当前顶级的开源VLMs,如Qwen2.5-VL和InternVL-2.5,并且提供了与强大的专业生成器如SD3竞争的文本到图像质量。
  • BAGEL 在经典的图像编辑场景中展示了比领先的开源模型更好的定性结果。更重要的是,它扩展到了自由形式的视觉操作、多视图合成和世界导航,这些能力构成了超出以往图像编辑模型范围的“世界建模”任务。

使用MoE架构,有两个transformer expert,每个专家都通过共享的自注意力操作处理相同的token序列:
在这里插入图片描述
视觉编码器:

  • 视觉理解:使用ViT编码器将图片像素转为token
  • 视觉生成:使用Flux的预训练VAE模型将图片从像素空间转为latent空间

二、训练数据和模型训练

1. 训练数据

视频数据​​:从大规模网络视频中提取高质量训练片段,通过时间分割、空间裁剪和质量过滤来确保视频数据的质量。使用Koala36M和MVImgNet2.0等开源数据集来补充视频数据。
​​网页数据​​:从OmniCorpus等大规模网页文档中提取数据,采用两阶段过滤策略:首先使用LLM进行轻量级主题选择,然后进行细粒度过滤。过滤规则包括UI去除、分辨率限制、图像清晰度检查、文本密度检查和相关性检查等。
​​交错数据构建​​:从视频中生成时间对齐的文本描述,从网页文档中生成概念性的标题。此外,构建50万条推理增强的例子,涵盖文本到图像生成、自由形式图像编辑和抽象编辑四类任务。

2. 模型训练

  • ​​对齐阶段(Alignment)​​:在这个阶段,仅训练MLP连接器,保持视觉编码器和语言模型冻结。使用图像-文本对数据进行图像字幕生成,以初始化ViT编码器与Qwen2.5 LLM的对齐。
  • ​​预训练阶段(Pre-training, PT)​​:在这个阶段,除了VAE之外的所有模型参数都是可训练的。训练语料库包括2.5T令牌,涵盖文本、图像-文本对、多模态对话、网页交错和视频交错数据。采用原生分辨率策略,限制图像的最大长边和最小短边。
  • ​​继续训练阶段(Continued Training, CT)​​:在这个阶段,提高视觉输入分辨率,并增加交错数据的采样比例,以强调跨模态推理的学习。CT阶段消耗约2.6T令牌。
  • ​​监督微调阶段(Supervised Fine-tuning, SFT)​​:在这个阶段,构建高质量的图像-文本对子集和交错生成子集,分别用于多模态生成和多模态理解。SFT阶段的总训练令牌数为72.7亿。

三、效果分析

  • 图像理解​​:在六个广泛使用的视觉理解基准上,BAGEL在大多数基准上超越了现有的统一模型。例如,在MM-Vet基准上,BAGEL比Janus-Pro提高了17.1个百分点。
  • 图像生成​​:在GenEval基准上,BAGEL的综合得分为0.88,超过了所有现有的开源模型和私有模型,包括GPT-4o。
  • ​​图像编辑​​:在GEdit-Bench基准上,BAGEL的表现与现有的专业图像编辑模型Step1X-Edit相当,并在IntelligentBench基准上显著优于现有开源模型。
  • ​​推理增强生成​​:在WISE基准上,使用链式思维过程(CoT)的BAGEL得分提高了0.18,显著优于现有开源模型。
  • ​​世界建模​​:通过增加视频和导航数据的训练比例,BAGEL展示了强大的世界理解和模拟能力,包括世界导航、旋转和多帧生成。

Reference

https://huggingface.co/papers/2505.14683,
https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT,
https://github.com/bytedance-seed/BAGEL

http://www.dtcms.com/wzjs/394642.html

相关文章:

  • 做pc网站如何实时预览二手交易平台
  • 大学生做的网站湖南靠谱的关键词优化哪家好
  • wordpress qq微信登陆地址北京seo怎么优化
  • 全能网站建设pdfseo简介
  • 门店广告牌设计广州关键词优化外包
  • 古玩网站建设意义网络公司网络营销推广方案
  • 做导航网站犯法吗百度搜索优化怎么做
  • 网站如何上传广州新闻24小时爆料热线
  • 集团网站品牌建设特点aso优化排名推广
  • 山东网站建设哪家专业seo搜索引擎
  • 成交型网站建设方案济宁百度推广公司有几家
  • 公司做网站需要准备什么资料百度推广登录平台登录
  • 北京企业官网网站建设哪家好友链申请
  • 潍坊米搜网站建设seo整站优化什么价格
  • 贵州省住房城乡建设部网站seo关键词排名软件流量词
  • 网站的v2信誉认证怎么做成品网站货源1688在线
  • 网站建设一般多少费用南京seo网站优化
  • dede cms 网站模板优化关键词推广
  • 做网站需要画原型图么白杨seo教程
  • 织梦网站怎样做seosemi是什么意思
  • 怎么做物流网站sq网站推广
  • 广州天河区最新疫情情况seo怎么推广
  • 知识付费小程序源码seo排名优化
  • 专业网页制作网站推广公司上海优化网站seo公司
  • wordpress调用支付宝南宁百度seo公司
  • 鞋业有限公司网站设计域名大全查询
  • 找做网站技术人员营销方式和渠道有哪些
  • 潍坊有哪些网站推广软文300字
  • 网站域名在哪里百度一下你就知道官页
  • ps怎样做网站大图女教师遭网课入侵视频