当前位置: 首页 > wzjs >正文

wordpress改为中文版windows优化大师的作用

wordpress改为中文版,windows优化大师的作用,海拉尔做网站的公司,网站开发技术项目实战Note 字节跳动发布BAGEL-7B-MoT混合专家多模态模型,支持视觉理解,文本到图像生成,图像编辑,并且思考模式可以选择开启。官方说要比 Qwen2.5-VL 和 InternVL-2.5 表现好。这个模型本身是基于 Qwen2.5-7B-Instruct 和 siglip-so400…

Note

  • 字节跳动发布BAGEL-7B-MoT混合专家多模态模型,支持视觉理解,文本到图像生成,图像编辑,并且思考模式可以选择开启。官方说要比 Qwen2.5-VL 和 InternVL-2.5 表现好。
  • 这个模型本身是基于 Qwen2.5-7B-Instruct 和 siglip-so400m-14-980-flash-attn2-navit 模型微调的,并使用 FLUX.1-schnell VAE 模型。
  • 多模态模型效果:seed_vl>qwenvl>internvl>kimivl>minicpm

文章目录

  • Note
  • 一、字节BAGEL多模态模型
  • 二、训练数据和模型训练
    • 1. 训练数据
    • 2. 模型训练
  • 三、效果分析
  • Reference

一、字节BAGEL多模态模型

  • BAGEL 在标准多模态理解排行榜上超越了当前顶级的开源VLMs,如Qwen2.5-VL和InternVL-2.5,并且提供了与强大的专业生成器如SD3竞争的文本到图像质量。
  • BAGEL 在经典的图像编辑场景中展示了比领先的开源模型更好的定性结果。更重要的是,它扩展到了自由形式的视觉操作、多视图合成和世界导航,这些能力构成了超出以往图像编辑模型范围的“世界建模”任务。

使用MoE架构,有两个transformer expert,每个专家都通过共享的自注意力操作处理相同的token序列:
在这里插入图片描述
视觉编码器:

  • 视觉理解:使用ViT编码器将图片像素转为token
  • 视觉生成:使用Flux的预训练VAE模型将图片从像素空间转为latent空间

二、训练数据和模型训练

1. 训练数据

视频数据​​:从大规模网络视频中提取高质量训练片段,通过时间分割、空间裁剪和质量过滤来确保视频数据的质量。使用Koala36M和MVImgNet2.0等开源数据集来补充视频数据。
​​网页数据​​:从OmniCorpus等大规模网页文档中提取数据,采用两阶段过滤策略:首先使用LLM进行轻量级主题选择,然后进行细粒度过滤。过滤规则包括UI去除、分辨率限制、图像清晰度检查、文本密度检查和相关性检查等。
​​交错数据构建​​:从视频中生成时间对齐的文本描述,从网页文档中生成概念性的标题。此外,构建50万条推理增强的例子,涵盖文本到图像生成、自由形式图像编辑和抽象编辑四类任务。

2. 模型训练

  • ​​对齐阶段(Alignment)​​:在这个阶段,仅训练MLP连接器,保持视觉编码器和语言模型冻结。使用图像-文本对数据进行图像字幕生成,以初始化ViT编码器与Qwen2.5 LLM的对齐。
  • ​​预训练阶段(Pre-training, PT)​​:在这个阶段,除了VAE之外的所有模型参数都是可训练的。训练语料库包括2.5T令牌,涵盖文本、图像-文本对、多模态对话、网页交错和视频交错数据。采用原生分辨率策略,限制图像的最大长边和最小短边。
  • ​​继续训练阶段(Continued Training, CT)​​:在这个阶段,提高视觉输入分辨率,并增加交错数据的采样比例,以强调跨模态推理的学习。CT阶段消耗约2.6T令牌。
  • ​​监督微调阶段(Supervised Fine-tuning, SFT)​​:在这个阶段,构建高质量的图像-文本对子集和交错生成子集,分别用于多模态生成和多模态理解。SFT阶段的总训练令牌数为72.7亿。

三、效果分析

  • 图像理解​​:在六个广泛使用的视觉理解基准上,BAGEL在大多数基准上超越了现有的统一模型。例如,在MM-Vet基准上,BAGEL比Janus-Pro提高了17.1个百分点。
  • 图像生成​​:在GenEval基准上,BAGEL的综合得分为0.88,超过了所有现有的开源模型和私有模型,包括GPT-4o。
  • ​​图像编辑​​:在GEdit-Bench基准上,BAGEL的表现与现有的专业图像编辑模型Step1X-Edit相当,并在IntelligentBench基准上显著优于现有开源模型。
  • ​​推理增强生成​​:在WISE基准上,使用链式思维过程(CoT)的BAGEL得分提高了0.18,显著优于现有开源模型。
  • ​​世界建模​​:通过增加视频和导航数据的训练比例,BAGEL展示了强大的世界理解和模拟能力,包括世界导航、旋转和多帧生成。

Reference

https://huggingface.co/papers/2505.14683,
https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT,
https://github.com/bytedance-seed/BAGEL

http://www.dtcms.com/wzjs/232891.html

相关文章:

  • cms系统网站精准客源
  • 如何做网站咨询公司策划推广
  • 北京学做网站就业seo好还是sem
  • 哪些网站国内打不开口碑营销的产品有哪些
  • 比较好的海报设计网站武安百度seo
  • 企业彩铃制作网站淘宝关键词排名怎么查询
  • 广东珠海网站建设b2b平台
  • 网站设计公司官网小红书seo优化
  • 经典的公司简介范文百度seo排名曝光行者seo
  • 动态网站开发知识点北京优化推广
  • 专业外包网站建设公司长沙网络营销推广公司
  • java做网站要哪些软件成都做网络推广的公司有哪些
  • 谁有做那事的网站网络推广seo怎么做
  • 网上接网站开发类订单的平台网站百度收录突然消失了
  • 做那个的网站seo引擎优化是什
  • 个人网站建设图片素材企业营销策划是做什么的
  • 网站域名地址是什么上海网络公司seo
  • 做设计接外快在哪个网站企业站seo价格
  • 慈城旅游网站建设策划书广州广告公司
  • 企业推广语南安seo
  • 重庆公司专业建站外链推广是什么意思
  • 南昌网站建设业务新乡百度网站优化排名
  • 网络维护培训班seo建站是什么意思
  • 做文案公众号策划兼职网站nba常规赛
  • 做个公司网站一般多少钱深圳百度开户
  • 网站建设收费标准教程cnzz
  • 网站seo优化seo自媒体培训
  • 做网站密云今日要闻 最新热点
  • 网站建设视觉效果百度的营销中心上班怎么样
  • 铁岭房地产网站建设今日头条seo