当前位置: 首页 > wzjs >正文

asp动态网站制作网站外部优化的4大重点

asp动态网站制作,网站外部优化的4大重点,上海闵行区兼职网,汕头网站建设方案书Note 字节跳动发布BAGEL-7B-MoT混合专家多模态模型,支持视觉理解,文本到图像生成,图像编辑,并且思考模式可以选择开启。官方说要比 Qwen2.5-VL 和 InternVL-2.5 表现好。这个模型本身是基于 Qwen2.5-7B-Instruct 和 siglip-so400…

Note

  • 字节跳动发布BAGEL-7B-MoT混合专家多模态模型,支持视觉理解,文本到图像生成,图像编辑,并且思考模式可以选择开启。官方说要比 Qwen2.5-VL 和 InternVL-2.5 表现好。
  • 这个模型本身是基于 Qwen2.5-7B-Instruct 和 siglip-so400m-14-980-flash-attn2-navit 模型微调的,并使用 FLUX.1-schnell VAE 模型。
  • 多模态模型效果:seed_vl>qwenvl>internvl>kimivl>minicpm

文章目录

  • Note
  • 一、字节BAGEL多模态模型
  • 二、训练数据和模型训练
    • 1. 训练数据
    • 2. 模型训练
  • 三、效果分析
  • Reference

一、字节BAGEL多模态模型

  • BAGEL 在标准多模态理解排行榜上超越了当前顶级的开源VLMs,如Qwen2.5-VL和InternVL-2.5,并且提供了与强大的专业生成器如SD3竞争的文本到图像质量。
  • BAGEL 在经典的图像编辑场景中展示了比领先的开源模型更好的定性结果。更重要的是,它扩展到了自由形式的视觉操作、多视图合成和世界导航,这些能力构成了超出以往图像编辑模型范围的“世界建模”任务。

使用MoE架构,有两个transformer expert,每个专家都通过共享的自注意力操作处理相同的token序列:
在这里插入图片描述
视觉编码器:

  • 视觉理解:使用ViT编码器将图片像素转为token
  • 视觉生成:使用Flux的预训练VAE模型将图片从像素空间转为latent空间

二、训练数据和模型训练

1. 训练数据

视频数据​​:从大规模网络视频中提取高质量训练片段,通过时间分割、空间裁剪和质量过滤来确保视频数据的质量。使用Koala36M和MVImgNet2.0等开源数据集来补充视频数据。
​​网页数据​​:从OmniCorpus等大规模网页文档中提取数据,采用两阶段过滤策略:首先使用LLM进行轻量级主题选择,然后进行细粒度过滤。过滤规则包括UI去除、分辨率限制、图像清晰度检查、文本密度检查和相关性检查等。
​​交错数据构建​​:从视频中生成时间对齐的文本描述,从网页文档中生成概念性的标题。此外,构建50万条推理增强的例子,涵盖文本到图像生成、自由形式图像编辑和抽象编辑四类任务。

2. 模型训练

  • ​​对齐阶段(Alignment)​​:在这个阶段,仅训练MLP连接器,保持视觉编码器和语言模型冻结。使用图像-文本对数据进行图像字幕生成,以初始化ViT编码器与Qwen2.5 LLM的对齐。
  • ​​预训练阶段(Pre-training, PT)​​:在这个阶段,除了VAE之外的所有模型参数都是可训练的。训练语料库包括2.5T令牌,涵盖文本、图像-文本对、多模态对话、网页交错和视频交错数据。采用原生分辨率策略,限制图像的最大长边和最小短边。
  • ​​继续训练阶段(Continued Training, CT)​​:在这个阶段,提高视觉输入分辨率,并增加交错数据的采样比例,以强调跨模态推理的学习。CT阶段消耗约2.6T令牌。
  • ​​监督微调阶段(Supervised Fine-tuning, SFT)​​:在这个阶段,构建高质量的图像-文本对子集和交错生成子集,分别用于多模态生成和多模态理解。SFT阶段的总训练令牌数为72.7亿。

三、效果分析

  • 图像理解​​:在六个广泛使用的视觉理解基准上,BAGEL在大多数基准上超越了现有的统一模型。例如,在MM-Vet基准上,BAGEL比Janus-Pro提高了17.1个百分点。
  • 图像生成​​:在GenEval基准上,BAGEL的综合得分为0.88,超过了所有现有的开源模型和私有模型,包括GPT-4o。
  • ​​图像编辑​​:在GEdit-Bench基准上,BAGEL的表现与现有的专业图像编辑模型Step1X-Edit相当,并在IntelligentBench基准上显著优于现有开源模型。
  • ​​推理增强生成​​:在WISE基准上,使用链式思维过程(CoT)的BAGEL得分提高了0.18,显著优于现有开源模型。
  • ​​世界建模​​:通过增加视频和导航数据的训练比例,BAGEL展示了强大的世界理解和模拟能力,包括世界导航、旋转和多帧生成。

Reference

https://huggingface.co/papers/2505.14683,
https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT,
https://github.com/bytedance-seed/BAGEL

http://www.dtcms.com/wzjs/484794.html

相关文章:

  • 做可视化图表的网站宁德市是哪个省
  • 筑方装饰口碑怎么样手机网络优化软件
  • 设计与绘制一个网站首页河南网站建设定制
  • 网站框架怎么建设关键词网站排名查询
  • 网站做的自适应体验差怎么自己开网站
  • 怎么做钓鱼网站生成常用的网络营销平台有哪些
  • 网站做百度推广为什么没人咨询网页制作代码大全
  • 深圳高端网站建设网页设计seo优化厂商
  • 做网站需要写代码吗国内做seo最好公司
  • 个人备案 做政府网站seoul怎么读
  • 备案网站名称更改市场调研的五个步骤
  • 做动态头像的网站roseonly企业网站优化
  • 公司的网站建设做什么费用职业技能培训班
  • 0建设营销型网站步骤介绍企业网站怎么注册官网
  • 网站建设申报书火星时代教育培训机构学费多少
  • 长春市长春网站建设哪家好手机如何建网站
  • 企业网站怎么做推广比较好360seo优化
  • 柳州房地产网站建设百度广告位价格表
  • 无锡做装修网站网推
  • 外链发布平台有哪些国内seo公司排名
  • 济南专业网站开发公司百度seo培训课程
  • 承接设计网站建设网站开发工具
  • axure能不能直接做网站查域名
  • 做网站要学什么软件如何建站
  • nas装wordpress搜索引擎优化主要包括
  • dedecms网站后台济南百度代理
  • 网站建设淘宝走流程深圳十大网络推广公司排名
  • 国产成年做视频网站google浏览器官网
  • 网站开发wbs工作分解结构谷歌seo怎么优化
  • 24小时看b站直播的软件安卓优化大师下载安装到手机