当前位置: 首页 > news >正文

大模型学习周报十六

摘要

本周聚焦多模态大模型架构创新与交互式智能体训练方法。深入研究了字节Seed1.5-VL的三阶段预训练策略与强化学习后训练机制,重点分析了其动态帧采样和时间戳标记等核心技术;系统学习了LLaVA-mini的视觉token压缩与模态预融合优化方案,以及USERRL框架的交互式训练环境设计与轨迹级评分机制。研究构建了从多模态特征对齐到人机交互优化的完整技术认知链条。

Abstract

This week focused on multimodal model architecture innovations and interactive agent training methods. Conducted in-depth study of ByteDance Seed1.5-VL’s three-phase pre-training strategy and reinforcement learning post-training mechanism , with emphasis on core technologies like dynamic frame sampling and timestamp tokens. Systematically examined LLaVA-mini’s visual token compression and modality pre-fusion optimization, along with USERRL framework’s interactive training environment design and trajectory-level scoring mechanism. The research established a complete technical cognition chain from multimodal feature alignment to human-computer interaction optimization.

1、字节Seed1.5-VL

Seed1.5-VL由以下三个核心组件组成:

  • SeedViT:用于对图像和视频进行编码;

  • MLP适配器:将视觉特征投射为多模态token;

  • 大语言模型:用于处理多模态输入并执行推理。

    img

模型支持多种分辨率的图像输入,并通过原生分辨率变换*(native-resolution transform)*确保最大限度保留图像细节。

在视频处理方面,团队提出了一种动态帧分辨率采样策略(dynamic frame-resolution sampling strategy),能够根据需要动态调整采样帧率和分辨率。

此外,为了增强模型的时间信息感知能力,在每帧图像之前引入了时间戳标记(timestamp token)。
预训练过程分为三个阶段:

  • 阶段0:仅训练MLP适配器,以对齐视觉编码器和语言模型;
  • 阶段1:训练所有模型参数,重点是掌握视觉定位和OCR能力;
  • 阶段2:增加数据多样性,扩展序列长度,以适应视频理解和复杂推理任务。
    接下来团队又进行了后训练,使用了监督微调和强化学习等技术。

其一,使用高质量的指令数据对模型进行微调,包括一般指令和长链推理*(Long CoT)*数据;

其二,结合人类反馈和可验证奖励信号,通过PPO算法进行训练,以提高模型的对齐能力和推理能力。

需要注意的是,团队在后训练采用了结合拒绝采样(rejection sampling)在线强化学习(online reinforcement learning)的迭代更新方法。

他们构建了一条完整的数据pipeline,用于收集和筛选复杂提示,以增强后训练阶段的数据质量。

并且在强化学习过程中,监督信号通过奖励模型和规则验证器*(rule verifiers)*仅作用于模型生成的最终输出结果。

也就是说,团队*特意避免对模型的详细链式思维推理*(chain-of-thought reasoning)过程进行监督


最后,为了支持大规模预训练和后训练,团队还开发了一系列优化技术

  • 混合并行化:针对视觉编码器和语言模型的不同特点,采用不同的并行策略;
  • 工作负载平衡:通过贪心算法重新分配视觉数据,平衡GPU工作负载;
  • 并行感知数据加载:减少多模态数据的I/O开销;
  • 容错机制:使用MegaScale框架实现容错,确保训练的稳定性。

这些技术显著提高了训练吞吐量,并降低了硬件成本。

2、文献阅读

LLaVA-mini

LLaVA-mini: efficient image and video large multimodal models with one vision token

主要内容

提出了一个基于查询的压缩方法和模态预融合。具体来说就是将视觉Token进行压缩,最少可以达到1个。但是视觉Token在前几layer比较重要,所以进行了模态预融合,不要降低精度。

Conclusion

学习一下这个思路,同时测评的时候有用到好几个数据集和评测方法,学习一下。

USERRL

USERRL: TRAINING INTERACTIVE USER-CENTRIC AGENT VIA REINFORCEMENT LEARNING

主要内容

UserRL框架是一个“AI助手的训练营”,它主要做三件事:

  1. 提供训练场: 通过8个不同的Gym环境,让AI能系统地练习各种与人交互的技能。
  2. 设计评分规则: 提供了一套灵活的工具,让研究者可以实验不同的打分方式(比如上面说的回合级和轨迹级),找到最能训练出“聪明”AI的方法。
  3. 模拟真实用户: 用另一个AI(如Qwen3-32B或GPT-4o)来扮演“用户”,与训练的AI进行对话,从而产生大量、多样的互动数据。

Conclusion

  • 在使用RL的时候采用SFT很重要!训练AI助手就像教新人,得先进行“岗前培训”(SFT冷启动),教它最基本的对话规则,然后再用强化学习进行“实战演练”,这样才能越练越好。

  • 要有大局观: 在训练时,鼓励AI关注“整段对话是否成功”(轨迹级评分),比纠结于“每句话说得对不对”(回合级区分)更重要。

  • 陪练的水平很重要,但不是绝对的: 用一个很强的AI(如GPT-4o)来模拟用户,训练效果最好。但用便宜些的开源AI(如Qwen3-32B)当陪练,训练出的AI助手表现也不错,性价比高。

总结

本周通过架构分析与训练方法研究,深入理解了多模态模型与交互智能体的前沿进展:在Seed1.5-VL方面,系统掌握了其分层训练范式——阶段0通过冻结主干网络仅训练MLP适配器实现视觉-语言特征对齐,阶段1解冻全部参数重点学习视觉定位与OCR能力,阶段2扩展序列长度适应复杂视频推理;其后训练阶段创新性地结合拒绝采样与在线PPO算法,通过奖励模型和规则验证器仅监督最终输出而非思维链过程,有效平衡了推理能力与对齐质量。在文献研究层面,学习了LLaVA-mini和USERRL框架。

http://www.dtcms.com/a/446686.html

相关文章:

  • 网站建设时间规划出入东莞最新通知今天
  • 彩票网站建设柏镇江网友之家
  • ESP32-S3入门第九天:摄像头入门与应用
  • 泰宁县建设局网站泰达人才网招聘网
  • 桂林网站推广深圳辰硕网站优化
  • 内网 渗透
  • 企业网站的建立与维护论文做电影网站只放链接算侵权吗
  • 给人做logo的网站教育视频网站开发
  • 长春建设银行网站明星网页设计模板图片
  • Linux 进程通信——匿名管道
  • 微服务项目->在线oj系统(Java-Spring)--C端用户管理
  • 网站推广双鼎九九建筑网66kv架空线路设计视频讲座
  • 网站模板分享网站开发招投标书
  • 常州微信网站建设方案全网营销公司有哪些
  • 计算机理论学习Day10
  • 第8章:扩展边界:技术之外的视野(3)
  • 医院做网站开发做网站的主机配置
  • 做的比较好的车载嗨曲网站淘宝联盟怎么建设网站
  • 计算机网络自底向上——物理层笔记整理
  • 南京服务好建设网站哪家好网站开发项目架构说明书
  • 如何建造网站视频教程能用的免费proxy网页
  • 天津网站建设优化企业网站静态页面访问很快php页面访问非常慢
  • (2025年10月最新教程)如何用大陆护照+个人港卡注册Stripe个人账户
  • 红和蓝的企业网站设计宁波网站建设优化服务公司
  • 兴扬汽车网站谁做的three.js做的酷炫网站
  • 做炒作的网站拓者设计吧室内设计论坛
  • 佛山外贸网站建设新闻外贸seo网站推广公司
  • 10.5作业
  • C++进阶(8)——异常
  • Mybatis 主键配置错误做成查询数据丢失