大模型学习周报十六
摘要
本周聚焦多模态大模型架构创新与交互式智能体训练方法。深入研究了字节Seed1.5-VL的三阶段预训练策略与强化学习后训练机制,重点分析了其动态帧采样和时间戳标记等核心技术;系统学习了LLaVA-mini的视觉token压缩与模态预融合优化方案,以及USERRL框架的交互式训练环境设计与轨迹级评分机制。研究构建了从多模态特征对齐到人机交互优化的完整技术认知链条。
Abstract
This week focused on multimodal model architecture innovations and interactive agent training methods. Conducted in-depth study of ByteDance Seed1.5-VL’s three-phase pre-training strategy and reinforcement learning post-training mechanism , with emphasis on core technologies like dynamic frame sampling and timestamp tokens. Systematically examined LLaVA-mini’s visual token compression and modality pre-fusion optimization, along with USERRL framework’s interactive training environment design and trajectory-level scoring mechanism. The research established a complete technical cognition chain from multimodal feature alignment to human-computer interaction optimization.
1、字节Seed1.5-VL
Seed1.5-VL由以下三个核心组件组成:
-
SeedViT:用于对图像和视频进行编码;
-
MLP适配器:将视觉特征投射为多模态token;
-
大语言模型:用于处理多模态输入并执行推理。
模型支持多种分辨率的图像输入,并通过原生分辨率变换*(native-resolution transform)*确保最大限度保留图像细节。
在视频处理方面,团队提出了一种动态帧分辨率采样策略(dynamic frame-resolution sampling strategy),能够根据需要动态调整采样帧率和分辨率。
此外,为了增强模型的时间信息感知能力,在每帧图像之前引入了时间戳标记(timestamp token)。
其预训练过程分为三个阶段:
- 阶段0:仅训练MLP适配器,以对齐视觉编码器和语言模型;
- 阶段1:训练所有模型参数,重点是掌握视觉定位和OCR能力;
- 阶段2:增加数据多样性,扩展序列长度,以适应视频理解和复杂推理任务。
接下来团队又进行了后训练,使用了监督微调和强化学习等技术。
其一,使用高质量的指令数据对模型进行微调,包括一般指令和长链推理*(Long CoT)*数据;
其二,结合人类反馈和可验证奖励信号,通过PPO算法进行训练,以提高模型的对齐能力和推理能力。
需要注意的是,团队在后训练采用了结合拒绝采样(rejection sampling)和在线强化学习(online reinforcement learning)的迭代更新方法。
他们构建了一条完整的数据pipeline,用于收集和筛选复杂提示,以增强后训练阶段的数据质量。
并且在强化学习过程中,监督信号通过奖励模型和规则验证器*(rule verifiers)*仅作用于模型生成的最终输出结果。
也就是说,团队*特意避免对模型的详细链式思维推理*(chain-of-thought reasoning)过程进行监督。
最后,为了支持大规模预训练和后训练,团队还开发了一系列优化技术:
- 混合并行化:针对视觉编码器和语言模型的不同特点,采用不同的并行策略;
- 工作负载平衡:通过贪心算法重新分配视觉数据,平衡GPU工作负载;
- 并行感知数据加载:减少多模态数据的I/O开销;
- 容错机制:使用MegaScale框架实现容错,确保训练的稳定性。
这些技术显著提高了训练吞吐量,并降低了硬件成本。
2、文献阅读
LLaVA-mini
LLaVA-mini: efficient image and video large multimodal models with one vision token
主要内容:
提出了一个基于查询的压缩方法和模态预融合。具体来说就是将视觉Token进行压缩,最少可以达到1个。但是视觉Token在前几layer比较重要,所以进行了模态预融合,不要降低精度。
Conclusion :
学习一下这个思路,同时测评的时候有用到好几个数据集和评测方法,学习一下。
USERRL
USERRL: TRAINING INTERACTIVE USER-CENTRIC AGENT VIA REINFORCEMENT LEARNING
主要内容:
UserRL框架是一个“AI助手的训练营”,它主要做三件事:
- 提供训练场: 通过8个不同的Gym环境,让AI能系统地练习各种与人交互的技能。
- 设计评分规则: 提供了一套灵活的工具,让研究者可以实验不同的打分方式(比如上面说的回合级和轨迹级),找到最能训练出“聪明”AI的方法。
- 模拟真实用户: 用另一个AI(如Qwen3-32B或GPT-4o)来扮演“用户”,与训练的AI进行对话,从而产生大量、多样的互动数据。
Conclusion:
-
在使用RL的时候采用SFT很重要!训练AI助手就像教新人,得先进行“岗前培训”(SFT冷启动),教它最基本的对话规则,然后再用强化学习进行“实战演练”,这样才能越练越好。
-
要有大局观: 在训练时,鼓励AI关注“整段对话是否成功”(轨迹级评分),比纠结于“每句话说得对不对”(回合级区分)更重要。
-
陪练的水平很重要,但不是绝对的: 用一个很强的AI(如GPT-4o)来模拟用户,训练效果最好。但用便宜些的开源AI(如Qwen3-32B)当陪练,训练出的AI助手表现也不错,性价比高。
总结
本周通过架构分析与训练方法研究,深入理解了多模态模型与交互智能体的前沿进展:在Seed1.5-VL方面,系统掌握了其分层训练范式——阶段0通过冻结主干网络仅训练MLP适配器实现视觉-语言特征对齐,阶段1解冻全部参数重点学习视觉定位与OCR能力,阶段2扩展序列长度适应复杂视频推理;其后训练阶段创新性地结合拒绝采样与在线PPO算法,通过奖励模型和规则验证器仅监督最终输出而非思维链过程,有效平衡了推理能力与对齐质量。在文献研究层面,学习了LLaVA-mini和USERRL框架。