当前位置：首页 > news >正文

大模型学习周报十六

news 2025/10/6 10:13:51

摘要

本周聚焦多模态大模型架构创新与交互式智能体训练方法。深入研究了字节Seed1.5-VL的三阶段预训练策略与强化学习后训练机制，重点分析了其动态帧采样和时间戳标记等核心技术；系统学习了LLaVA-mini的视觉token压缩与模态预融合优化方案，以及USERRL框架的交互式训练环境设计与轨迹级评分机制。研究构建了从多模态特征对齐到人机交互优化的完整技术认知链条。

Abstract

This week focused on multimodal model architecture innovations and interactive agent training methods. Conducted in-depth study of ByteDance Seed1.5-VL’s three-phase pre-training strategy and reinforcement learning post-training mechanism , with emphasis on core technologies like dynamic frame sampling and timestamp tokens. Systematically examined LLaVA-mini’s visual token compression and modality pre-fusion optimization, along with USERRL framework’s interactive training environment design and trajectory-level scoring mechanism. The research established a complete technical cognition chain from multimodal feature alignment to human-computer interaction optimization.

1、字节Seed1.5-VL

Seed1.5-VL由以下三个核心组件组成：

SeedViT：用于对图像和视频进行编码；
MLP适配器：将视觉特征投射为多模态token；
大语言模型：用于处理多模态输入并执行推理。

模型支持多种分辨率的图像输入，并通过原生分辨率变换*（native-resolution transform）*确保最大限度保留图像细节。

在视频处理方面，团队提出了一种动态帧分辨率采样策略（dynamic frame-resolution sampling strategy），能够根据需要动态调整采样帧率和分辨率。

此外，为了增强模型的时间信息感知能力，在每帧图像之前引入了时间戳标记（timestamp token）。
其预训练过程分为三个阶段：

阶段0：仅训练MLP适配器，以对齐视觉编码器和语言模型；
阶段1：训练所有模型参数，重点是掌握视觉定位和OCR能力；
阶段2：增加数据多样性，扩展序列长度，以适应视频理解和复杂推理任务。
接下来团队又进行了后训练，使用了监督微调和强化学习等技术。

其一，使用高质量的指令数据对模型进行微调，包括一般指令和长链推理*（Long CoT）*数据；

其二，结合人类反馈和可验证奖励信号，通过PPO算法进行训练，以提高模型的对齐能力和推理能力。

需要注意的是，团队在后训练采用了结合拒绝采样（rejection sampling）和在线强化学习（online reinforcement learning）的迭代更新方法。

他们构建了一条完整的数据pipeline，用于收集和筛选复杂提示，以增强后训练阶段的数据质量。

并且在强化学习过程中，监督信号通过奖励模型和规则验证器*（rule verifiers）*仅作用于模型生成的最终输出结果。

也就是说，团队*特意避免对模型的详细链式思维推理*（chain-of-thought reasoning）过程进行监督。

最后，为了支持大规模预训练和后训练，团队还开发了一系列优化技术：

混合并行化：针对视觉编码器和语言模型的不同特点，采用不同的并行策略；
工作负载平衡：通过贪心算法重新分配视觉数据，平衡GPU工作负载；
并行感知数据加载：减少多模态数据的I/O开销；
容错机制：使用MegaScale框架实现容错，确保训练的稳定性。

这些技术显著提高了训练吞吐量，并降低了硬件成本。

2、文献阅读

LLaVA-mini

LLaVA-mini: efficient image and video large multimodal models with one vision token

主要内容：

提出了一个基于查询的压缩方法和模态预融合。具体来说就是将视觉Token进行压缩，最少可以达到1个。但是视觉Token在前几layer比较重要，所以进行了模态预融合，不要降低精度。

Conclusion ：

学习一下这个思路，同时测评的时候有用到好几个数据集和评测方法，学习一下。

USERRL

USERRL: TRAINING INTERACTIVE USER-CENTRIC AGENT VIA REINFORCEMENT LEARNING

主要内容：

UserRL框架是一个“AI助手的训练营”，它主要做三件事：

提供训练场： 通过8个不同的Gym环境，让AI能系统地练习各种与人交互的技能。
设计评分规则： 提供了一套灵活的工具，让研究者可以实验不同的打分方式（比如上面说的回合级和轨迹级），找到最能训练出“聪明”AI的方法。
模拟真实用户： 用另一个AI（如Qwen3-32B或GPT-4o）来扮演“用户”，与训练的AI进行对话，从而产生大量、多样的互动数据。

Conclusion：

在使用RL的时候采用SFT很重要！训练AI助手就像教新人，得先进行“岗前培训”（SFT冷启动），教它最基本的对话规则，然后再用强化学习进行“实战演练”，这样才能越练越好。
要有大局观： 在训练时，鼓励AI关注“整段对话是否成功”（轨迹级评分），比纠结于“每句话说得对不对”（回合级区分）更重要。
陪练的水平很重要，但不是绝对的： 用一个很强的AI（如GPT-4o）来模拟用户，训练效果最好。但用便宜些的开源AI（如Qwen3-32B）当陪练，训练出的AI助手表现也不错，性价比高。

总结

本周通过架构分析与训练方法研究，深入理解了多模态模型与交互智能体的前沿进展：在Seed1.5-VL方面，系统掌握了其分层训练范式——阶段0通过冻结主干网络仅训练MLP适配器实现视觉-语言特征对齐，阶段1解冻全部参数重点学习视觉定位与OCR能力，阶段2扩展序列长度适应复杂视频推理；其后训练阶段创新性地结合拒绝采样与在线PPO算法，通过奖励模型和规则验证器仅监督最终输出而非思维链过程，有效平衡了推理能力与对齐质量。在文献研究层面，学习了LLaVA-mini和USERRL框架。

查看全文

http://www.dtcms.com/a/446686.html