当前位置：首页 > news >正文

GLM-4.5V 与 GLM-4.1V-Thinking：迈向通用多模态推理的新里程碑

news 2025/9/27 21:01:37

GLM-4.5V 与 GLM-4.1V-Thinking：迈向通用多模态推理的新里程碑

智谱 AI 与清华大学联合发布的 GLM-4.5V 与 GLM-4.1V-Thinking，是一组面向通用视觉-语言推理的前沿多模态大模型（VLMs）。它们不仅在 42 个公开基准上刷新开源模型纪录，还在多个任务上媲美甚至超越闭源模型（如 Gemini-2.5-Flash）。更重要的是，该工作系统性地探索了可扩展强化学习（Scalable RL） 在多模态推理中的潜力。

本文将深入解析其技术架构、训练范式与关键创新。

🔑 核心亮点速览

GLM-4.5V：106B 总参数（12B 激活），MoE 架构，支持“thinking”与“non-thinking”双模式。
GLM-4.1V-9B-Thinking：仅 9B 参数，却在多个任务上超越 72B 的 Qwen2.5-VL，尤其在 MMMU Pro、ChartMuseum、MMStar 等高难度任务中表现突出。
开源：模型、代码、奖励系统全部开源（GitHub）。
强化学习增益显著：RL 带来最高 +10.6% 的性能提升（Coding 任务，见 Figure 1B）。
跨域泛化强：单领域 RL 可提升其他领域性能，多任务联合训练效果更佳。

🧠 技术架构：高效、灵活、高分辨率兼容

模型采用经典的三段式结构：

Vision Encoder：基于 AIMv2-Huge，引入 3D 卷积支持视频时序压缩（2x），单图则复制帧保持一致性。
MLP Adapter：对齐视觉特征与文本 token 空间。
Language Decoder：
- GLM-4.1V-Thinking：基于 GLM-4-9B-0414；
- GLM-4.5V：基于 GLM-4.5-Air（MoE）。

关键视觉适配技术：

2D/3D RoPE：支持任意分辨率与极端宽高比（>200:1），最高兼容 4K+ 图像。
动态位置编码：通过双三次插值（bicubic interpolation）将原始 ViT 位置嵌入适配到任意 patch 网格。
视频时间戳 token：在每帧后插入 <time_index>，显式建模帧间时序关系，提升时序理解与 grounding 能力。

这一设计使模型原生支持高分辨率图像与长视频，无需裁剪或降采样。

🧪 三阶段训练范式：从基础到推理

整个训练流程分为三个阶段，层层递进：

1️⃣ 多模态预训练（Multimodal Pre-training）

目标：构建一个具备强大视觉-语言联合表征能力的基础模型。

数据构成极其丰富：
- 图像-文本对：10B+ 原始对，经 CLIP 过滤（阈值 0.3）、概念重采样、事实导向的 Recaption 模型精炼（见 Figure 4）。
- 交错图文：来自 Web（MINT, MMC4）与学术书籍（1亿+ STEM 书籍 PDF），通过 DOM 解析、高信息密度图像分类器筛选。
- OCR 数据：2.2 亿张，含合成文档、自然场景文本（PaddleOCR 提取）、学术论文（LaTeXML 渲染）。
- 定位数据（Grounding）：
  - 自然图像：40M，基于 LAION-115M + GLIPv2 自动生成 bbox。
  - GUI 定位：1.4 亿问答对，通过 Playwright 自动化交互 + DOM 解析生成精确坐标。
- 视频数据：人工精标动作、文字、镜头语言（如运镜、构图）。
训练配置：
- 序列长度：8,192
- Batch Size：1,536
- 步数：120,000
- 并行策略：
  - GLM-4.1V：Tensor Parallel = 2
  - GLM-4.5V（MoE）：Expert Parallel = 8, Pipeline Parallel = 4，辅以无损路由（loss-free routing）与辅助平衡损失（coeff=1e-4）。
- 数据打包：多样本拼接至最大长度，提升 GPU 利用率。

预训练模型 GLM-4.1V-9B-Base 在 MathVista pass@k 上显著优于同类基座模型（Figure 3），为后续 RL 设定了高上限。

2️⃣ 长思维监督微调（Supervised Fine-Tuning with Long CoT）

目标：教会模型如何思考，而非灌输新知识。

数据特点：
- 覆盖 STEM、GUI、长文档、视频等可验证与非可验证任务。
- 标准化响应格式：
```
<think> {多步推理、反思、验证} </think>
<answer><|begin_of_box|>最终答案<|end_of_box|></answer>
```
- 特殊 token（如 <|begin_of_box|>、<|end_of_box|>）被加入词表，便于 RL 阶段精准提取答案。
- GLM-4.5V 额外支持 non-thinking 模式：通过在 prompt 中添加 /nothink token，训练模型直接输出答案。
训练配置：
- 序列长度：32,768
- Batch Size：32
- 全参数微调，并混入高质量纯文本长 CoT 数据（数学、Agent 规划等）以保持语言能力。

SFT 阶段的核心是对齐：将模型已有的多模态知识，转化为结构化的、适合 RL 优化的“思考-回答”范式。

3️⃣ 可扩展强化学习（Scalable Reinforcement Learning）

这是性能跃升的关键。作者提出 RLCS（Reinforcement Learning with Curriculum Sampling） 框架。

🤖 强化学习（RL）：挑战与解决方案

核心挑战

奖励信号必须精准：任一子领域奖励设计缺陷，会导致全局训练崩溃（见 Figure 5）。
数据效率低下：随着模型变强，大部分样本变得过于简单，rollout 无梯度。
训练不稳定：KL/Entropy 损失、采样策略不当易导致输出混乱或崩溃。

关键技术：RLCS（课程采样强化学习）

目标：动态选择“恰到好处”的难题，最大化学习效率。

难度分级：
- 离线：用多个基线模型 + 人工标注，为每个样本打难度标签（易/中/难）。
- 在线：记录 rollout 结果（正确/错误），动态更新样本难度。
动态重采样：
- 降低“全对”或“全错”样本的采样率。
- 动态扩展采样（Ratio EMA）：
  - 计算无效样本率（not_valid_sample_rate）。
  - 用 EMA 维护一个 expansion_ratio，指导下一轮 rollout 的过采样倍数。
  - 从过采样结果中，挑选难度最均衡（正确/错误数接近）的子集用于训练。
  - 优势：预计算 rollout 总量，完美适配大规模并行基础设施。

其他 RL 优化技巧

移除 KL 损失：VLM 的 KL 散度增长快，加 KL 会限制能力。
移除 Entropy 损失：防止模型为多样性而产生乱码。
Top-p = 1：保证全词表覆盖，避免罕见 token 失活，提升稳定性。
强制回答（Force Answering）：对超长思维截断时，插入 </think> 强制模型输出答案，避免因截断而得 0 分，浪费 rollout 预算。
Per-sample Loss：比 Per-token Loss 更稳定。

🏆 奖励系统：多领域、高精度、防作弊

奖励系统是 RL 成败的生命线。作者构建了一个统一但领域定制化的奖励系统（见 Table 1）。

核心设计原则

精准答案提取：
- 强制模型用 <|begin_of_box|>...<|end_of_box|> 标记最终答案。
- 避免使用 \boxed{}，因其在复杂输出（如 GUI 函数调用）中难以解析。
领域定制化验证器：
- STEM：数值用 Sympy 容差匹配，带单位/化学式则用 LLM 判断。
- OCR：基于编辑距离，reward = 1 - d_edit / max(len)。
- 定位（Grounding）：IoU > 阈值的 bbox 比例。
- GUI Agent：动作预测（动作类型 + IoU）、QA（精确/语义匹配）。
- 图表：数值容差匹配，文本先精确后 LLM 语义匹配。
防奖励作弊（Reward Hacking）：
- 粗糙的奖励会让模型学“捷径”（如对计数题总答“0-10 间的数”）。
- 解决方案：验证器必须能识别语义正确性，而非表面匹配。
格式与风格奖励：
- 对非可验证任务，若 <answer> 中出现 box 标记，给予惩罚。
- 混杂中英文、大段重复文本，也给予低分。
- 用文本奖励模型评估指令遵循度与流畅性。

关键洞见：在统一 VLM 的多领域 RL 中，任何一个领域的弱验证器，都会拖垮整个模型。必须为每个领域打造“防黑客”的强验证器。

GLM-4.5V 与 GLM-4.1V-Thinking：反思、挑战与未来机遇

在构建通用多模态推理模型的征途中，GLM-V 团队不仅取得了显著性能突破，也揭示了当前多模态强化学习（RL）范式中的深层问题。本文基于论文第7节“Discussion”及全文实践，系统总结其核心反思、现存挑战与未来机遇。

🔍 核心反思：RL 并非万能钥匙

1. 结果正确 ≠ 推理正确

当前 RL 奖励系统主要基于最终答案（outcome-based），而非推理过程（process-based）。
导致模型学会“走捷径”：即使中间步骤包含错误逻辑或幻觉，只要答案碰巧正确，仍会被强化。
后果：模型在开放域或分布外任务中泛化能力受限，可靠性存疑。

“RL 提升了任务完成率，但未一致提升推理质量。”

2. 训练稳定性高度敏感

尽管通过高质量 SFT 冷启动、移除 KL/Entropy 损失、Top-p=1 等策略提升了稳定性，但 RL 仍对奖励设计、数据质量、采样策略极度敏感。
微小配置变动（如 verifier 阈值、采样比例）可能导致训练崩溃或性能震荡。
根本原因：多模态 RL 的优化面极其复杂，缺乏理论指导。