GLM-4.5V 与 GLM-4.1V-Thinking:迈向通用多模态推理的新里程碑
GLM-4.5V 与 GLM-4.1V-Thinking:迈向通用多模态推理的新里程碑
智谱 AI 与清华大学联合发布的 GLM-4.5V 与 GLM-4.1V-Thinking,是一组面向通用视觉-语言推理的前沿多模态大模型(VLMs)。它们不仅在 42 个公开基准上刷新开源模型纪录,还在多个任务上媲美甚至超越闭源模型(如 Gemini-2.5-Flash)。更重要的是,该工作系统性地探索了可扩展强化学习(Scalable RL) 在多模态推理中的潜力。
本文将深入解析其技术架构、训练范式与关键创新。
🔑 核心亮点速览
- GLM-4.5V:106B 总参数(12B 激活),MoE 架构,支持“thinking”与“non-thinking”双模式。
- GLM-4.1V-9B-Thinking:仅 9B 参数,却在多个任务上超越 72B 的 Qwen2.5-VL,尤其在 MMMU Pro、ChartMuseum、MMStar 等高难度任务中表现突出。
- 开源:模型、代码、奖励系统全部开源(GitHub)。
- 强化学习增益显著:RL 带来最高 +10.6% 的性能提升(Coding 任务,见 Figure 1B)。
- 跨域泛化强:单领域 RL 可提升其他领域性能,多任务联合训练效果更佳。
🧠 技术架构:高效、灵活、高分辨率兼容
模型采用经典的三段式结构:
- Vision Encoder:基于 AIMv2-Huge,引入 3D 卷积支持视频时序压缩(2x),单图则复制帧保持一致性。
- MLP Adapter:对齐视觉特征与文本 token 空间。
- Language Decoder:
- GLM-4.1V-Thinking:基于 GLM-4-9B-0414;
- GLM-4.5V:基于 GLM-4.5-Air(MoE)。
关键视觉适配技术:
- 2D/3D RoPE:支持任意分辨率与极端宽高比(>200:1),最高兼容 4K+ 图像。
- 动态位置编码:通过双三次插值(bicubic interpolation)将原始 ViT 位置嵌入适配到任意 patch 网格。
- 视频时间戳 token:在每帧后插入
<time_index>
,显式建模帧间时序关系,提升时序理解与 grounding 能力。
这一设计使模型原生支持高分辨率图像与长视频,无需裁剪或降采样。
🧪 三阶段训练范式:从基础到推理
整个训练流程分为三个阶段,层层递进:
1️⃣ 多模态预训练(Multimodal Pre-training)
目标:构建一个具备强大视觉-语言联合表征能力的基础模型。
-
数据构成极其丰富:
- 图像-文本对:10B+ 原始对,经 CLIP 过滤(阈值 0.3)、概念重采样、事实导向的 Recaption 模型精炼(见 Figure 4)。
- 交错图文:来自 Web(MINT, MMC4)与学术书籍(1亿+ STEM 书籍 PDF),通过 DOM 解析、高信息密度图像分类器筛选。
- OCR 数据:2.2 亿张,含合成文档、自然场景文本(PaddleOCR 提取)、学术论文(LaTeXML 渲染)。
- 定位数据(Grounding):
- 自然图像:40M,基于 LAION-115M + GLIPv2 自动生成 bbox。
- GUI 定位:1.4 亿问答对,通过 Playwright 自动化交互 + DOM 解析生成精确坐标。
- 视频数据:人工精标动作、文字、镜头语言(如运镜、构图)。
-
训练配置:
- 序列长度:8,192
- Batch Size:1,536
- 步数:120,000
- 并行策略:
- GLM-4.1V:Tensor Parallel = 2
- GLM-4.5V(MoE):Expert Parallel = 8, Pipeline Parallel = 4,辅以无损路由(loss-free routing)与辅助平衡损失(coeff=1e-4)。
- 数据打包:多样本拼接至最大长度,提升 GPU 利用率。
预训练模型 GLM-4.1V-9B-Base 在 MathVista pass@k 上显著优于同类基座模型(Figure 3),为后续 RL 设定了高上限。
2️⃣ 长思维监督微调(Supervised Fine-Tuning with Long CoT)
目标:教会模型如何思考,而非灌输新知识。
-
数据特点:
- 覆盖 STEM、GUI、长文档、视频等可验证与非可验证任务。
- 标准化响应格式:
<think> {多步推理、反思、验证} </think> <answer><|begin_of_box|>最终答案<|end_of_box|></answer>
- 特殊 token(如
<|begin_of_box|>
、<|end_of_box|>
)被加入词表,便于 RL 阶段精准提取答案。 - GLM-4.5V 额外支持 non-thinking 模式:通过在 prompt 中添加
/nothink
token,训练模型直接输出答案。
-
训练配置:
- 序列长度:32,768
- Batch Size:32
- 全参数微调,并混入高质量纯文本长 CoT 数据(数学、Agent 规划等)以保持语言能力。
SFT 阶段的核心是对齐:将模型已有的多模态知识,转化为结构化的、适合 RL 优化的“思考-回答”范式。
3️⃣ 可扩展强化学习(Scalable Reinforcement Learning)
这是性能跃升的关键。作者提出 RLCS(Reinforcement Learning with Curriculum Sampling) 框架。
🤖 强化学习(RL):挑战与解决方案
核心挑战
- 奖励信号必须精准:任一子领域奖励设计缺陷,会导致全局训练崩溃(见 Figure 5)。
- 数据效率低下:随着模型变强,大部分样本变得过于简单,rollout 无梯度。
- 训练不稳定:KL/Entropy 损失、采样策略不当易导致输出混乱或崩溃。
关键技术:RLCS(课程采样强化学习)
目标:动态选择“恰到好处”的难题,最大化学习效率。
-
难度分级:
- 离线:用多个基线模型 + 人工标注,为每个样本打难度标签(易/中/难)。
- 在线:记录 rollout 结果(正确/错误),动态更新样本难度。
-
动态重采样:
- 降低“全对”或“全错”样本的采样率。
- 动态扩展采样(Ratio EMA):
- 计算无效样本率(
not_valid_sample_rate
)。 - 用 EMA 维护一个
expansion_ratio
,指导下一轮 rollout 的过采样倍数。 - 从过采样结果中,挑选难度最均衡(正确/错误数接近)的子集用于训练。
- 优势:预计算 rollout 总量,完美适配大规模并行基础设施。
- 计算无效样本率(
其他 RL 优化技巧
- 移除 KL 损失:VLM 的 KL 散度增长快,加 KL 会限制能力。
- 移除 Entropy 损失:防止模型为多样性而产生乱码。
- Top-p = 1:保证全词表覆盖,避免罕见 token 失活,提升稳定性。
- 强制回答(Force Answering):对超长思维截断时,插入
</think>
强制模型输出答案,避免因截断而得 0 分,浪费 rollout 预算。 - Per-sample Loss:比 Per-token Loss 更稳定。
🏆 奖励系统:多领域、高精度、防作弊
奖励系统是 RL 成败的生命线。作者构建了一个统一但领域定制化的奖励系统(见 Table 1)。
核心设计原则
-
精准答案提取:
- 强制模型用
<|begin_of_box|>...<|end_of_box|>
标记最终答案。 - 避免使用
\boxed{}
,因其在复杂输出(如 GUI 函数调用)中难以解析。
- 强制模型用
-
领域定制化验证器:
- STEM:数值用 Sympy 容差匹配,带单位/化学式则用 LLM 判断。
- OCR:基于编辑距离,
reward = 1 - d_edit / max(len)
。 - 定位(Grounding):IoU > 阈值的 bbox 比例。
- GUI Agent:动作预测(动作类型 + IoU)、QA(精确/语义匹配)。
- 图表:数值容差匹配,文本先精确后 LLM 语义匹配。
-
防奖励作弊(Reward Hacking):
- 粗糙的奖励会让模型学“捷径”(如对计数题总答“0-10 间的数”)。
- 解决方案:验证器必须能识别语义正确性,而非表面匹配。
-
格式与风格奖励:
- 对非可验证任务,若
<answer>
中出现 box 标记,给予惩罚。 - 混杂中英文、大段重复文本,也给予低分。
- 用文本奖励模型评估指令遵循度与流畅性。
- 对非可验证任务,若
关键洞见:在统一 VLM 的多领域 RL 中,任何一个领域的弱验证器,都会拖垮整个模型。必须为每个领域打造“防黑客”的强验证器。
GLM-4.5V 与 GLM-4.1V-Thinking:反思、挑战与未来机遇
在构建通用多模态推理模型的征途中,GLM-V 团队不仅取得了显著性能突破,也揭示了当前多模态强化学习(RL)范式中的深层问题。本文基于论文第7节“Discussion”及全文实践,系统总结其核心反思、现存挑战与未来机遇。
🔍 核心反思:RL 并非万能钥匙
1. 结果正确 ≠ 推理正确
- 当前 RL 奖励系统主要基于最终答案(outcome-based),而非推理过程(process-based)。
- 导致模型学会“走捷径”:即使中间步骤包含错误逻辑或幻觉,只要答案碰巧正确,仍会被强化。
- 后果:模型在开放域或分布外任务中泛化能力受限,可靠性存疑。
“RL 提升了任务完成率,但未一致提升推理质量。”
2. 训练稳定性高度敏感
- 尽管通过高质量 SFT 冷启动、移除 KL/Entropy 损失、Top-p=1 等策略提升了稳定性,但 RL 仍对奖励设计、数据质量、采样策略极度敏感。
- 微小配置变动(如 verifier 阈值、采样比例)可能导致训练崩溃或性能震荡。
- 根本原因:多模态 RL 的优化面极其复杂,缺乏理论指导。
3. 感知瓶颈制约推理上限
- 即使推理能力强大,若视觉感知出错(如遮挡、模糊、复杂布局),后续推理必然失效。
- 模型在复杂/遮挡/混乱场景中易依赖先验猜测,而非进行基于观测的逻辑推理。
- 启示:感知与推理必须协同进化,不能割裂优化。
⚠️ 现存挑战
1. 奖励系统的设计成本极高
- 每个子领域(STEM、OCR、GUI、Grounding)需定制防黑客、高精度验证器。
- 验证逻辑需兼顾数值容差、语义等价、格式规范、空间关系等多维度。
- 人力与工程投入巨大,难以规模化扩展至新任务。
2. 过程监督缺失
- 缺乏对
<think>
内容的自动评估机制。 - 无法判断模型是否真正“理解”了问题,还是在模仿表面模式。
- 风险:模型可能发展出“伪推理”能力——输出看似合理但逻辑断裂的 CoT。
3. 评估基准趋于饱和或失真
- 多个主流 benchmark(如 MMBench、MMStar)已接近人类或闭源模型性能上限。
- 现有指标难以捕捉幻觉、逻辑漏洞、鲁棒性缺陷等关键失败模式。
- 亟需:更具诊断性、对抗性、长链推理能力的新一代评测体系。
🌟 未来机遇
1. 构建“过程感知”的奖励机制
- 方向:开发能评估推理链逻辑一致性、事实忠实度、步骤必要性的奖励模型。
- 技术路径:
- 利用 LLM-as-a-Judge 对
<think>
内容进行细粒度打分; - 引入形式化验证(如符号推理引擎)辅助 STEM 任务;
- 设计对抗性负样本,主动检测推理漏洞。
- 利用 LLM-as-a-Judge 对
2. 探索多模态对纯文本任务的反哺
- 假设:训练模型理解“图像中的代码”(如截图、设计稿)可提升其文本代码生成与理解能力。
- 潜力:视觉上下文可提供结构约束、布局先验、语义对齐信号,辅助纯文本推理。
- 实验方向:对比训练 vs 未训练多模态的纯文本 coding / math 模型性能差异。
3. 推动新一代多模态评测标准
- 目标:构建能暴露模型幻觉、shortcut learning、跨模态对齐失败的 benchmark。
- 设计原则:
- 包含需多跳推理、跨图关联、时序因果的任务;
- 引入干扰项、对抗扰动、分布外组合;
- 要求模型输出可验证的中间表示(如程序、逻辑公式、定位框)。
4. 开源生态赋能社区创新
- 智谱 AI 已开源 模型、训练代码、奖励系统(GitHub)。
- 社区可:
- 在 GLM-4.1V-9B-Base 上微调垂直领域模型;
- 改进 RLCS 策略或设计新 verifier;
- 构建更难的评测集,推动领域进步。
结语
GLM-4.5V 与 GLM-4.1V-Thinking 不仅是性能标杆,更是一面镜子——照见了当前多模态推理的能力边界与方法论局限。真正的通用智能,不仅要求“答对”,更要求“想对”。
现在,模型、代码、奖励系统均已开源。
是时候让社区一起回答那个终极问题:我们能否教会机器真正地思考?
这条路,才刚刚开始。