当前位置: 首页 > news >正文

GLM-4.5V 与 GLM-4.1V-Thinking:迈向通用多模态推理的新里程碑

GLM-4.5V 与 GLM-4.1V-Thinking:迈向通用多模态推理的新里程碑

智谱 AI 与清华大学联合发布的 GLM-4.5VGLM-4.1V-Thinking,是一组面向通用视觉-语言推理的前沿多模态大模型(VLMs)。它们不仅在 42 个公开基准上刷新开源模型纪录,还在多个任务上媲美甚至超越闭源模型(如 Gemini-2.5-Flash)。更重要的是,该工作系统性地探索了可扩展强化学习(Scalable RL) 在多模态推理中的潜力。

本文将深入解析其技术架构、训练范式与关键创新。


🔑 核心亮点速览

  • GLM-4.5V:106B 总参数(12B 激活),MoE 架构,支持“thinking”与“non-thinking”双模式。
  • GLM-4.1V-9B-Thinking:仅 9B 参数,却在多个任务上超越 72B 的 Qwen2.5-VL,尤其在 MMMU Pro、ChartMuseum、MMStar 等高难度任务中表现突出。
  • 开源:模型、代码、奖励系统全部开源(GitHub)。
  • 强化学习增益显著:RL 带来最高 +10.6% 的性能提升(Coding 任务,见 Figure 1B)。
  • 跨域泛化强:单领域 RL 可提升其他领域性能,多任务联合训练效果更佳。

🧠 技术架构:高效、灵活、高分辨率兼容

模型采用经典的三段式结构:

  1. Vision Encoder:基于 AIMv2-Huge,引入 3D 卷积支持视频时序压缩(2x),单图则复制帧保持一致性。
  2. MLP Adapter:对齐视觉特征与文本 token 空间。
  3. Language Decoder
    • GLM-4.1V-Thinking:基于 GLM-4-9B-0414;
    • GLM-4.5V:基于 GLM-4.5-Air(MoE)。

关键视觉适配技术:

  • 2D/3D RoPE:支持任意分辨率与极端宽高比(>200:1),最高兼容 4K+ 图像。
  • 动态位置编码:通过双三次插值(bicubic interpolation)将原始 ViT 位置嵌入适配到任意 patch 网格。
  • 视频时间戳 token:在每帧后插入 <time_index>,显式建模帧间时序关系,提升时序理解与 grounding 能力。

这一设计使模型原生支持高分辨率图像与长视频,无需裁剪或降采样。


🧪 三阶段训练范式:从基础到推理

整个训练流程分为三个阶段,层层递进:

1️⃣ 多模态预训练(Multimodal Pre-training)

目标:构建一个具备强大视觉-语言联合表征能力的基础模型。

  • 数据构成极其丰富

    • 图像-文本对:10B+ 原始对,经 CLIP 过滤(阈值 0.3)、概念重采样、事实导向的 Recaption 模型精炼(见 Figure 4)。
    • 交错图文:来自 Web(MINT, MMC4)与学术书籍(1亿+ STEM 书籍 PDF),通过 DOM 解析、高信息密度图像分类器筛选。
    • OCR 数据:2.2 亿张,含合成文档、自然场景文本(PaddleOCR 提取)、学术论文(LaTeXML 渲染)。
    • 定位数据(Grounding)
      • 自然图像:40M,基于 LAION-115M + GLIPv2 自动生成 bbox。
      • GUI 定位:1.4 亿问答对,通过 Playwright 自动化交互 + DOM 解析生成精确坐标。
    • 视频数据:人工精标动作、文字、镜头语言(如运镜、构图)。
  • 训练配置

    • 序列长度:8,192
    • Batch Size:1,536
    • 步数:120,000
    • 并行策略
      • GLM-4.1V:Tensor Parallel = 2
      • GLM-4.5V(MoE):Expert Parallel = 8, Pipeline Parallel = 4,辅以无损路由(loss-free routing)与辅助平衡损失(coeff=1e-4)。
    • 数据打包:多样本拼接至最大长度,提升 GPU 利用率。

预训练模型 GLM-4.1V-9B-Base 在 MathVista pass@k 上显著优于同类基座模型(Figure 3),为后续 RL 设定了高上限。

2️⃣ 长思维监督微调(Supervised Fine-Tuning with Long CoT)

目标:教会模型如何思考,而非灌输新知识。

  • 数据特点

    • 覆盖 STEM、GUI、长文档、视频等可验证与非可验证任务。
    • 标准化响应格式
      <think> {多步推理、反思、验证} </think>
      <answer><|begin_of_box|>最终答案<|end_of_box|></answer>
      
    • 特殊 token(如 <|begin_of_box|><|end_of_box|>)被加入词表,便于 RL 阶段精准提取答案。
    • GLM-4.5V 额外支持 non-thinking 模式:通过在 prompt 中添加 /nothink token,训练模型直接输出答案。
  • 训练配置

    • 序列长度:32,768
    • Batch Size:32
    • 全参数微调,并混入高质量纯文本长 CoT 数据(数学、Agent 规划等)以保持语言能力。

SFT 阶段的核心是对齐:将模型已有的多模态知识,转化为结构化的、适合 RL 优化的“思考-回答”范式。

3️⃣ 可扩展强化学习(Scalable Reinforcement Learning)

这是性能跃升的关键。作者提出 RLCS(Reinforcement Learning with Curriculum Sampling) 框架。


🤖 强化学习(RL):挑战与解决方案

核心挑战

  • 奖励信号必须精准:任一子领域奖励设计缺陷,会导致全局训练崩溃(见 Figure 5)。
  • 数据效率低下:随着模型变强,大部分样本变得过于简单,rollout 无梯度。
  • 训练不稳定:KL/Entropy 损失、采样策略不当易导致输出混乱或崩溃。

关键技术:RLCS(课程采样强化学习)

目标:动态选择“恰到好处”的难题,最大化学习效率。

  • 难度分级

    • 离线:用多个基线模型 + 人工标注,为每个样本打难度标签(易/中/难)。
    • 在线:记录 rollout 结果(正确/错误),动态更新样本难度。
  • 动态重采样

    • 降低“全对”或“全错”样本的采样率。
    • 动态扩展采样(Ratio EMA)
      • 计算无效样本率(not_valid_sample_rate)。
      • 用 EMA 维护一个 expansion_ratio,指导下一轮 rollout 的过采样倍数
      • 从过采样结果中,挑选难度最均衡(正确/错误数接近)的子集用于训练。
      • 优势:预计算 rollout 总量,完美适配大规模并行基础设施。

其他 RL 优化技巧

  • 移除 KL 损失:VLM 的 KL 散度增长快,加 KL 会限制能力。
  • 移除 Entropy 损失:防止模型为多样性而产生乱码。
  • Top-p = 1:保证全词表覆盖,避免罕见 token 失活,提升稳定性。
  • 强制回答(Force Answering):对超长思维截断时,插入 </think> 强制模型输出答案,避免因截断而得 0 分,浪费 rollout 预算。
  • Per-sample Loss:比 Per-token Loss 更稳定。

🏆 奖励系统:多领域、高精度、防作弊

奖励系统是 RL 成败的生命线。作者构建了一个统一但领域定制化的奖励系统(见 Table 1)。

核心设计原则

  1. 精准答案提取

    • 强制模型用 <|begin_of_box|>...<|end_of_box|> 标记最终答案。
    • 避免使用 \boxed{},因其在复杂输出(如 GUI 函数调用)中难以解析。
  2. 领域定制化验证器

    • STEM:数值用 Sympy 容差匹配,带单位/化学式则用 LLM 判断。
    • OCR:基于编辑距离,reward = 1 - d_edit / max(len)
    • 定位(Grounding):IoU > 阈值的 bbox 比例。
    • GUI Agent:动作预测(动作类型 + IoU)、QA(精确/语义匹配)。
    • 图表:数值容差匹配,文本先精确后 LLM 语义匹配。
  3. 防奖励作弊(Reward Hacking)

    • 粗糙的奖励会让模型学“捷径”(如对计数题总答“0-10 间的数”)。
    • 解决方案:验证器必须能识别语义正确性,而非表面匹配。
  4. 格式与风格奖励

    • 对非可验证任务,若 <answer> 中出现 box 标记,给予惩罚。
    • 混杂中英文、大段重复文本,也给予低分。
    • 用文本奖励模型评估指令遵循度与流畅性。

关键洞见:在统一 VLM 的多领域 RL 中,任何一个领域的弱验证器,都会拖垮整个模型。必须为每个领域打造“防黑客”的强验证器。


GLM-4.5V 与 GLM-4.1V-Thinking:反思、挑战与未来机遇

在构建通用多模态推理模型的征途中,GLM-V 团队不仅取得了显著性能突破,也揭示了当前多模态强化学习(RL)范式中的深层问题。本文基于论文第7节“Discussion”及全文实践,系统总结其核心反思、现存挑战与未来机遇


🔍 核心反思:RL 并非万能钥匙

1. 结果正确 ≠ 推理正确

  • 当前 RL 奖励系统主要基于最终答案(outcome-based),而非推理过程(process-based)。
  • 导致模型学会“走捷径”:即使中间步骤包含错误逻辑或幻觉,只要答案碰巧正确,仍会被强化。
  • 后果:模型在开放域或分布外任务中泛化能力受限,可靠性存疑。

“RL 提升了任务完成率,但未一致提升推理质量。”

2. 训练稳定性高度敏感

  • 尽管通过高质量 SFT 冷启动、移除 KL/Entropy 损失、Top-p=1 等策略提升了稳定性,但 RL 仍对奖励设计、数据质量、采样策略极度敏感。
  • 微小配置变动(如 verifier 阈值、采样比例)可能导致训练崩溃或性能震荡。
  • 根本原因:多模态 RL 的优化面极其复杂,缺乏理论指导。

3. 感知瓶颈制约推理上限

  • 即使推理能力强大,若视觉感知出错(如遮挡、模糊、复杂布局),后续推理必然失效。
  • 模型在复杂/遮挡/混乱场景中易依赖先验猜测,而非进行基于观测的逻辑推理。
  • 启示:感知与推理必须协同进化,不能割裂优化。

⚠️ 现存挑战

1. 奖励系统的设计成本极高

  • 每个子领域(STEM、OCR、GUI、Grounding)需定制防黑客、高精度验证器
  • 验证逻辑需兼顾数值容差、语义等价、格式规范、空间关系等多维度。
  • 人力与工程投入巨大,难以规模化扩展至新任务。

2. 过程监督缺失

  • 缺乏对 <think> 内容的自动评估机制。
  • 无法判断模型是否真正“理解”了问题,还是在模仿表面模式。
  • 风险:模型可能发展出“伪推理”能力——输出看似合理但逻辑断裂的 CoT。

3. 评估基准趋于饱和或失真

  • 多个主流 benchmark(如 MMBench、MMStar)已接近人类或闭源模型性能上限。
  • 现有指标难以捕捉幻觉、逻辑漏洞、鲁棒性缺陷等关键失败模式。
  • 亟需:更具诊断性、对抗性、长链推理能力的新一代评测体系。

🌟 未来机遇

1. 构建“过程感知”的奖励机制

  • 方向:开发能评估推理链逻辑一致性、事实忠实度、步骤必要性的奖励模型。
  • 技术路径
    • 利用 LLM-as-a-Judge 对 <think> 内容进行细粒度打分;
    • 引入形式化验证(如符号推理引擎)辅助 STEM 任务;
    • 设计对抗性负样本,主动检测推理漏洞。

2. 探索多模态对纯文本任务的反哺

  • 假设:训练模型理解“图像中的代码”(如截图、设计稿)可提升其文本代码生成与理解能力
  • 潜力:视觉上下文可提供结构约束、布局先验、语义对齐信号,辅助纯文本推理。
  • 实验方向:对比训练 vs 未训练多模态的纯文本 coding / math 模型性能差异。

3. 推动新一代多模态评测标准

  • 目标:构建能暴露模型幻觉、shortcut learning、跨模态对齐失败的 benchmark。
  • 设计原则
    • 包含需多跳推理、跨图关联、时序因果的任务;
    • 引入干扰项、对抗扰动、分布外组合;
    • 要求模型输出可验证的中间表示(如程序、逻辑公式、定位框)。

4. 开源生态赋能社区创新

  • 智谱 AI 已开源 模型、训练代码、奖励系统(GitHub)。
  • 社区可
    • 在 GLM-4.1V-9B-Base 上微调垂直领域模型;
    • 改进 RLCS 策略或设计新 verifier;
    • 构建更难的评测集,推动领域进步。

结语

GLM-4.5V 与 GLM-4.1V-Thinking 不仅是性能标杆,更是一面镜子——照见了当前多模态推理的能力边界与方法论局限。真正的通用智能,不仅要求“答对”,更要求“想对”。

现在,模型、代码、奖励系统均已开源。
是时候让社区一起回答那个终极问题:我们能否教会机器真正地思考

这条路,才刚刚开始。

http://www.dtcms.com/a/413148.html

相关文章:

  • 开封市建设局网站wordpress 区块链媒体
  • 网站关键词更改wordpress详细安装说明
  • 电子商务网站建设作业文档wordpress 不同分类 不同主题
  • 南宁哪些公司专业做网站网站建设感悟
  • 昆明体育城微网站建设seo优化专员工作内容
  • FAST_LIO_ROS2 可以用gazebo仿真吗?
  • 平台网站建设ppt易风网站建设
  • 郑州pc网站建设杭州seo公司哪家好
  • 网站 站外链接设计网页页面
  • php做企业网站需要多久扁平化网站特效
  • 上海周边网站建设河南金城建设工程有限公司网站
  • 坪地网站建设教程国内外知名提供邮箱服务的网站
  • 上海文明城市建设网站上网建站推广
  • 有没有免费做英语题的网站企业年金退休能拿多少
  • 如何做属于自己的领券网站网站做等保是按照什么定级别的
  • c 可以做网站吗福州网络营销推广产品优化
  • 传媒公司网站河南省住房和城乡建设厅人教处网站
  • 网站开发与网页制作难不难可以通过哪些网站注册域名
  • 遵义北京网站建设店铺管理app
  • 想做个ktv的网站怎么做类似凡科网的网站
  • 网站二次开发是什么意思北京建设网站哪里好
  • 网站建设的细节处理互联网保险的发展趋势
  • 有哪些做拎包入住的网站济南h5网站建设
  • 爬取小红书多个商品
  • 满满正能量网站网络彩票网站建设多少钱
  • 福州网站seo优化公司网站建设自动适应功能
  • 电子商务网站解决方案综合管理平台系统
  • 苏州美丽乡村建设网站如果做好招聘网站建设
  • seo网站项目桥梁建设网站
  • 【C++入门】类与对象(3)