当前位置: 首页 > news >正文

天猫网站左侧导航是怎么做的青岛建站推广

天猫网站左侧导航是怎么做的,青岛建站推广,怎么制作图片和文字一起,徐州网站开发如何note GLM-4.1V-Thinking模型引入 课程采样强化学习(RLCS, Reinforcement Learning with Curriculum Sampling) 策略,在多个复杂推理任务中实现能力突破,整体性能达到 10B 级别视觉语言模型的领先水平。GLM-4.1V-9B-Thinking 通过…

note

  • GLM-4.1V-Thinking模型引入 课程采样强化学习(RLCS, Reinforcement Learning with Curriculum Sampling) 策略,在多个复杂推理任务中实现能力突破,整体性能达到 10B 级别视觉语言模型的领先水平。
  • GLM-4.1V-9B-Thinking 通过引入「思维链」(Chain-of-Thought)推理机制,在回答准确性、内容丰富度与可解释性方面,全面超越传统的非推理式视觉模型,在28项评测任务中有23项达到10B级别模型最佳,18项任务持平甚至超过8倍参数量的Qwen-2.5-VL-72B
  • 相关能力:视频理解、图片识别、GUI Agent(如下)、代码生成等
    Prompt:在APP中,帮我创建一个两周后3点与史密斯博士的会议
    输出:Action: {"action_type": "click", "box_2d": [[27,840,122,885]]}
  • 基于可验证奖励的强化学习(RLVR) 和 基于人类反馈的强化学习(RLHF)
  • 在视觉编码器部分,我们将原始的二维卷积替换为三维卷积,从而实现对视频输入在时间维度上的下采样,有效提升了处理效率。

文章目录

  • note
  • 一、GLM-4.1V-Thinking模型
  • 二、模型解析
    • 1、模型架构
    • 2、训练流程
  • Reference

一、GLM-4.1V-Thinking模型

论文链接:GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning
https://arxiv.org/abs/2507.01006

开源列表:Github:
https://github.com/THUDM/GLM-4.1V-Thinking

ModelScope:
https://modelscope.cn/collections/GLM-41V-35d24b6def9f49

Hugging Face:
https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578dHuggingFace

体验链接:
https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo

魔搭社区体验链接:
https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-DemoAPI:API 接口文档:
https://www.bigmodel.cn/dev/api/visual-reasoning-model/glm-4.1v-thinking

二、模型解析

1、模型架构

GLM-4.1V-Thinking 模型架构由三个核心模块组成:视觉编码器(ViT Encoder)、多层感知机适配器(MLP Projector)以及语言解码器(Language Decoder)
在这里插入图片描述

AIMv2-Huge 作为视觉编码器,GLM 作为语言解码器。在视觉编码器部分,我们将原始的二维卷积替换为三维卷积,从而实现对视频输入在时间维度上的下采样,有效提升了处理效率。对于静态图像输入,则通过复制帧的方式以保持输入格式的一致性。

为进一步增强模型对任意图像分辨率和宽高比的适应能力,我们引入了两项关键改进:

  • 其一,融合二维旋转位置编码(2D-RoPE),使模型能够稳定处理极端宽高比(如超过200:1)和超高分辨率(如4K以上)的图像;
  • 其二,为保留ViT预训练模型的原有能力,我们保留了其可学习的绝对位置嵌入,并通过双三次插值方式在训练过程中动态适配不同分辨率输入。

在语言解码器中,我们对原始的旋转位置编码(RoPE)进行了三维扩展(3D-RoPE)。这一设计显著增强了模型在多模态输入处理中的空间理解能力,同时保持了其在文本生成方面的原始性能。

2、训练流程

GLM-4.1V-Thinking 的训练过程分为三个阶段:预训练(Pretraining)、监督微调(SFT) 和 强化学习(RL)。

(1)预训练阶段预训练分为两个连续子阶段:多模态预训练与长上下文持续训练。

  • 多模态预训练:初始阶段旨在构建模型的通用多模态理解能力。我们使用两路张量并行策略,对所有参数进行了 120,000 步训练,序列长度为 8,192,全局批量大小为 1,536。训练数据涵盖图像字幕、交错图文、OCR、Grounding、指令响应等多种模态。为提高训练效率,我们采用样本拼接的数据打包策略,将可变长度样本压缩成接近最大长度的序列,充分利用显存资源。

  • 长上下文持续训练:为增强模型对高分辨率图像、视频序列及超长文本的处理能力,我们引入了更复杂的训练数据,包括视频帧序列和长度超过 8K tokens 的图文混合内容。该阶段将序列长度扩展至 32,768,采用混合并行策略(2路张量并行 + 4路上下文并行),并继续训练 10,000 步,保持全局批量大小为 1,536。

(2)监督微调(SFT)在微调阶段,我们特别构建了一个高质量的 CoT(思维链)训练集,用于强化模型的长篇因果推理能力。训练样本统一采用以下格式:

<think> {推理过程} </think> <answer> {最终答案} </answer>

微调使用全参数训练,序列长度为 32,768,批量大小为 32。训练语料来自多个任务场景,包括数学题解、多轮对话、代理规划与复杂指令跟随,涵盖图文、多模态及纯文本等不同类型。这一阶段不仅提高了多模态推理能力,也保持了模型在语言理解与逻辑推演方面的稳定表现。

(3)课程采样强化学习(RLCS)
在 SFT 基础上,我们引入强化学习全面优化模型性能。我们结合两种方法:基于可验证奖励的强化学习(RLVR) 和 基于人类反馈的强化学习(RLHF),覆盖多个关键任务维度:

  • STEM领域问题求解(数学、物理、化学)
  • 多模态信息定位与理解(OCR、实体定位、视频分析)
  • 智能体任务(GUI交互、代理规划)
  • 文档与图表理解、逻辑推理、复杂指令执行等

通过课程采样,在这些任务上开展由易而难的动态大规模强化学习训练,模型在实用性、准确性和稳健性等方面取得了显著提升。

Reference

[1] GLM-4.1V-Thinking 模型开源

http://www.dtcms.com/a/503345.html

相关文章:

  • Linux中I2C常见问题三
  • C++初阶(14)list
  • python进阶刷题8
  • 完成职教集团网站建设唐山市做网站
  • 19.7 ChatPPT v2.0语音识别实战:3秒极速响应+88.7%准确率的Whisper模型黑科技
  • Cortex-M3 内核 MCU-STM32F1 开发之路:(二)寄存器地址的计算
  • 完整开发网站需要什么访问域名
  • Photoshop - Photoshop 工具栏(14)抓手工具
  • MySQL 之索引为什么选择B+树
  • seo网站页面f布局如何做企业文化培训
  • C语言-数组
  • 01-(JavaWeb)前端部分(HTML+CSS)
  • Sendable装饰器的使用
  • 产品经理做网站东莞网站搭建
  • vue3中的watch使用
  • SQL Server安全配置全面检查与优化方案
  • 唐山市城乡建设局网站哪个网站做的系统好用吗
  • 包头市建设厅官方网站开网店详细步骤流程
  • 什么是前端、后端与全栈开发,Qt属于什么?
  • Solidity 合约超限问题及优化策略:以 FHEFactory 为例
  • 第一届贵州理工校赛--ez-uploadez-upload-plus
  • 聊聊 Unity(小白专享、C# 小程序 之 联机对战)
  • ava编辑一个小程序操作教程分享一下C++
  • Java Web 程序在 Linux 上的部署
  • HTTP Client/Server 实践:cpp-httplib使用
  • 项目招商网站大全河北智慧团建网站
  • 量化交易的开源框架
  • 【Linux系统编程】4. Linux权限
  • 个人主页网站制作免费融资平台哪家好
  • week6