当前位置：首页 > news >正文

“28项评测23项SOTA——GLM-4.1V-9B-Thinking本地部署教程：10B级视觉语言模型的性能天花板！

news 2025/10/25 5:23:07

一、模型介绍

GLM-4.1V-9B-Thinking是由智谱AI联合清华大学团队推出的多模态大模型，以GLM-4-9B-0414基座模型为底，通过引入“思维链推理机制”和“课程采样强化学习策略”（Reinforcement Learning with Curriculum Sampling），显著提升了模型的跨模态推理能力与稳定性。在继承 GLM 系列通用大模型能力的基础上，进一步强化了视觉理解和复杂推理能力。

该模型支持长上下文输入，具备处理图像、视频、文本等多种模态的能力，适用于教育、科研、工业和政务等多个领域。在28项测评任务中有23项达到10B级别模型最佳，其中18项任务持平甚至超过8倍参数量的Qwen-2.5-VL-72B。

GLM-4.1V-9B-Thinking标志着智谱GLM系列模型从感知向认知阶段的跃迁，在突破了小模型的性能极限下，也作出如下创新：

1.在深度推理领域表现卓越，支持图像、视频、文档等多模态输入。

2.作为参数模型仅为9B的模型，在部分高难度任务中，模型表现可以媲美GPT-4o。

3.模型开源，还提供了坚实的GLM-4.1V-9B-Base模型，利于研究者们的二次开放与创新。

二、模型部署

基础环境最低配置推荐

环境名称	版本信息
Ubuntu	22.04.4 LTS
Python	3.12.4
CUDA	12.6
NVIDIA Corporation	RTX 4090 * 2

注：推荐pytorch 2.7.1

1.更新基础软件包、配置镜像源

查看系统版本信息

#查看系统的版本信息，包括 ID（如 ubuntu、centos 等）、版本号、名称、版本号 ID 等
cat /etc/os-release

更新软件包列表

#更新软件列表
apt-get update

配置国内镜像源（阿里云）

具体而言，vim指令编辑文件 sources.list

#编辑源列表文件
vim  /etc/apt/sources.list

按 “i”进入编辑模式，将如下内容插入至 sources.list文件中

deb http://mirrors.aliyun.com/ubuntu/ jammy main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ jammy main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ jammy-security main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ jammy-security main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ jammy-updates main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ jammy-updates main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ jammy-backports main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ jammy-backports main restricted universe multiverse

最后，按 "esc"键退出编辑模式，输入 :wq 命令并按下 “enter”键便可保存并退出 sources.list文件

2.虚拟环境创建

进入pytorch官网（Get Started）

找到从本地开始（Start Locally）——>PyTorch Build（Stable 2.7.1）——>Your OS（Windows）——>Packge（Pip）——>Language（Python）——>Compule Platform（CUDA 12.6）

复制所框选“命令行“后，转入至终端中粘贴执行安装

创建虚拟环境

#创建名为GLM-Thking的虚拟环境，python版本：3.12
conda create -n GLM-Thking python=3.12

激活虚拟环境

#激活

conda activate GLM-Thking

3.克隆项目

进入文件夹GLM-4.1V-9B-Thinking

cd /root/sj-tmp/GLM-4.1V-9B-Thinking/

从github官网中克隆存储库

#克隆存储库
git clone https://github.com/THUDM/GLM-4.1V-Thinking.git

4.下载依赖

requirements.txt文件

pip install -r requirements.txt

5.模型下载

转到魔塔社区官网下载模型文件：GLM-4.1V-9B-Thinking · 模型库

使用命令行下载完整模型库

#在下载前，请先通过如下命令安装 
pip install modelscope#命令行下载
modelscope download --model ZhipuAI/GLM-4.1V-9B-Thinking

6.模型推理及webUI启动

模型推理代码均在 inference文件夹中

（1）执行命令行交互脚本 `trans_infer_cli.py` 便可进行连续对话

python trans_infer_cli.py --model_path '/root/sj-tmp/GLM-4.1V-9B-Thinking/'

（2）执行Gradio 界面脚本 `trans_infer_gradio.py`便可搭建一个可以直接使用的 Web 界面

python trans_infer_gradio.py

若遇到端口被占用的问题，可通过如下命令解决：

#查看端口号进程
lsof -i :<端口号>
#强制退出进程
kill -9 <API>

屏幕截图

（3）web页面图像推理

屏幕截图

（4）web页面视频推理

查看全文

http://www.dtcms.com/a/275153.html

NetworkManager配置网桥(bridge)虚拟网络(vlan) 笔记250711

Visual Studio Code 的 settings.json 配置指南

运筹说第140期 | 从直觉到算法：这些奠基人如何塑造了启发式方法的科学根基？

I2C集成电路总线

【机器学习应用】基于集成学习的电力负荷预测系统实战案例

Graph Adversarial Self-Supervised Learning 图对抗自监督学习

MySQL的使用

DPDK性能优化实践：系统级性能调优的方法论与实战（一套通用的方法论）

国产LVDT信号调理芯片XJD698：高精度位移检测的国产化突破，完美替代AD698

基于相似性引导的多视角功能性脑网络融合|文献速递-最新论文分享

我花10个小时，写出了小白也能看懂的数仓搭建方案

有限状态机FSM（Finite State Machine）自动初始化

C++:vector(1)

2025Nginx最新版讲解/面试

“功能替代”到“智能共创”——深入解读新松多可仿生人形机器人

map暨例题

卢比危机下的金融破局：科伦坡交易所技术升级作战图

C++类对象多态基础语法【超详细】

GTSuite许可服务器设置

380. O(1) 时间插入、删除和获取随机元素

深度学习：反向传播算法

Google Test 介绍和使用指南

《QtPy：Python与Qt的完美桥梁》

STM32 IIC通信（寄存器与hal库实现）

组件杠杠结构

干眼症的预防与治疗

域名锁是什么？有必要安装域名锁吗？

拼数（字符串排序）

TransUnet医学图像分割模型

PrimeTime (PT Shell) report_timing 报告全字段完整解析