当前位置: 首页 > news >正文

[GLM-4.5] GLM-4.5模型 | Claude Code服务集成

链接:https://chat.z.ai/

8.17 Model algorithm programming test ranking
在这里插入图片描述

docs:GLM-4.5

GLM-4.5项目提供了一套完整的系统,用于部署和使用GLM-4.5模型家族——一个强大的大语言模型

该系统采用专用推理服务器(SGLang/vLLM),这些服务器针对速度和效率进行了高度优化

同时还能无缝集成Claude Code等开发环境,提供交互式的智能代理体验。

可视化

在这里插入图片描述

章节

  1. GLM-4.5模型家族
  2. Claude Code服务集成
  3. LLM推理服务器(SGLang/vLLM)
  4. 工具与推理解析器
  5. 模型部署配置
  6. 推理优化技术

GLM-4.5 一个由智谱AI (Z.ai)开源的大语言模型,专为智能代理设计。它提供了强大的推理、编码和智能代理能力,满足了智能代理应用的复杂需求。

Main Function Points

  • GLM-4.5是一个混合推理模型,提供思考模式和非思考模式两种模式
  • 开源了GLM-4.5和GLM-4.5-Air的基础模型、混合推理模型和FP8版本
  • 在12个行业标准基准测试中取得了出色的性能,GLM-4.5排名第三

在这里插入图片描述

Technology Stack

  • 使用了transformersvLLMSGLang进行实现
  • 支持BF16和FP8精度

第1章:GLM-4.5模型家族

欢迎来到激动人心的GLM-4.5世界🐻‍❄️

在这个探索之旅中,我们将揭示这项强大技术的运作原理。想象我们正在建造一个超级智能机器人,在让它施展神奇能力之前,我们需要先了解它的"大脑"。

GLM-4.5的"大脑"是什么?

想象你拥有一位无所不知的超级智能伙伴。

你可以向他提出复杂问题、获取代码编写帮助,甚至咨询决策建议。

这个"超级智能伙伴"就如同GLM-4.5模型家族

这些就是真正的*大语言模型(LLMs)*本身,是整个GLM-4.5系统的核心"大脑"。

为什么它们如此重要?
GLM-4.5模型赋予系统智能能力。它们通过海量文本和代码训练而成,堪称知识渊博的专家。当你与基于GLM-4.5的系统交互时,这些模型正在幕后进行核心运算。

认识GLM-4.5家族成员

GLM-4.5家族不是单一模型,而是一组各有所长的"大脑"集合:

  • GLM-4.5旗舰模型,如同家族中最强大全面的专家,专为处理复杂任务、深度推理和高级代码生成而设计
  • GLM-4.5-Air:更轻量高效的版本,像是能快速处理常见任务的专业能手,适合对速度和资源效率要求高的场景

GLM-4.5和GLM-4.5-Air还提供不同"风味"的版本:

  • FP8变体:针对速度和内存优化,常用于需要极致性能的生产环境
  • 基础变体:基础模型,可用于进一步的专业训练

无论哪种变体,这些模型本质上都是预训练神经网络。暂时不必纠结这个技术术语!只需将它们理解为已经"阅读"并"理解"海量信息的精密学习机器。

如何"加载"GLM-4.5大脑?

要使这些"大脑"发挥作用,我们需要将它们加载到计算机内存中。这通常在强大服务器上完成。

以下是使用SGLang工具(将在LLM推理服务器(SGLang/vLLM)章节详述)启动模型服务的简化示例:

python3 -m sglang.launch_server \--model-path zai-org/GLM-4.5 \# ... (其他性能参数)--served-model-name glm-4.5 \--port 8000

这段代码在做什么?

  • python3 -m sglang.launch_server:指示服务器启动SGLang提供的特殊程序来运行GLM-4.5模型
  • --model-path zai-org/GLM-4.5:关键参数!指定要加载的GLM-4.5模型,zai-org/GLM-4.5是其在Hugging Face等平台上的唯一标识
  • --served-model-name glm-4.5:为加载的模型赋予简易名称,便于后续引用
  • --port 8000:在服务器上设置"门户"(端口8000),让系统其他部分能与GLM-4.5大脑对话

运行成功后,GLM-4.5"大脑"就已唤醒,准备回答问题或生成代码!

也可以直接将模型加载到Python程序中进行更精细控制:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torchMODEL_PATH = "zai-org/GLM-4.5"
tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH) # 加载模型理解词语的方式
model = AutoModelForCausalLM.from_pretrained(MODEL_PATH,torch_dtype=torch.bfloat16, # 使用特定数据类型进行计算device_map="auto" # 自动分配计算资源
)
# 此时'model'变量即代表加载的GLM-4.5大脑

这段代码在做什么?

  • AutoTokenizer.from_pretrained(MODEL_PATH):模型"思考"前需要理解输入词语,tokenizer如同模型的语言词典和翻译器
  • AutoModelForCausalLM.from_pretrained(MODEL_PATH, ...):核心代码,加载GLM-4.5"大脑"本身,获取模型学习到的所有复杂模式和知识

运行后,Python脚本中的model变量就成为连接GLM-4.5智能的直接通道。

提问时发生了什么?

延续"大脑"的比喻,当你与基于GLM-4.5的应用交互时,以下是模型家族作为"大脑"的简化流程:

在这里插入图片描述

图中GLM服务器(大脑)代表已加载运行的某个GLM-4.5模型(如GLM-4.5或GLM-4.5-Air),它是理解请求并生成智能应答的核心组件。

小结

本章我们认识到GLM-4.5模型家族作为实际的大语言模型,是整个系统的"大脑"。

这些如GLM-4.5和GLM-4.5-Air的模型,是能够进行复杂推理、代码生成和智能代理操作的高级专家。

我们也初步了解了如何将这些"大脑"加载到服务器或程序中投入使用

现在我们已经理解核心"大脑"的运作,接下来让我们看看如何将这个强大大脑集成到完整系统中,特别是与Claude Code服务的整合

下一章:Claude Code服务集成


第2章:Claude Code服务集成

在第1章:GLM-4.5模型家族中,我们认识了GLM-4.5模型家族——这个超级智能系统的"大脑"。

我们了解了如何将这些强大模型加载到服务器上,使其能够思考和生成精彩的文本或代码。

但如何从日常开发环境中实际对话这个强大大脑?它如何在编写代码时直接提供帮助、改进建议甚至修复错误?这就是Claude Code服务集成的用武之地🐻‍❄️

与GLM-4.5大脑对话

想象你有一位超级智能编程专家(我们的GLM-4.5模型)在另一个房间(你的服务器)。你希望直接从工位(本地计算机)向这位专家寻求帮助。你需要一种连接工位与房间的方法,以及特殊的"翻译服务"确保双方理解彼此。

这正是Claude Code服务集成的功能:它将本地开发环境与运行在服务器上的GLM-4.5模型连接起来,让GLM-4.5专家如同坐在身旁协助编程。

集成的主要目标是实现交互式开发体验。这意味着可以向GLM-4.5模型寻求编程帮助,它能直接在开发环境中响应,提供建议、生成代码片段并解释概念。

测试:

在这里插入图片描述

预览:

在这里插入图片描述

核心组件

要实现这种无缝连接,我们需要几个专用工具:

  1. Claude Code:智能编程助手界面,直接运行在本地计算机上的程序。当输入问题或编程任务时,使用的就是Claude Code。
  2. Claude Code路由器:关键的"翻译服务"或"中间人",同样运行在本地计算机。它负责将Claude Code的请求转换为GLM-4.5服务器理解的语言,发送请求并返回响应,确保通信顺畅。
  3. GLM-4.5服务器:运行GLM-4.5模型(第1章的"大脑")的服务器,随时准备处理请求。

以下是它们协作关系的简单图示:

在这里插入图片描述

建立连接

让我们看看建立这种连接的具体步骤。需要准备两个主要部分:本地计算机和服务器计算机。

步骤1:配置本地计算机

在本地机器(笔记本或台式机)上,需要安装Claude Code和Claude Code路由器。这些通常通过JavaScript包管理器npm安装:

npm install -g @anthropic-ai/claude-code
npm install -g @musistudio/claude-code-router
  • npm install -g:全局安装工具,可从任意文件夹运行
  • @anthropic-ai/claude-code:Claude Code助手本体
  • @musistudio/claude-code-router:连接Claude Code与GLM-4.5的"翻译器"

步骤2:在服务器启动GLM-4.5大脑

确保GLM-4.5模型已在服务器运行并准备接收请求(第1章简要提及)。这里我们使用SGLang工具:

在服务器上首先安装sglang

pip install sglang

然后启动GLM-4.5模型服务:

python3 -m sglang.launch_server \--model-path zai-org/GLM-4.5 \--served-model-name glm-4.5 \--port 8000 \--host 0.0.0.0
  • --host 0.0.0.0:使服务器可从任何IP地址访问,包括本地计算机

成功运行后,服务器将监听http://0.0.0.0:8000,表示GLM-4.5"大脑"已就绪

步骤3:配置Claude Code路由器

现在需要告诉Claude Code路由器如何找到GLM-4.5服务器,通过配置文件实现:

  1. 在GLM-4.5项目的example/claude_code/文件夹找到config.example.json
  2. 复制或重命名为config.json
  3. 编辑api_base_url指向服务器IP和端口(8000)

配置示例:

{"Providers": [{"name": "glm-4.5-sglang","api_base_url": "http://服务器IP:8000/v1/chat/completions","api_key": "EMPTY","models": ["glm-4.5"]}],"Router": {"default": "glm-4.5-sglang,glm-4.5"}
}
  • 服务器IP:替换为运行GLM-4.5的服务器的实际IP。本地测试可使用127.0.0.1
  • api_key: "EMPTY":本地SGLang设置通常不需要API密钥

将配置文件保存到~/.claude-code-router/config.json,然后重启路由器:

ccr restart

使用Claude Code与GLM-4.5交互

连接建立后,即可开始使用Claude Code!在本地终端运行:

ccr code

这将启动Claude Code界面,可以直接输入问题或编程任务。例如询问:how can I run GLM-4.5 in transformers

交互流程如下:

  1. 用户通过Claude Code提问
  2. Claude Code路由器将请求转发至GLM-4.5服务器
  3. GLM-4.5模型处理请求并生成响应
  4. 响应经路由器返回Claude Code显示

底层通信流程

以下是完整的请求-响应序列图:

在这里插入图片描述

小结

本章探索了Claude Code服务集成,认识了连接本地开发环境与GLM-4.5模型的核心桥梁。

关键组件Claude Code路由器作为请求翻译器和调度者,通过安装配置步骤,可以将GLM-4.5模型变为交互式编程助手

现在我们已经理解如何连接GLM-4.5大脑,接下来让我们深入了解服务器本身及高效运行大语言模型的工具。

下一章:LLM推理服务器(SGLang/vLLM)

http://www.dtcms.com/a/335760.html

相关文章:

  • Qt 5.5 的安装与配置(使用 VSCode编辑)
  • React 基础实战:从组件到案例全解析
  • Talk2BEV论文速读
  • 什么叫作数据处理?数据处理和数据治理是什么关系
  • Java StringBuffer使用详解
  • Spring MVC 九大组件源码深度剖析(四):HandlerMapping - 请求映射的玄机
  • 电力设备状态监测与健康管理:基于多源异构数据融合的技术实现
  • 【龙泽科技】汽车车身测量与结构件更换仿真教学软件【GEELY+CHIEF】
  • Wasserstein GAN:如何解决GANS训练崩溃,深入浅出数学原理级讲解WGAN与WGAN-GP
  • (机器学习)监督学习 vs 非监督学习
  • 机器学习05-朴素贝叶斯算法
  • Elasticsearch 在向量捜索中使用 Direct I0
  • java-maven
  • 佳文赏读 || (CVPR 2025新突破) Robobrain:机器人操作从抽象到具体的统一大脑模型(A Unified Brain Model)
  • 【教程】笔记本安装FnOS设置合盖息屏不休眠
  • Pulsar存储计算分离架构设计之存储层BookKeeper(上)
  • Android 组件封装实践:从解耦到架构演进
  • JavaWeb前端(HTML,CSS具体案例)
  • 【基础】贪心 区间覆盖
  • GANs生成对抗网络生成手写数字的Pytorch实现
  • 基于Spring Boot+Vue的莱元元电商数据分析系统 销售数据分析 天猫电商订单系统
  • 【网络安全】Webshell的绕过——绕过动态检测引擎WAF-缓存绕过(Hash碰撞)
  • 系统学习算法 专题十七 栈
  • Vue中 v-if 和 v-show 的区别
  • 数据一致性与 MVCC 理解
  • TCP和UCP的区别
  • 深入解析Tomcat Processor的协议处理机制
  • 路由器配置之模式
  • 【技术博客】480p 老番 → 8K 壁纸:APISR × SUPIR × CCSR「多重高清放大」完全指南
  • React 19 核心特性