Qwen3-235B-A22B-Instruct-2507模型介绍
Qwen3-235B-A22B-Instruct-2507
- 推出了Qwen3-235B-A22B 非思考模式的更新版本,名为Qwen3-235B-A22B-Instruct-2507,具有以下主要增强功能:
- 一般能力有显著提高,包括遵循指令、逻辑推理、文本理解、数学、科学、编码和工具使用。
- 跨多种语言的长尾知识覆盖率大幅提升。
- 在主观和开放式任务中明显更好地与用户偏好保持一致,从而能够获得更多有用的回应和更高质量的文本生成。
- 增强了256K长上下文理解能力。
模型概述
Qwen3-235B-A22B-Instruct-2507具有以下特点:
类型:因果语言模型
训练阶段:训练前和训练后
参数数量:共235B,已激活22B
参数数量(非嵌入):234B
层数:94
注意力头数量(GQA):Q 为 64 个,KV 为 4 个
专家人数:128
已激活专家数量:8
上下文长度:本机为 262,144。
注意:此模型仅支持非思考模式,输出不生成区块。同时,enable_thinking=False不再需要指定。