当前位置: 首页 > news >正文

kimi-k2模型配置参数

kimi-k2模型配置参数

  • 上周kimi推出了万亿级 MoE 大模型 kimi-k2,感觉上一次kimi爆火还是在24年年初200万长上下文的时候,不过着实比较好奇现在都在卷后训练的时代,为什么kimi还是“敢为天下之后”,继续在卷预训练,而且是万亿级别参数的预训练模型?如果你也对此有兴趣,可以看看官方的相关技术博客,目前论文还没出来。

    github:

    https://moonshotai.github.io/Kimi-K2/

    微信公众号:

    https://mp.weixin.qq.com/s/2RPmHf_8KqIjXbY5jLdztQ

    其设计目标有高容量 、 激活稀疏、 推理高效、model as agent等等,反正情况就是这么个情况,具体什么情况,那还得看接下来的情况。。。。。。

  • 官方的模型概要如下,接下来来看看kimi-k2模型的配置参数 config.json

    image-20250715172649717


1. 基础信息

字段含义
"model_type": "kimi_k2"固定标识,告诉 transformers 库“这是 Kimi K2 系列”。
"architectures": ["DeepseekV3ForCausalLM"]代码里复用了 DeepSeek-V3 的建模类,但内部参数已按 K2 需求改动。
"vocab_size": 163840tokenizer 词表大小(含 163584 个普通词 + 256 个预留控制符)。
"bos_token_id": 163584 / "eos_token_id": 163585起始/结束符的 ID。

2. 规模与稀疏结构(MoE)

字段备注
n_routed_experts384总共 384 个“路由专家”,每次推理只激活其中 8 个(见下一行)。
num_experts_per_tok8Top-8 专家 参与当前 token 计算。
moe_layer_freq1每隔 1 层就出现一个 MoE 层(即“层层 MoE”)。
n_shared_experts1除路由专家外,还有 1 个 始终激活的共享专家
moe_intermediate_size2048每个专家的 FFN 中间维度(注意:不是 dense 层的 18432)。

3. Dense Transformer

字段解释
num_hidden_layers61共 61 层。
hidden_size7168模型维度 d_model。
intermediate_size18432非 MoE 层(即 dense 层)的 FFN 升维后大小。
first_k_dense_replace1第 0 层是 dense 层(其余层按 moe_layer_freq 决定)。
num_attention_heads64多头注意力头数。
num_key_value_heads64GQA 未启用(= 头数,等价于 MHA)。

4. 注意力机制细节

字段说明
qk_nope_head_dim128Q/K 中 无位置编码 部分的维度。
qk_rope_head_dim64RoPE 位置编码附加维度 → 单头总维度 128+64=192。
v_head_dim128V 头维度。
attention_dropout0.0推理阶段关闭 dropout。
attention_biasfalseQ/K/V 投影均 不带 bias(节省显存)。

5. 长上下文与 RoPE 缩放

字段说明
max_position_embeddings131072官方支持 128 K 上下文(留一点余量)。
rope_theta50000基础 RoPE 频率。
rope_scaling.type“yarn”使用 YaRN 继续外推到 128 K。
rope_scaling.factor32外推因子 = 32(4096×32≈131 K)。

6. 路由与负载均衡

字段作用
topk_method“noaux_tc”无辅助 loss 的 top-k 路由,降低实现复杂度。
norm_topk_probtrue对 top-k 专家的原始 logits 做 softmax 后再加权。
aux_loss_alpha0.001辅助 loss 权重(极小值,仅作专家负载均衡)。
seq_auxtrue序列级别 计算辅助 loss,进一步平滑专家分配。

7. 量化与数值精度

字段说明
quantization_config.quant_method“fp8”官方开源权重使用 FP8量化。
weight_block_size[128,128]权重按 128×128 块量化。
torch_dtype“bfloat16”推理时可用 bfloat16 反量化运行。

8. 其他零碎但常用的字段

字段提示
hidden_act“silu”激活函数SiLU(即SwiGLUβ=1\beta=1β=1)。
rms_norm_eps1e-6RMS 的 ϵ\epsilonϵ 值。
initializer_range0.02参数初始化标准差。
tie_word_embeddingsfalse词嵌入与 LM Head 不共享权重(总参数量更大)。
use_cachetrue默认启用 KV-Cache 以加速生成。

文章转载自:
http://ashur.hdqtgc.cn
http://cascarilla.hdqtgc.cn
http://boathouse.hdqtgc.cn
http://astronomically.hdqtgc.cn
http://alimentary.hdqtgc.cn
http://chromatophile.hdqtgc.cn
http://cervical.hdqtgc.cn
http://bubal.hdqtgc.cn
http://archeological.hdqtgc.cn
http://broider.hdqtgc.cn
http://afrikanerdom.hdqtgc.cn
http://achlorhydria.hdqtgc.cn
http://centerboard.hdqtgc.cn
http://bryony.hdqtgc.cn
http://bachian.hdqtgc.cn
http://boehmenism.hdqtgc.cn
http://autodidact.hdqtgc.cn
http://ballooner.hdqtgc.cn
http://certifier.hdqtgc.cn
http://besiege.hdqtgc.cn
http://acentric.hdqtgc.cn
http://academia.hdqtgc.cn
http://berbera.hdqtgc.cn
http://canadien.hdqtgc.cn
http://bode.hdqtgc.cn
http://andromedotoxin.hdqtgc.cn
http://cerebrotomy.hdqtgc.cn
http://assassin.hdqtgc.cn
http://capriote.hdqtgc.cn
http://bugout.hdqtgc.cn
http://www.dtcms.com/a/280976.html

相关文章:

  • vector的简单实现及常用接口
  • I/O 多路复用详解笔记
  • 笔试——Day8
  • CentOS 7 Linux 离线安装 docker-compose
  • 【PTA数据结构 | C语言版】层序遍历二叉树
  • SQLlite下载以及简单使用
  • AI创作系列第19篇:海狸IM 20250714版本重磅升级 - 移动端UI全面焕新
  • linux的磁盘满了清理办法
  • 图机器学习(7)——图神经网络 (Graph Neural Network, GNN)
  • 【10】如何对图像进行分割(下)
  • 删除k8s卸载后残留挂载点目录
  • 【群晖NAS】云服务器与群晖NAS(无公网)的FRP内网穿透之旅
  • Kimi K2 替换 Claude Code 默认模型
  • AI-Compass Embedding模型模块:15+主流向量化技术的多模态语义表示生态,涵盖文本图像音频嵌入、RAG检索增强、向量数据库集成与工程化实践
  • 进程创建与退出的原理
  • 5.数据归一化
  • Paimon 删除向量
  • 元宇宙经济:虚实交融下的数字文明新范式
  • Python 函数:从“是什么”到“怎么用”的完整指南
  • 【Linux驱动-快速回顾】一文快速理解GIC内部寄存器对中断的控制
  • Claude技术全景解读:从安全聊天机器人到自主智能体的演进之路
  • 数据结构自学Day7-- 二叉树
  • 项目总体框架(servlet+axios+Mybatis)
  • ue4 houdini pivot painter 学习笔记
  • 可微分3D高斯溅射(3DGS)在医学图像三维重建中的应用
  • OpenCV 对数变换函数logTransform()
  • ubuntu22.04 软创建 RAID1 与配置流程
  • pytest快速上手指南【pytest】
  • LED 照明应用提供高性价比方案?会是你的首选吗?
  • C++ 中两个类之间的通信方式