当前位置: 首页 > news >正文

【LLM】kimi 1.5模型架构和训练流程

note

  • 推出两个多模态模型,深度思考模型 long-CoT 对标 o1,通用模型 short-CoT 模型对标 gpt-4o。

文章目录

  • note
  • 一、kimi 1.5模型训练流程
    • 预训练
    • SFT训练
    • long-CoT SFT
    • RL训练
    • long2short
  • 小结
  • Reference

一、kimi 1.5模型训练流程

推出两个多模态模型,深度思考模型 long-CoT 对标 o1,通用模型 short-CoT 模型对标 gpt-4o。
在这里插入图片描述

预训练

语言数据涵盖五个领域:英语、中文、代码、数学推理和知识。多模态数据,包括图像描述、图文交错[^1]、OCR数据、知识以及问答数据集,使我们的模型能够获得视觉 - 语言能力。严格的质量控制确保了整个预训练数据集的相关性、多样性和平衡性。

SFT训练

100w文本sft数据(任务具体分布见图)和100w多模态sft数据(没说具体分布,光列任务),通过一些 infra 的优化,先训 32k,再训 128k。

  • 非推理任务:包括问答、写作和文本处理,首先通过人工标注构建了一个种子数据集。这个种子数据集用于训练一个种子模型。随后,收集了各种prompt,并使用种子模型为每个提示生成多个响应。标注者随后对这些响应进行排名,并优化排名最高的响应以产生最终版本。
  • 对于数学和编码等推理任务,基于规则和基于奖励建模的验证比人工判断更准确、更高效,使用拒绝采样来扩展SFT数据集。

普通SFT数据集包含大约100万文本数据,50万一般问答,20万编码,20万数学和科学,5千创意写作,2万长上下文任务,如总结、文档问答、翻译和写作。此外,构建了100万文本视觉数据,涵盖各种类别,包括图表解读、OCR、图像引导的对话、视觉编码、视觉推理以及带有视觉辅助的数学/科学问题。 我们首先在32k token的序列长度下训练模型1个epoch,然后在128k token的序列长度下再训练1个epoch。在第一阶段(32k),学习率从 2×10−5 衰减到 2×10−6,然后在第二阶段(128k)重新升温到 1×10−5,最后衰减到 1×10−6。为了提高训练效率,将多条训练数据 packing 到每个单独的训练序列中。

long-CoT SFT

从 RL prompt 集合里采 prompt,通过提示工程构建了一个小而高质量的 long-CoT warmup 数据集,包含文本和图像输入的经过准确验证的推理路径。

生成的 warmup 数据集旨在封装人类推理的基本认知过程,如:

规划(模型在执行前系统地概述步骤)
评估(对中间步骤进行批判性评估)
反思(使模型重新考虑并完善其方法)
探索(鼓励考虑替代解决方案)

RL训练

和 deepseek 类似,也是用了 on-policy 的强化学习策略(不过不是GRPO,而是在线策略镜像下降的变体)。kimi 在设计奖励函数时引入长度惩罚来缓解模型“过度思考”,主打一个引导模型产生短思考且结果正确的回答。

在这里插入图片描述

long2short

包括权重平均、拒绝采样和SFT、强化学习训练等一套流程,使用 long-CoT 模型来提升 short-CoT 模型能力。

模型融合。这里说的是权重融合,long/short 模型的权重直接融合。这种在业界已经用的很多了,可以在业务中尝试起来,而且不用训练。

  • 最短拒绝采样。一次生成 x 条样本,把最短的那条选出来,前提是结果要对。
  • 长短样本的 DPO。和上面类似(一条正样本),这里是构建的是正负 pair 样本(两条样本),短而正确的作为正样本,错误的是负样本或者1.5长于短样本的作为负样本。
  • long2short强化学习。在一阶段 RL 之后,使用长度惩罚来减少模型生成的长度。

小结

Test-time scaling + RL 或许是接下来要重点聚焦的大模型技术了

Reference

[1] Kimi k1.5 的技术报告:https://arxiv.org/abs/2501.12599
[2]《自顶向下方式深度解读 DeepSeek-R1》:https://bruceyuan.com/post/deepseek-r1-paper-reading-notes.html
[3]知乎大佬木尧:https://www.zhihu.com/people/muyaostudio,一张图速通 Kimi-k1.5 论文
[4]DeepSeek-R1 coldstart 数据:https://bruceyuan.com/post/deepseek-r1-paper-reading-notes.htmlChao
[6]bilibili:https://space.bilibili.com/12420432
[7]YouTube:https://www.youtube.com/@bbruceyuan
[8] 细节之王 Kimi K1.5,大模型算法工程师复现推理模型必读文章之一
[9] Kimi k1.5 背后的长长长长长思考

相关文章:

  • 萌新学 Python 之动态绑定属性和方法以及魔法函数
  • 【语料数据爬虫】Python爬虫|批量采集征集意见稿数据(1)
  • Linux系统之tty命令的基本使用
  • Python----数据可视化(Seaborn二:绘图一)
  • 批量删除 Excel 中的空白行、空白列以及空白表格
  • 算法中的背包问题详解:部分背包与0-1背包
  • git-在ubuntu/debian搭建简易的git服务器
  • ESP32驱动OV3660摄像头实现yoloV5物体分类(摄像头支持红外夜视、边缘AI计算)
  • Axure常用变量及使用方法详解
  • 2-kafka集群环境搭建
  • 循环神经网络(RNN):时序建模的核心引擎与演进之路
  • 特征表示深度解析:颜色、纹理、形状与编码
  • 容器编排革命:从 Docker Run 到 Docker Compose 的进化之路20250309
  • PiscTrace以YOLOv12为例定义兴趣区域提高识视图别效率
  • 在 Windows 上安装和配置 Poetry
  • leecode练习-数组-3.9
  • 慕慕手记项目日记 熟悉SQLAIChemy ORM框架 2025-3-5
  • 软件开发过程总揽
  • 利用LLMs准确预测旋转机械(如轴承)的剩余使用寿命(RUL)
  • 如何将本地已有的仓库上传到gitee (使用UGit)
  • 做网站需要ftp/文明seo技术教程网
  • wordpress自动生产/上海seo服务
  • 做网站需要办什么手续/seo全网推广
  • 网站申请界面怎么做/汕头网站设计
  • 南京做网站开发 待遇/网站seo优化排名
  • 网站为什么被百度k了/如何做好网站的推广工作