当前位置: 首页 > news >正文

建设网站教程全集河南省建设监理协会网站

建设网站教程全集,河南省建设监理协会网站,怎么提交网址让百度收录,手机网站解析note 推出两个多模态模型,深度思考模型 long-CoT 对标 o1,通用模型 short-CoT 模型对标 gpt-4o。 文章目录 note一、kimi 1.5模型训练流程预训练SFT训练long-CoT SFTRL训练long2short 小结Reference 一、kimi 1.5模型训练流程 推出两个多模态模型&…

note

  • 推出两个多模态模型,深度思考模型 long-CoT 对标 o1,通用模型 short-CoT 模型对标 gpt-4o。

文章目录

  • note
  • 一、kimi 1.5模型训练流程
    • 预训练
    • SFT训练
    • long-CoT SFT
    • RL训练
    • long2short
  • 小结
  • Reference

一、kimi 1.5模型训练流程

推出两个多模态模型,深度思考模型 long-CoT 对标 o1,通用模型 short-CoT 模型对标 gpt-4o。
在这里插入图片描述

预训练

语言数据涵盖五个领域:英语、中文、代码、数学推理和知识。多模态数据,包括图像描述、图文交错[^1]、OCR数据、知识以及问答数据集,使我们的模型能够获得视觉 - 语言能力。严格的质量控制确保了整个预训练数据集的相关性、多样性和平衡性。

SFT训练

100w文本sft数据(任务具体分布见图)和100w多模态sft数据(没说具体分布,光列任务),通过一些 infra 的优化,先训 32k,再训 128k。

  • 非推理任务:包括问答、写作和文本处理,首先通过人工标注构建了一个种子数据集。这个种子数据集用于训练一个种子模型。随后,收集了各种prompt,并使用种子模型为每个提示生成多个响应。标注者随后对这些响应进行排名,并优化排名最高的响应以产生最终版本。
  • 对于数学和编码等推理任务,基于规则和基于奖励建模的验证比人工判断更准确、更高效,使用拒绝采样来扩展SFT数据集。

普通SFT数据集包含大约100万文本数据,50万一般问答,20万编码,20万数学和科学,5千创意写作,2万长上下文任务,如总结、文档问答、翻译和写作。此外,构建了100万文本视觉数据,涵盖各种类别,包括图表解读、OCR、图像引导的对话、视觉编码、视觉推理以及带有视觉辅助的数学/科学问题。 我们首先在32k token的序列长度下训练模型1个epoch,然后在128k token的序列长度下再训练1个epoch。在第一阶段(32k),学习率从 2×10−5 衰减到 2×10−6,然后在第二阶段(128k)重新升温到 1×10−5,最后衰减到 1×10−6。为了提高训练效率,将多条训练数据 packing 到每个单独的训练序列中。

long-CoT SFT

从 RL prompt 集合里采 prompt,通过提示工程构建了一个小而高质量的 long-CoT warmup 数据集,包含文本和图像输入的经过准确验证的推理路径。

生成的 warmup 数据集旨在封装人类推理的基本认知过程,如:

规划(模型在执行前系统地概述步骤)
评估(对中间步骤进行批判性评估)
反思(使模型重新考虑并完善其方法)
探索(鼓励考虑替代解决方案)

RL训练

和 deepseek 类似,也是用了 on-policy 的强化学习策略(不过不是GRPO,而是在线策略镜像下降的变体)。kimi 在设计奖励函数时引入长度惩罚来缓解模型“过度思考”,主打一个引导模型产生短思考且结果正确的回答。

在这里插入图片描述

long2short

包括权重平均、拒绝采样和SFT、强化学习训练等一套流程,使用 long-CoT 模型来提升 short-CoT 模型能力。

模型融合。这里说的是权重融合,long/short 模型的权重直接融合。这种在业界已经用的很多了,可以在业务中尝试起来,而且不用训练。

  • 最短拒绝采样。一次生成 x 条样本,把最短的那条选出来,前提是结果要对。
  • 长短样本的 DPO。和上面类似(一条正样本),这里是构建的是正负 pair 样本(两条样本),短而正确的作为正样本,错误的是负样本或者1.5长于短样本的作为负样本。
  • long2short强化学习。在一阶段 RL 之后,使用长度惩罚来减少模型生成的长度。

小结

Test-time scaling + RL 或许是接下来要重点聚焦的大模型技术了

Reference

[1] Kimi k1.5 的技术报告:https://arxiv.org/abs/2501.12599
[2]《自顶向下方式深度解读 DeepSeek-R1》:https://bruceyuan.com/post/deepseek-r1-paper-reading-notes.html
[3]知乎大佬木尧:https://www.zhihu.com/people/muyaostudio,一张图速通 Kimi-k1.5 论文
[4]DeepSeek-R1 coldstart 数据:https://bruceyuan.com/post/deepseek-r1-paper-reading-notes.htmlChao
[6]bilibili:https://space.bilibili.com/12420432
[7]YouTube:https://www.youtube.com/@bbruceyuan
[8] 细节之王 Kimi K1.5,大模型算法工程师复现推理模型必读文章之一
[9] Kimi k1.5 背后的长长长长长思考

http://www.dtcms.com/a/590920.html

相关文章:

  • 蚌埠网站开发南宁优质手机网站建设公司
  • 长治网站seo想要导航页推广(推广版)
  • 东莞找公司网站wordpress登录加验证码
  • 网站申请空间网站开发税收分类
  • [nano-vllm] docs | 高性能LLM 推理引擎
  • 邢台市建设银行网站专业做轴承的网站
  • 山东恒昆建设工程有限公司网站长春电商网站建设哪家专业
  • 美团CatPaw:一款AI驱动的编程工具解析
  • 手机做任务佣金的网站上海网页制作设计营销
  • 网站备案是在哪个部门南通医院网站建设
  • 做旅游网站的设计感想南京振高建设有限公司官方网站
  • 重庆市网站编辑网站建设的视频教程
  • 如何拷贝服务器里面网站做备份陕西省住房与建设厅网站
  • 建设工程安全备案网站一个新手怎么做跨境电商
  • 卖老石器老榆木做哪个网站好商业推广软文范例
  • 怎样做钓鱼网站吉林市建设局网站
  • 自媒体网站建设秦皇岛视频优化推广
  • 私人设计网站推荐咸宁网网站
  • 天津建设公司网站网页设计教程实例项目
  • 淘客请人做网站衡阳建设网站公司
  • VB 总结
  • 奢侈品网站排名网站设计服务费一般多少钱
  • 合肥电子网站建设网站卖给别人后做违法信息
  • 成都建站价格湖南中霸建设公司官网
  • 江苏建设厅老网站网站开发上线流程
  • 网站建设常用的编程语言在哪里可以做公司网站
  • musl-cc静态编译vim9
  • 网站的登陆页怎么做图片安阳新闻最新消息
  • 1.7 计算机的数字系统
  • EMB电子机械制动系统同步附着系数分析