当前位置: 首页 > wzjs >正文

视频制作软件免费版下载seo sem什么意思

视频制作软件免费版下载,seo sem什么意思,广告营销有哪些,wordpress 调试模式note 推出两个多模态模型,深度思考模型 long-CoT 对标 o1,通用模型 short-CoT 模型对标 gpt-4o。 文章目录 note一、kimi 1.5模型训练流程预训练SFT训练long-CoT SFTRL训练long2short 小结Reference 一、kimi 1.5模型训练流程 推出两个多模态模型&…

note

  • 推出两个多模态模型,深度思考模型 long-CoT 对标 o1,通用模型 short-CoT 模型对标 gpt-4o。

文章目录

  • note
  • 一、kimi 1.5模型训练流程
    • 预训练
    • SFT训练
    • long-CoT SFT
    • RL训练
    • long2short
  • 小结
  • Reference

一、kimi 1.5模型训练流程

推出两个多模态模型,深度思考模型 long-CoT 对标 o1,通用模型 short-CoT 模型对标 gpt-4o。
在这里插入图片描述

预训练

语言数据涵盖五个领域:英语、中文、代码、数学推理和知识。多模态数据,包括图像描述、图文交错[^1]、OCR数据、知识以及问答数据集,使我们的模型能够获得视觉 - 语言能力。严格的质量控制确保了整个预训练数据集的相关性、多样性和平衡性。

SFT训练

100w文本sft数据(任务具体分布见图)和100w多模态sft数据(没说具体分布,光列任务),通过一些 infra 的优化,先训 32k,再训 128k。

  • 非推理任务:包括问答、写作和文本处理,首先通过人工标注构建了一个种子数据集。这个种子数据集用于训练一个种子模型。随后,收集了各种prompt,并使用种子模型为每个提示生成多个响应。标注者随后对这些响应进行排名,并优化排名最高的响应以产生最终版本。
  • 对于数学和编码等推理任务,基于规则和基于奖励建模的验证比人工判断更准确、更高效,使用拒绝采样来扩展SFT数据集。

普通SFT数据集包含大约100万文本数据,50万一般问答,20万编码,20万数学和科学,5千创意写作,2万长上下文任务,如总结、文档问答、翻译和写作。此外,构建了100万文本视觉数据,涵盖各种类别,包括图表解读、OCR、图像引导的对话、视觉编码、视觉推理以及带有视觉辅助的数学/科学问题。 我们首先在32k token的序列长度下训练模型1个epoch,然后在128k token的序列长度下再训练1个epoch。在第一阶段(32k),学习率从 2×10−5 衰减到 2×10−6,然后在第二阶段(128k)重新升温到 1×10−5,最后衰减到 1×10−6。为了提高训练效率,将多条训练数据 packing 到每个单独的训练序列中。

long-CoT SFT

从 RL prompt 集合里采 prompt,通过提示工程构建了一个小而高质量的 long-CoT warmup 数据集,包含文本和图像输入的经过准确验证的推理路径。

生成的 warmup 数据集旨在封装人类推理的基本认知过程,如:

规划(模型在执行前系统地概述步骤)
评估(对中间步骤进行批判性评估)
反思(使模型重新考虑并完善其方法)
探索(鼓励考虑替代解决方案)

RL训练

和 deepseek 类似,也是用了 on-policy 的强化学习策略(不过不是GRPO,而是在线策略镜像下降的变体)。kimi 在设计奖励函数时引入长度惩罚来缓解模型“过度思考”,主打一个引导模型产生短思考且结果正确的回答。

在这里插入图片描述

long2short

包括权重平均、拒绝采样和SFT、强化学习训练等一套流程,使用 long-CoT 模型来提升 short-CoT 模型能力。

模型融合。这里说的是权重融合,long/short 模型的权重直接融合。这种在业界已经用的很多了,可以在业务中尝试起来,而且不用训练。

  • 最短拒绝采样。一次生成 x 条样本,把最短的那条选出来,前提是结果要对。
  • 长短样本的 DPO。和上面类似(一条正样本),这里是构建的是正负 pair 样本(两条样本),短而正确的作为正样本,错误的是负样本或者1.5长于短样本的作为负样本。
  • long2short强化学习。在一阶段 RL 之后,使用长度惩罚来减少模型生成的长度。

小结

Test-time scaling + RL 或许是接下来要重点聚焦的大模型技术了

Reference

[1] Kimi k1.5 的技术报告:https://arxiv.org/abs/2501.12599
[2]《自顶向下方式深度解读 DeepSeek-R1》:https://bruceyuan.com/post/deepseek-r1-paper-reading-notes.html
[3]知乎大佬木尧:https://www.zhihu.com/people/muyaostudio,一张图速通 Kimi-k1.5 论文
[4]DeepSeek-R1 coldstart 数据:https://bruceyuan.com/post/deepseek-r1-paper-reading-notes.htmlChao
[6]bilibili:https://space.bilibili.com/12420432
[7]YouTube:https://www.youtube.com/@bbruceyuan
[8] 细节之王 Kimi K1.5,大模型算法工程师复现推理模型必读文章之一
[9] Kimi k1.5 背后的长长长长长思考

http://www.dtcms.com/wzjs/272489.html

相关文章:

  • 前端网站模板合肥seo网站管理
  • 做网站之前需要准备什么条件游戏交易平台
  • 劲松做网站的公司短视频平台推广
  • 建设网站需要提交什么资料武汉百度推广入口
  • 自做闪图网站百度入口官网
  • 网络科技公司名字起名大全百度seo排名帝搜软件
  • 抄袭别人网站怎样建网站平台
  • wordpress企业站模板下载宝安网站建设
  • 武汉做网站最好的公司武汉新一轮疫情
  • 铜仁市建设局网站百度应用平台
  • 如何做赌博网站代理外链服务
  • 网站建设报告书最大的搜索网站排名
  • 网站栏目功能分析网上怎么推广公司产品
  • 网站建设品牌好网站优化排名操作
  • 在国外视频网站做中国美食网站诊断分析
  • 国内政府网站建设情况关键词采集网站
  • 聊城推广网站关键词排名靠前
  • 昆明网站建设首选公司上海还能推seo吗
  • 娄底建网站浙江网络科技有限公司
  • 象山县住房建设局网站沈阳seo关键词
  • 网站扩展虚拟空间成都网站推广
  • html商业网站模板灰色关键词排名技术
  • 张家港建设银行网站长春百度关键词优化
  • wordpress用户设置seo品牌优化
  • 网站后台管理系统操作电商入门基础知识
  • 乐都企业网站建设哪家好成都专业seo公司
  • 承德网站网络销售就是忽悠人
  • 给别人做网站收8000贵不贵线上渠道推广怎么做
  • 佛山专业英文网站建设seo哪里可以学
  • wordpress上传ftp失败怎么优化一个网站关键词