当前位置: 首页 > news >正文

模型推理增强微调

原文链接:https://i68.ltd/notes/posts/20250304-llm-fine-tuning-reason/

知识融合FuseAI

  • 能融合多个模型,降低训练成本,提升推理性能
  • 论文链接:[2408.07990] FuseChat: Knowledge Fusion of Chat Models
  • 项目仓库:FuseAI
  • FuseO1智商确实不错,高数和计算机系统结构的刷题智力是真的强
  • 网友评论:fuse o1 32b刷穿了我的测试题库,r1-70b的4bit awq都刷不穿我的题库

LIMO: Less is More for Reasoning

  • 论文地址:LIMO: Less is More for Reasoning
  • 项目地址:https://github.com/GAIR-NLP/LIMO
  • 颠覆传统!比DeepSeek R1更省资源 | LIMO模型用少量数据实现高效推理,超越SFT极限

Rethinking Compute-Optimal Test-Time Scaling

  • 论文地址:https://arxiv.org/pdf/2502.06703
  • 项目地址:https://github.com/RyanLiu112/compute-optimal-tts
  • 1B小模型完胜405B巨无霸!上海AILab新突破
  • 通过TTS策略,小型语言模型(LLM)具备显著超越大型模型的潜力

Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning

  • 使用基于规则的强化学习释放LLM推理
  • 论文地址:https://arxiv.org/pdf/2502.14768
  • 项目仓库:https://github.com/Unakar/Logic-RL
  • REINFORCE++逆袭Deepseek的GRPO!微软团队用逻辑谜题揭示大模型顿悟时刻
  • 仅靠逻辑题,AI数学竞赛能力飙升!微软、九坤投资:7B小模型也能逼近o3-mini

TinyR1-32B-Preview

  • 结合DeepSeek-R1蒸馏、DeepSeek-R1-Distill-32B增量训练、模型融合等技术,使用360-LLaMA-Factory训练而来
  • 360联合北大震撼发布!5%参数量逼近Deepseek-R1满血性能
  • Tiny-R1-32B-Preview
  • OpenAI o1复现——360 LLaMA Factory 训练超长思维链
  • 360-LLaMA-Factory

相关文章:

  • C++核心指导原则: 标准库
  • UE5设置打开新窗口默认停靠在主窗口
  • 【分享】网间数据摆渡系统,如何打破传输瓶颈,实现安全流转?
  • Redis的主要数据类型及其应用场景
  • 制服小程序的“滑手”:禁用页面左右滑动全攻略
  • mybatis热点面试题第五弹
  • Cherno C++ P60 为什么不用using namespace std
  • Golang的图形用户界面设计
  • 网络编程——TCP
  • 微信小程序接入DeepSeek模型(火山方舟),并在视图中流式输出
  • 03 HarmonyOS Next仪表盘案例详解(二):进阶篇
  • 浏览器多实例项目的隔离方案
  • (十 七)趣学设计模式 之 状态模式!
  • 【前端】JavaScript 备忘清单(超级详细!)
  • Ubuntu 下 nginx-1.24.0 源码分析 - ngx_conf_read_token - 详解(3)
  • 云原生周刊:基于 KubeSphere LuBan 架构打造DeepSeek 插件
  • CSDN博客写作教学(五):从写作到个人IP的体系化构建(完结篇)
  • 【AD】4-8 AD集成库的创建与安装
  • C# 多线程
  • 【JAVA】ThreadPoolTaskExecutor 线程池学习、后端异步、高并发处理
  • 云南一男子酒后经常殴打七旬母亲,被警方拘14日罚600元
  • 蓝佛安:中方将采取更加积极有为的宏观政策,有信心实现2025年的5%左右增长目标
  • 中标多家学校采购项目的App查成绩需付费?涉事公司回应
  • 超导电路新设计有望提升量子处理器速度
  • 体坛联播|米兰逆转热那亚豪取3连胜,阿诺德官宣离开利物浦
  • 以总理:在加沙地带扩大的军事行动将是“高强度”的