当前位置：首页 > news >正文

模型推理增强微调

news 2025/10/16 4:33:03

原文链接:https://i68.ltd/notes/posts/20250304-llm-fine-tuning-reason/

知识融合FuseAI

能融合多个模型，降低训练成本，提升推理性能
论文链接:[2408.07990] FuseChat: Knowledge Fusion of Chat Models
项目仓库:FuseAI
FuseO1智商确实不错，高数和计算机系统结构的刷题智力是真的强
网友评论:fuse o1 32b刷穿了我的测试题库,r1-70b的4bit awq都刷不穿我的题库

LIMO: Less is More for Reasoning

论文地址:LIMO: Less is More for Reasoning
项目地址:https://github.com/GAIR-NLP/LIMO
颠覆传统！比DeepSeek R1更省资源 | LIMO模型用少量数据实现高效推理，超越SFT极限

Rethinking Compute-Optimal Test-Time Scaling

论文地址:https://arxiv.org/pdf/2502.06703
项目地址:https://github.com/RyanLiu112/compute-optimal-tts
1B小模型完胜405B巨无霸！上海AILab新突破
通过TTS策略，小型语言模型（LLM）具备显著超越大型模型的潜力

Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning

使用基于规则的强化学习释放LLM推理
论文地址:https://arxiv.org/pdf/2502.14768
项目仓库:https://github.com/Unakar/Logic-RL
REINFORCE++逆袭Deepseek的GRPO！微软团队用逻辑谜题揭示大模型顿悟时刻
仅靠逻辑题，AI数学竞赛能力飙升！微软、九坤投资：7B小模型也能逼近o3-mini

TinyR1-32B-Preview

结合DeepSeek-R1蒸馏、DeepSeek-R1-Distill-32B增量训练、模型融合等技术，使用360-LLaMA-Factory训练而来
360联合北大震撼发布！5%参数量逼近Deepseek-R1满血性能
Tiny-R1-32B-Preview
OpenAI o1复现——360 LLaMA Factory 训练超长思维链
360-LLaMA-Factory

http://www.dtcms.com/a/48006.html

相关文章：

C++核心指导原则: 标准库

UE5设置打开新窗口默认停靠在主窗口

【分享】网间数据摆渡系统，如何打破传输瓶颈，实现安全流转？

Redis的主要数据类型及其应用场景

制服小程序的“滑手”：禁用页面左右滑动全攻略

mybatis热点面试题第五弹

Cherno C++ P60 为什么不用using namespace std

Golang的图形用户界面设计

网络编程——TCP

微信小程序接入DeepSeek模型（火山方舟），并在视图中流式输出

03 HarmonyOS Next仪表盘案例详解（二）：进阶篇

浏览器多实例项目的隔离方案

(十七)趣学设计模式之状态模式！

【前端】JavaScript 备忘清单（超级详细！）

Ubuntu 下 nginx-1.24.0 源码分析 - ngx_conf_read_token - 详解（3）

云原生周刊：基于 KubeSphere LuBan 架构打造DeepSeek 插件

CSDN博客写作教学（五）：从写作到个人IP的体系化构建（完结篇）

【AD】4-8 AD集成库的创建与安装

C# 多线程

【JAVA】ThreadPoolTaskExecutor 线程池学习、后端异步、高并发处理

全星 FMEA 软件系统在芯片半导体行业的应用介绍

leetcode 56. 合并区间

abseil-cpp:环境搭建

css3d放置的面板方向不对问题排查

二、QT和驱动模块实现智能家居-----问题汇总1

期权帮｜股指期货3月合约交割该如何做？

【华为OD机试真题29.9¥】(E卷,100分) - TLV解码（Java Python JS C++ C ）

Spring Bean 作用域设置为prototype在并发场景下是否是线程安全的

【含文档+PPT+源码】基于SpringBoot和Vue的编程学习系统

【leetcode hot 100 53】最大子数组和