当前位置: 首页 > news >正文

打造推理模型的4种方法——李宏毅2025大模型课程第7讲

本节课系统地介绍了如何让大语言模型(LLM)具备“推理”能力,介绍了打造推理模型的4种流派,并介绍了集4种技术流派大成的deepseek R1最后提出了推理模型的挑战在于:推理过程冗长、效率低和成本高。

一、什么是“深度思考”的语言模型、什么是推理?

  • ChatGPT o 系列、DeepSeek-R1、Gemini 2 Flash Thinking、Claude 3.7 Sonnet 是普通用户可直接体验的“深度思考”模型。

  • 什么是推理:模型在回答前会展示一个可折叠的思考过程(如 [thinking]...[/thinking]),这个过程叫做“推理”(reasoning),包含探索、验证、规划等步骤。

  • 例子:面对“1+1=?”这样的问题,模型会思考“是不是陷阱?二进制里1+1=10”,但最终判断用户只是问基础数学,回答“2”。

  • 本质:这是一种测试时间计算(Testing-Time Compute)行为,即在推理阶段投入更多算力,以换取更高质量答案。[1]

二、为什么“推理”有效?

  • 核心理念“深度不够,长度来凑” —— 模型通过生成更长的思考链,模拟更深层的计算。

  • 类比 AlphaGo:不是直接落棋子,而是每次落子前,通过蒙特卡洛树搜索(MCTS)模拟不同位置的未来走法,选择最优解。

  • 测试时间缩放(Test-Time Scaling):思考越多,答案通常越好。如下图,每跟线是一样的效果。横轴是增加训练的时间,纵轴是增加test-Time Scaling,可以看到,在小一点的train-time compute中,如果增加test-time compute,也能达到一样的效果[2]

三、打造「推理」語言模型的4种方法

流派是否需微调方法简介举例/技术
1. 高级提示工程用复杂Prompt引导模型逐步思考长链式思考(Long CoT)、Supervised CoT
2. 构建推理工作流多次生成答案 + 筛选最优Self-consistency、Best-of-N、Beam Search、MCTS
3. 模仿学习用高质量推理过程微调模型教师模型生成推理数据 → 学生模型学习
4. 强化学习(RL)只看答案对错,训练模型自己探索推理DeepSeek-R1、Aha Moment 自发涌现

四、关键技术详解

1. 高级提示工程 之 链式思考(Chain-of-Thought, CoT)

  • Short CoT:简单提示“Let’s think step by step”

  • Long CoT:模型生成详细、结构化的思考过程(如规划、验算、反思),例子见下方截图[3]

  • 不是所有模型都有能力根据复杂指令做 Long CoT

2. 构建推理工作流——多次采样与筛选(Generate + Select)

生成多个答案 → 用以下方法选最佳:

  • 多数投票(Self-consistency)

  • 验证器打分(Verifier / Best-of-N)

  • 过程级验证 + Beam Search:每步都验证,保留最优路径

3.模仿学习(imitation learning),

  • 人类教模型学习推理过程,那推理过程哪里来呢?
  • 监督式思维链:使用标注的推理过程训练模型。这是一种非常昂贵的方式,标注高质量的推理过程很耗费人力,可以让模型自己多次生成推理过程,从正确答案往回找,确认哪些推理步骤是正确的,再用这些推理过程拿来训练。
  • Math-Shepherd:无需人工标注,自动验证与强化推理步骤。
  • rStar-Math:生成并验证每一步推理过程。
  • 知识蒸馏:从大模型压缩知识到小模型。

4.强化学习:结果导向

  • 只奖励最终答案正确与否,过程不重要

  • 模型自发学会自我纠错、反思、验证(Aha Moment)

  • 缺点:推理过程可读性差、语言混杂 → 需后续模仿学习优化


五、典型案例:DeepSeek-R1 系列

deepseek-R1则是以上4种技术的集大成

阶段方法说明
R1-Zero纯RL只以答案正确为奖励,推理过程自发涌现
R1RL + 模仿学习用R1-Zero生成数据 → 人工筛选 → 微调 → 再RL优化
蒸馏版模仿学习用R1生成的数据教小模型(如Qwen-32B),效果优于直接RL

六、挑战与未来方向

1.当前问题

  • 推理过程冗长:模型会反复验算已正确的答案,浪费算力

  • 成本高:长推理链消耗大量Token与计算资源

  • 效率低:模型不会判断“是否需要深度思考”

2.未来方向

  • 自适应推理:简单题快速答,难题才深度思考

  • 高效搜索算法:更快找到最优推理路径

  • 推理剪枝:减少无意义的重复验证


七、总结一句话

推理模型的核心不是“变聪明”,而是“愿意多想几步”
通过测试时间计算,我们让模型模拟更深层的思考过程
RL + 模仿学习 + 工作流的融合,正是打造下一代“会思考”的AI的关键路径。

参考文章

[1] Alphago https://www.nature.com/articles/nature16961

[2]Scaling Scaling Laws with Board Games https://arxiv.org/abs/2104.03113

[3]Long CoT https://arxiv.org/abs/2503.09567

http://www.dtcms.com/a/561557.html

相关文章:

  • 金融行业客服系统中合规高效的身份验证流程分享
  • 网站服务器怎么维护濮阳网站建设在哪里
  • 四川省住房和城乡建设厅网站官网西安做网站缑阳建
  • linux——有关权限的话题。——权限掩码——默认文件权限的理解/文件共享、粘滞位
  • 【经典书籍】《人月神话》第四章“贵族专制、民主政治和系统”精华讲解
  • 南京高端网站定制保定自助建站软件
  • hysAnalyser --- 支持UDP实时流分析和录制功能
  • 葫芦岛做网站的公司微信公众平台导航 wordpress模版
  • 【Linux笔记】网络部分——网络层IP协议
  • 用织梦做的网站怎么上传虚拟网站新建设请示
  • GEE统计特定区域特定时间上的Landsat/Sentinel的影像信息
  • 徐州建设企业网站苏州网站优化排名推广
  • 百度提交网站的入口地址网络地区广告代理
  • 全面认识 InnoDB:从架构到 Buffer Pool 深入解析
  • TREE SEARCH FOR LLM AGENT REINFORCEMENTLEARNING
  • 网站建设分金手指排名二八铜川矿业公司网站
  • 阿里云网站建设需要多少钱cms在线
  • 把AI“编”进草垫:1KB决策树让宠物垫自己报「如厕记录」
  • 没有网站如何做SEO推广有用吗wordpress 代码优化
  • IDEA如何进行远程Debug
  • 巧用AI解决日常开发中遇到的问题!
  • 东台建设企业网站网站集约化建设进度汇报
  • 车载 Serdes:TI、Rohm 拥抱 HSMT
  • 网站制作推荐21ic项目外包平台
  • 建设行业年度峰会网站微信小程序开发教程官方文档
  • 全国首家“数字资源集团”,落地重庆
  • 网站建设学的是什么知识开设公司网站
  • Vue2学习笔记(二)
  • 基于STM32设计的淡水湖水产养殖系统_319
  • 兼容Win11,DPS 9.01 免注册版下载安装教程