当前位置: 首页 > news >正文

【大模型采样策略(Greedy、Top-k、Top-p、温度调节)三化学习】


一、系统化(放到大环境里看)

采样策略的意义,要放在 概率预测 的背景下理解:

  • 大模型每次生成下一个词时,并不是只有一个答案,而是会算出一个 概率分布(比如“今天”之后,可能接“天气”(40%)、“晚上”(30%)、“股市”(10%)…)。

  • 采样策略就是告诉模型:你到底是严格挑最高概率的词,还是在多个可能里随机挑。

  • 外部环境影响:

    • 如果策略太保守(总选概率最高的),模型就会机械重复。
    • 如果策略太随机,模型就会胡言乱语。

所以采样策略的本质是 在“确定性”和“多样性”之间找平衡


二、全局化(核心组成)

主要有四种常用策略:

  1. Greedy Search(贪心搜索)

    • 逻辑:每次都选概率最高的词。
    • 好处:简单,结果稳定。
    • 坏处:容易重复、缺乏创造性。
    • 类比:写作文时总用最常见的词,结果很平淡。
  2. Top-k Sampling(前 K 个候选)

    • 逻辑:只考虑概率前 k 个的词,从中随机选。
    • 好处:减少低概率的胡言乱语。
    • 坏处:k 选小了容易死板,选大了可能还是乱。
    • 类比:点菜时只在“推荐前 10 道菜”里挑,避免选到奇怪的冷门菜。
  3. Top-p Sampling(核采样 / Nucleus Sampling)

    • 逻辑:不固定 k,而是看概率总和,直到累计到 p(如 90%)为止,把这些候选词作为选择范围。
    • 好处:能动态调整候选范围,更灵活。
    • 类比:点菜时选“人气最高的 90% 菜品”,菜单随情况不同而变化。
  4. Temperature(温度调节)

    • 逻辑:调整概率分布的“陡峭度”。

      • 温度低(<1):概率差距被放大,更保守。
      • 温度高(>1):概率更平均,更随机。
    • 类比:温度低时,大家都点最热门的菜;温度高时,冷门菜也有人点。


三、结构化(它们之间的关系)

  • Greedy = 确定性极强 → 稳定但无趣。
  • Top-k = 固定数量的随机性 → 可控但生硬。
  • Top-p = 动态数量的随机性 → 灵活自然。
  • 温度 = 不是单独的方法,而是一个“旋钮”,可以套在前面几种上,让输出更保守或更大胆。

结构化总结:
👉 Greedy 是最死板的,Top-k 给固定范围的随机性,Top-p 给动态范围的随机性,而温度像一个“调味剂”,决定整个模型是偏冷静还是偏冒险。


视频链接:【使用大模型时可调节的TopK、TopP到底是什么意思?】 https://www.bilibili.com/video/BV1UM4m127A2/?share_source=copy_web&vd_source=5553fd2e1fdf5ffd393a78ea8bc166f8

补充:

Top-K中的K和Top-P中的P的英语简称分别是什么?

Top-K 中的 K

  • K = “前 K 个候选词”里的 K
  • K 表示一个 固定的整数,即每次只保留概率最高的前 K 个词作为候选,其余全部丢弃。
  • 举例:如果 K=5,就只在“概率最高的 5 个词”里随机选择。

👉 直观理解:K 代表 数量阈值


Top-P 中的 P

  • P = “概率 (Probability)” 的缩写
  • P 表示一个 概率阈值,即累计概率总和达到 P 之前的所有候选词都保留下来。
  • 举例:如果 P=0.9,就把概率加起来直到 ≥90%,然后在这些词中随机挑。

👉 直观理解:P 代表 累计概率阈值


对比总结

  • Top-K:固定 数量,候选集大小始终一样。
  • Top-P:固定 概率阈值,候选集大小随分布而变。
http://www.dtcms.com/a/344420.html

相关文章:

  • 旧物新生,交易无界——探索二手交易小程序系统的绿色革命
  • 优考试局域网系统V6.0.0版
  • 谁才是多快好省的数据分析选择:SelectDB vs. ClickHouse vs. Snowflake
  • 关于常用线程池CompletableFuture和Future的介绍
  • 我从零开始学习C语言(13)- 循环语句 PART2
  • QT-左右侧边栏动画
  • 动态代理保姆级别
  • 大模型微调:从理论到实践的全面指南
  • 数据结构与算法之数组篇leetcode704 - 二分查找
  • kubernetes中pod的管理及优化
  • Spring Boot 自动配置全流程深度解析
  • Linux虚拟机安装FTP
  • 「越短越合法」型滑动窗口
  • Seaborn数据可视化实战:Seaborn基础图表绘制入门
  • 分布式日志分析平台(ELFK 与 EFK)理论
  • 【机器学习深度学习】大模型分布式推理概述:从显存困境到高并发挑战的解决方案
  • 技术干货|使用Prometheus+Grafana监控Tomcat实例详解
  • [特殊字符] TTS格局重塑!B站推出Index-TTS,速度、音质、情感表达全维度领先
  • TTC协议(TTS即ORACLE DATA)协议分析
  • 代码随想录刷题Day40
  • week3-[二维数组]最大列
  • 文件系统层面的可用块数量可用空间和比例
  • 【Python-Day 40】告别内存溢出!Python 生成器 (Generator) 的原理与实战
  • 网络抓包介绍
  • Conmi的正确答案——Ubuntu24.04禁用任何休眠
  • CTF-RSA-openssl-pem格式的key
  • C++中不加{}导致的BUG
  • 笔记本怎么才能更快散热?
  • vsCode或Cursor 使用remote-ssh插件链接远程终端
  • Flask数据库迁移实战指南