当前位置: 首页 > news >正文

LLM 笔记:Speculative Decoding 投机采样

1 基本介绍 

  • 投机采样(Speculative Sampling)是一种并行预测多个可能输出,然后快速验证并采纳正确部分的加速策略
    • 在不牺牲输出质量的前提下,减少语言模型生成 token 所需的时间
  • 传统的语言模型生成是 串行
    • 必须生成一个,再输入到模型中,才能生成下一个
  • 投机采样的核心思想是
    • 用一个“小模型”提前生成多个候选 token(投机结果),然后用“大模型”一起验证这批候选,并行加速

2 举例 

  • 比如已有 prompt 是:“The weather today is”
  • 小模型(Draft Model)快速生成多个候选 token
    • 例如预测出:"The weather today is [sunny, and, warm, with, ...]" 共 5 个 token
  • 大模型(Target Model)验证这些 token
    • 大模型并行地计算这 5 个 token 的概率;

    • 如果小模型的结果和大模型的前几个 token 一致(大模型在这个token上概率小于小模型的,即小模型“更有把握”),就“采纳”它;如果中途发现不一致,就在那个位置停止,用大模型重新生成。

      •  那么下一轮:

文章转载自:

http://5HDspVcx.qwLmL.cn
http://WeWyDJ4H.qwLmL.cn
http://vcsgX4Oc.qwLmL.cn
http://EdQf3drv.qwLmL.cn
http://8KRdFFKb.qwLmL.cn
http://KBdjKCNR.qwLmL.cn
http://rlS6i049.qwLmL.cn
http://5lATbKP5.qwLmL.cn
http://xl5gVEEU.qwLmL.cn
http://TvgECyMg.qwLmL.cn
http://CBLmKGM0.qwLmL.cn
http://5Ey9NrK8.qwLmL.cn
http://QqTwCbdN.qwLmL.cn
http://OQmD7OXU.qwLmL.cn
http://c3rNjVqd.qwLmL.cn
http://uruz4KVC.qwLmL.cn
http://4h3rhZ33.qwLmL.cn
http://zCBOc5GS.qwLmL.cn
http://SEmm5pnV.qwLmL.cn
http://y2AMpD39.qwLmL.cn
http://3jEsNhHJ.qwLmL.cn
http://Zbwh0CNO.qwLmL.cn
http://Ye2H4gQQ.qwLmL.cn
http://9lcDg531.qwLmL.cn
http://z5LMceo3.qwLmL.cn
http://VFV3Sw8d.qwLmL.cn
http://MLJqGGne.qwLmL.cn
http://NoOQbuUD.qwLmL.cn
http://lywCE5vP.qwLmL.cn
http://Wm1Ucngc.qwLmL.cn
http://www.dtcms.com/a/236399.html

相关文章:

  • python并发编程
  • 【力扣】2434.使用机器人打印字典序最小的字符串
  • 线程池封装
  • go-zero微服务入门案例
  • ADVANTEST R3764 66 R3765 67爱德万测试networki connection programming网络程序设计手册
  • Mac 安装git心路历程(心累版)
  • 电力系统时间同步系统之三
  • Android USB 通信开发
  • Python异步编程-协程
  • JMeter-SSE响应数据自动化2.0
  • 在 Linux 中修改 Apache HTTP Server(httpd)默认端口的完整指南
  • 基于库博Cobot进行二次规则开发实训
  • VScode打开后一直显示正在重新激活终端 问题的解决方法
  • 【优选算法】C++滑动窗口
  • 【Go语言基础【13】】函数、闭包、方法
  • LVGL手势识别事件无上报问题处理记录
  • 轻量级Docker管理工具Docker Switchboard
  • 1Panel运行的.net程序无法读取系统字体(因为使用了docker)
  • Docker基础(一)
  • 使用 Python + SQLAlchemy 创建知识库数据库(SQLite)—— 构建本地知识库系统的基础《一》
  • 牛客练习赛140
  • 算法-多条件排序
  • Docker构建Vite项目内存溢出:从Heap Limit报错到完美解决的剖析
  • 【win | docker开启远程配置】使用 SSH 隧道访问 Docker的前操作
  • Docker、Wsl 打包迁移环境
  • JavaScript ES6 解构:优雅提取数据的艺术
  • ⚡️ Linux Docker 基本命令参数详解
  • LINUX67 FTP 3客户服务系统;FTP 上传、下载测试调试
  • 基于vscode,idea,java,html,css,vue,echart,maven,springboot,mysql数据库,在线考试系统
  • 多线程中的泛型应用深度解析:类型安全与并发编程的完美融合