当前位置：首页 > news >正文

论文阅读：speculative decoding

news 2025/9/17 10:30:57

Fast Inference from Transformers via Speculative Decoding

论文地址：https://arxiv.org/pdf/2211.17192

speculative sampling

为了从分布 $p (x)$ 中采样，我们实际上是从分布 $q (x)$ 中采样 $x$ ，如果 $\leq p(x)$ ，则保留该样本；如果 $q (x) > p (x)$ ，则以概率 $\frac{p(x)}{q(x)}$ 拒绝该样本，并重新从调整后的分布 $\text{norm}(\max(0, p(x)-q(x)))$ 中采样。对于任何分布 $p (x)$ 和 $q (x)$ ，以及以此方式采样的 $x$ ，确实有 $\sim p(x)$ 。

给定通过在条件前缀上运行 $M_q$ 获得的分布 $q (x)$ ，我们可以采样一个标记 $x_1 \sim q(x)$ 。然后，我们通过在前缀上运行 $M_p$ 来计算分布 $p (x)$ ，同时并行地推测性地计算下一个标记 $x_2$ 的分布，即在前缀上追加 $x_1$ 后运行 $M_p$ 。一旦两项计算都完成，我们就按上述方式处理：如果 $x_1$ 被拒绝，我们丢弃 $x_2$ 的计算，并从调整后的分布中重新采样 $x_1$ ；如果 $x_1$ 被接受，我们就保留两个标记。算法 1 将这一想法推广为一次采样 1 到 $\gamma + 1$ 个标记。
运行算法

分析

有几个证明需要注意一下：

单次算法期望能生成的token

单次算法期望能生成的token数量服从几何分布，但是求和项是有限制的，这里推导下
接受率β的定义
设目标模型分布为 p(x)，草稿模型分布为 q(x)。草稿模型生成的单个token被目标模型接受的概率为：

$\beta = \sum_x \min\left(q(x), p(x)\right)$

拒绝率α的定义

$\alpha = 1 - \beta = 1 - \sum_x \min(p(x), q(x)) x$

假设每个token的接受事件独立且同分布（i.i.d.），草稿模型一次生成 K 个token：
首次拒绝发生在位置 r 的概率为：

$(1-\beta) \beta^{r-1} \quad (1 \leq r \leq K)$

所有token均被接受 的概率为： $\beta^K$
综上期望能生成的token数量为：

$\gamma = \underbrace{\sum_{r=1}^K r \cdot P(r)}_{\text{拒绝前生成的token}} + \underbrace{K \cdot \beta^K}_{\text{全接受时生成K个token}}$

代入 $P (r)$ 后展开：

$\gamma = \sum_{r=1}^K r \cdot (1-\beta) \beta^{r-1} + K \beta^K$

几何级数求和

几何级数求和公式为：

对 $\sum_{r=1}^K r \beta^{r-1}$ 求和处理：

令 $\sum_{r=1}^K \beta^{r-1}$ ：

$\beta + \beta^2 + \cdots + \beta^{K-1} = \frac{1-\beta^K}{1-\beta}$

对 $S$ 求导：

$\sum_{r=1}^K r \beta^{r-1} = \frac{d}{d\beta} \left( \sum_{r=0}^K \beta^r \right) = \frac{d}{d\beta} \left( \frac{1-\beta^{K+1}}{1-\beta} \right) = \frac{1 - (K+1)\beta^K + K\beta^{K+1}}{(1-\beta)^2}$

代入γ表达式：

$\gamma = (1-\beta) \cdot \frac{1 - (K+1)\beta^K + K\beta^{K+1}}{(1-\beta)^2} + K\beta^K = \frac{1 - (K+1)\beta^K + K\beta^{K+1}}{1-\beta} + K\beta^K$

化简：

$\gamma = \frac{1 - \beta^K}{1-\beta}$

物理意义：

当 $\to \infty$ 时， $\gamma \to \frac{1}{1-\beta} = \frac{1}{\alpha}$ （理想无限长草稿）。
例如 $\beta$ = 0.8` 时， $\gamma_{\text{max}} = 5$ ，即平均每次生成5个token。

得证

Walltime的时间优化

定理 3.8：算法 1 在总运行时间上的预期改进因子为
$`\frac{1 - \alpha^{\gamma + 1}}{(1 - \alpha)(\gamma c + 1)}`$

证明：
记运行目标模型 $M_p$ 单步的成本为 $T$ 。
算法 1 的单次运行成本为 $Tc\gamma + T$ （其中 $c\gamma T$ 用于运行近似模型 $M_q$ $\gamma$ 次， $T$ 用于运行 $M_p$ 一次）。
根据单次算法期望能生成的token算法推导，单次运行平均生成 token 数量为 $\dfrac{1 - \alpha^{\gamma + 1}}{1 - \alpha}$ 。
因此，使用算法 1 生成单个 token 的总体预期成本为：
$\frac{(c\gamma + 1)(1 - \alpha)}{1 - \alpha^{\gamma + 1}}T`$
由于标准解码算法生成单个 token 的成本为 T，
比较可得上述改进因子。∎
（注：符号 “∎” 表示证明结束）

关键术语说明：

英文术语	中文翻译	符号	含义
walltime	总运行时间	-	算法从启动到结束的时钟时间
expected improvement factor	预期改进因子	-	优化后时间开销的缩减比例
cost per step	单步成本	$T$	目标模型 $M_p$ 推理一个 token 的时间
approximation model	近似模型	$M_q$	快速但低精度的草稿模型
tokens	标记（Token）	-	模型生成的基本文本单位
rejection rate	拒绝率	$\alpha$	草稿模型 $M_q$ 的 token 被目标模型 $M_p$ 拒绝的概率
$\gamma$	生成长度	$\gamma$	草稿模型单次运行的 token 生成数
cost ratio	成本比	$c$	$M_q$ 与 $M_p$ 的单步时间比值（ $0 < c < 1$ ）