当前位置：首页 > news >正文

MSM多标量乘法：策略及挑战

news 2025/10/5 5:37:26

1. 引言

在生成 zk-SNARK（zero-knowledge succinct non-interactive argument of knowledge，零知识简洁非交互式知识论证）等操作中，几乎所有的密码学运算都发生在有限域上的椭圆曲线中。

2. 椭圆曲线

椭圆曲线上的一个点是有限域中的一对数 $(x, y)$ ，满足方程：
$y^2 = x^3 + a x + b$
其中 $a, b$ 是该域中的常数。

可以在椭圆曲线上定义一种“加法”运算，但它不是普通的分量相加 $x_1, y_1) + (x_2, y_2) = (x_1 + x_2, y_1 + y_2)$ ：

对于两个不同的点 $x_1, y_1)$ 和 $x_2, y_2)$ ，它们的和定义为 $x_1, y_1) + (x_2, y_2) = (x_3, y_3)$ ，其中：
$\frac{y_2 - y_1}{x_2 - x_1} \\ x_3 = s^2 - x_1 - x_2 \\ y_3 = s(x_1 - x_3) - y_1$

在这之中有两个例外情况要特别处理：

1）当 $x_1, y_1) = (x_2, y_2)$ 时，加法运算退化为倍点运算（point doubling）。在倍点运算的情况下，其公式为：【其中 $a$ 为以上椭圆曲线方程式的系数】
$\frac{3 x_1^2 + a}{2 y_1} \\ x_3 = s^2 - 2 x_1 \\ y_3 = (x_1 - x_3) - y_1$
2）当 $x_1 = x_2$ 但 $y1≠y2y_1 \neq y_2$ 时，这两个点垂直，于是它们的和为无穷远点（记为 $O\mathcal{O}$ ），这是群的零元（加法单位元），对于任意 $(x, y)$ ，满足：
$O+(x,y)=(x,y)\mathcal{O} + (x, y) = (x, y)$

3. 基本运算

在椭圆曲线密码学中，两个基础运算是 点加（point addition） 和 倍点（point doubling），在文中分别称为 ECADD 和 ECDBL。

如果需要将一点重复加多次（即标量乘法），可以用“倍加加法”（double-and-add）算法，详情可参看2022年8月博客 What every developer needs to know about elliptic curves。

如，要计算 $9 P$ ，传统做法是 $\cdots + P$ 共 8 次加法运算；但用倍加技巧：
$\\ 2P + 2P = 4P \\ 4P + 4P = 8P \\ 8P + P = 9P$

这样总共只用了 4 次加法运算。

当需要计算许多不同点的加和时：
$k1P1+k2P2+⋯+knPnk_1 P_1 + k_2 P_2 + \dots + k_n P_n$
大多数技术都假设这些基本运算（primitives）已经给定，并将重点放在如何执行标量乘法 (k_i P_i) 以及点加法上，从而尽量减少椭圆曲线点加（ECADD）和倍点（ECDBL）运算的次数。

4. 多标量乘法（MSM：Multi-Scalar Multiplication）

多标量乘法是这样的问题：

给定一系列标量（即整数对某特定素数取模） $k_i$ 和椭圆曲线点 $P_i = (x_i, y_i)$ ，要计算：
$∑i=1nkiPi\sum_{i=1}^n k_i P_i$

在 Aleo 的某个挑战里， $n = 2^{26}$ ，也就是说这个操作极其耗时。MSM 是生成 zk-SNARK 证明时最消耗时间的部分之一（约 80% 时间用于 MSM），所以对其优化非常关键。

4.1 分桶法（Bucketing method）

一种常见优化 MSM 的方法是分桶策略（Bucketing method）——可以将多标量乘法（MSM）拆分成更小的求和部分，并通过反复使用windowing窗口化技术来减少运算次数。
如果想要计算每个 $k_i P_i$ 就可以将其拆分为大小为 $c$ 的窗口：
$kiPi=ki0Pi+ki12cPi+ki222cPi+⋯+ki,m−12c(m−1)Pik_i P_i = k_{i0} P_i + k_{i1} 2^c P_i + k_{i2} 2^{2c} P_i + \dots + k_{i,m-1} 2^{c (m-1)} P_i$

于是整体 MSM 可以重写为：

$\sum_i k_i P_i = \sum_i \sum_j k_{ij} 2^{c j} P_i$

把求和顺序交换一下：
$\sum_j 2^{c j} \left( \sum_i k_{ij} P_i \right) = \sum_j 2^{c j} B_j$

换句话说，首先将标量分割成若干个窗口，然后将每个窗口中的所有点合并。现在可以把注意力集中在如何高效地计算每个 $B_j$ ：
$Bj=∑ikijPi=∑λ=02c−1λ∑u(λ)PuB_j = \sum_i k_{ij} P_i = \sum_{\lambda=0}^{2^c - 1} \lambda \sum_{u(\lambda)} P_u$

这里 $∑u(λ)Pu\sum_{u(\lambda)} P_u$ 是把所有系数为 $λ\lambda$ 的点加在一起。

举例：若 $c = 3$ 且有 15 个点，则
$B_1 = 4 P_1 + 3 P_2 + 5 P_3 + 1 P_4 + 4 P_5 + 6 P_7 + 6 P_8 + 3 P_{14} + 5 P_{15} \\ = 1 P_4 + 3 (P_2+P_{14}) + 4 (P_1+P_5) + 5(P_3+P_{15}) + 6 (P_7 + P_8) \\ = 1 S_{11} + 3 S_{13} + 4 S_{14} + 5 S_{15} + 6 S_{16}$

可以按照系数 $λ\lambda$ 来拆分该求和， $λ\lambda$ 取值范围是从 $1$ 到 $7$ ：

当 $λ=1\lambda=1$ 时， $∑uPu=P4\sum_u P_u = P_4$ （因为 $P_4$ 是唯一一个系数为 $1$ 的点）；
当 $λ=4\lambda=4$ 时， $∑uPu=P1+P5\sum_u P_u = P_1 + P_5$ ；
依此类推。

将所有具有相同系数 $λ\lambda$ 的点放入 $λ\lambda$ -桶（lambda bucket）中。于是有：
$Bj=∑λλSjλ=Sj1+2Sj2+3Sj3+4Sj4+5Sj5+6Sj6+7Sj7B_j = \sum_\lambda \lambda S_{j\lambda} = S_{j1} + 2 S_{j2} + 3 S_{j3} + 4 S_{j4} + 5 S_{j5} + 6 S_{j6} + 7 S_{j7}$

可以通过使用部分和（partial sums）来以最少的点加法次数来计算该式：
$Tj1=Sj7Tj2=Tj1+Sj6Tj3=Tj2+Sj5Tj4=Tj3+Sj4Tj5=Tj4+Sj3Tj6=Tj5+Sj2Tj7=Tj6+Sj1\begin{aligned} T_{j1} &= S_{j7} \\ T_{j2} &= T_{j1} + S_{j6} \\ T_{j3} &= T_{j2} + S_{j5} \\ T_{j4} &= T_{j3} + S_{j4} \\ T_{j5} &= T_{j4} + S_{j3} \\ T_{j6} &= T_{j5} + S_{j2} \\ T_{j7} &= T_{j6} + S_{j1} \\ \end{aligned}$

这些运算中的每一步都只涉及一次椭圆曲线点加法。最后，通过对这些部分和（partial sums）求和来得到最终结果：
$Bj=∑kTjkB_j = \sum_k T_{jk}$

可以通过改变系数 $k_i$ 的展开方式来进一步改进该计算。在二进制表示中，汉明重量（Hamming weight） 指的是非零比特的数量。理想情况下，希望这个重量尽可能小，以减少加法次数。

如，在许多实现中，RSA 加密系统的公钥选择为 $65537$ ，它等于 $2^{16} + 1$ 。在 平方-乘法算法（square-and-multiply） 中，只需要进行两次乘法即可完成计算。

二进制表示的平均汉明重量是 $1/2$ ；如果引入带符号的二进制表示（即 $- 1, 0, 1$ ），则平均重量降低到 $1/3$ ，从而减少平均运算次数。

5. BLS 12-377 曲线

Aleo 使用的曲线是 BLS 12-377，其所在的有限域的素数阶是一个 377 位的素数，具有embedding degree 嵌入度 12。曲线上的群阶（记为 $r$ ）以及有限域阶 $q$ 都具有高度的 2-幂因子结构（即 $q$ 和 $r$ 都可以写成 $2α⋅r+12^\alpha \cdot r + 1$ ，其中 $α>40\alpha > 40$ ）。

Aleo 所使用的曲线称为 BLS12-377。其基域（有限域）的阶为 $q$ （一个 377 位的大素数），并且其嵌入度（embedding degree）为 $12$ 。

椭圆曲线群 $G_1$ 的阶 $r$ 和有限域的阶都具有很强的 2-adic 性质（也就是说， $q$ 和 $r$ 都可以写成如下形式：
$2^{\alpha} \cdot r + 1$

其中 $r$ 是奇数，并且 $α>40\alpha > 40$ ）。

阶 $q$ 和 $r$ 之间的关系由嵌入度决定：
$\mid (q^{12} - 1)$

BLS 12-377 的曲线方程是：
$y^2 = x^3 + 1$

此外，可以在有限域 $F_q$ 的二次扩域上构造第二个群 $G_2$ ，对应曲线的方程为：
$y^2 = x^3 + B$

其中 $B$ 是一个参数。关于该曲线的更多参数信息，可参见ark_bls12_377。

BLS12-377 与 Montgomery 曲线和扭曲 Edwards 曲线（twisted Edwards curve）是双有理等价的（birationally equivalent）。这使得能够通过避免昂贵的域求逆运算，从而更快地进行点加法和标量乘法。在 Montgomery 曲线的情形下，可以在常数时间（constant time）内完成标量乘法，使得运算对定时攻击（timing attacks）具有抵抗性。

BLS12-377 曲线及其双有理等价的扭曲 Edwards 曲线的实现可在https://github.com/arkworks-rs/curves代码仓库中找到。

BLS12-377 属于配对友好型（pairing-friendly）椭圆曲线，它们的应用包括：

可高效聚合的短数字签名；
多项式承诺方案（polynomial commitment schemes）；
单轮多密钥交换（single-round multi-key exchanges）。

至于为什么 BLS 曲线有两个方程和两个群，这与双线性配对（pairings）有关。配对是一种双线性映射：

它取自两个素数阶 $r$ 群的两个点作为输入。
出于技术原因，这两个群必须不同。
而由于原始曲线只包含一个阶为 $r$ 的群，因此需要扩展域来找到其他阶为 $r$ 的群。

嵌入度（embedding degree）决定了需要将域扩展多少次才能找到这些额外的群。作为额外的好处，扩展域中包含了所有的 $r$ -th 单位根（roots of unity）。

6. 关于扩域（Field Extensions）

嵌入度（embedding degree）也是需要使用的域扩展的次数。熟悉的域扩展示例包括：

实数域 $R\mathbb{R}$ （是有理数域 $Q\mathbb{Q}$ 的扩展），
复数域 $C\mathbb{C}$ （扩展了 $R\mathbb{R}$ ）。
- 复数域不能再进一步扩展，因为在 $C\mathbb{C}$ 中不存在不可约多项式（称复数是代数闭合的）。

如果要构造有限域 $Fq\mathbb{F}_q$ 的二次扩域 $Fq2\mathbb{F}_{q^2}$ ，可以将其表示为一个多项式：
$a_0 + a_1 x$

其中 $a0,a1∈Fqa_0, a_1 \in \mathbb{F}_q$ 。

加法很直接，只需分别相加常数项和一阶项。
乘法：设有两个元素 $a$ 和 $b$ ：
$\times b = a_0 b_0 + (a_0 b_1 + a_1 b_0) x + a_1 b_1 x^2$

为了避免结果超出一阶多项式的范围，可以通过一个不可约多项式来约简，如选择：
$x^2 + 1 = 0$

代入后，有：
$\times b = a_0 b_0 - a_1 b_1 + (a_0 b_1 + a_1 b_0) x$

这与复数的乘法非常相似。

选择不可约多项式的条件：

1）它的阶数必须与扩域的阶数一致（这里是二阶）。
2）它必须在扩展的基础域上不可约，即不能再分解为更低阶多项式。

在 $Fq12\mathbb{F}_{q^{12}}$ 中的运算既复杂又昂贵。幸运的是，可以使用六次扭曲（sextic twist），使得群 $G_2$ 可以定义在较小的扩域 $Fq2\mathbb{F}_{q^2}$ 上。

在实际应用中，当我们需要构造类似 $Fq12\mathbb{F}_{q^{12}}$ 这样的扩域时，可以通过逐步扩展较小的域来实现，即扩域塔（tower of extensions）的形式，如：
$Q→R→C\mathbb{Q} \rightarrow \mathbb{R} \rightarrow \mathbb{C}$

这种方式就是把高阶扩域分解为多个低阶扩域，逐层构建。

7. 更快的方式：FFT

在实现 ECADD（椭圆曲线点加）和 ECDBL（倍点）时，可能会用到 FFT。可以在不同的坐标系下进行这些运算。正如Need for speed: Elliptic curves chapter已有研究指出的，射影坐标（projective coordinates）通常更快，因为它避免了有限域求逆（求逆远比乘法和加法昂贵得多）。

当使用射影坐标时，运算更快的原因是们用乘法替代了除法。但这也意味着需要进行大量的乘法，因此需要高效的整数乘法算法，如：

Karatsuba 算法
Toom-Cook 算法
FFT 算法

由于涉及大整数的乘法，具体使用哪种算法取决于这些整数的大小。更多详情参看博客 Weird ways to multiply really fast with Karatsuba, Toom–Cook and Fourier

参考资料

[1] LambdaClass团队2023年1月9日博客 Multiscalar Multiplication: Strategies and Challenges
[2] 2024年6月drouyang hackmd Pippenger Algorithm for Multi-Scalar Multiplication (MSM)

查看全文

http://www.dtcms.com/a/441874.html