当前位置：首页 > news >正文

SNN(TTFS)论文阅读——LC-TTFS

news 2025/11/3 10:02:05

LC-TTFS: Towards Lossless Network Conversion for Spiking Neural Networks with TTFS Coding

证明目标

论文的最终数学目标是证明：在 $L C - TTFS$ 算法的约束下，ANN 和 SNN 之间存在一个完美的、逐层传递的映射关系。

用数学语言来描述这个目标就是：

假设在 $l - 1$ 层，ANN的激活值 $a_j(l-1)$ 和 SNN 的脉冲时间 $t_j(l-1)$ 遵循以下编码关系：
$ t_j^{l-1} = (l-1) + 1 - a_j^{l-1} = l - a_j^{l-1} \quad \cdots \text{(公式 9)} $
那么，我们必须能够证明，在下一层 $l$ ，其激活值 $a_i^l$ 和脉冲时间 $t_i^l$ 也将严格遵循相同的编码关系：
$ t_i^l = l + 1 - a_i^l \quad \cdots \text{(公式 19)} $

这个证明本质上是一个数学归纳法：只要证明了这个从 $l - 1$ 层到 $l$ 层的传递关系成立，那么整个网络的转换就是无损的，因为这个完美的编码关系在网络中逐层被保持下去了。

证明推导步骤 (The Derivation Steps)

作者的推导过程是一个“从一般到特殊”的过程。他们首先写出SNN神经元发放时间的一般表达式，然后一步步代入他们提出的约束条件，最终将其化简为我们想要的证明目标。

起始点：SNN神经元发放时间的一般表达式

从SNN最基本的物理规则出发：当神经元 $i$ 的膜电位 $V_i^l(t)$ 第一次达到发放阈值 $ϑ$ 时，它就会发放一个脉冲，此时的 $t$ 就是它的发放时间 $t_i^l$ 。

膜电位公式 (来自公式4):
$Vil(t)=∑jwijl(t−tjl−1)V_i^l(t) = \sum_{j} w_{ij}^l (t - t_j^{l-1})$
发放条件 (来自公式5):
$Vil(til)=ϑV_i^l(t_i^l) = \vartheta$
联立上面两个式子，我们可以解出 $t_i^l$ 的一般表达式 (公式8):
$∑jwijl(til−tjl−1)=ϑ\sum_{j} w_{ij}^l (t_i^l - t_j^{l-1}) = \vartheta$

$til∑jwijl−∑jwijltjl−1=ϑt_i^l \sum_{j} w_{ij}^l - \sum_{j} w_{ij}^l t_j^{l-1} = \vartheta$

$til=ϑ+∑jwijltjl−1∑jwijl⋯(这是推导的起点)t_i^l = \frac{\vartheta + \sum_{j} w_{ij}^l t_j^{l-1}}{\sum_{j} w_{ij}^l} \quad \cdots \text{(这是推导的起点)}$
- 问题显现：此时的 $t_i^l$ 表达式非常复杂，它不仅依赖于输入的脉冲时间 $t_j(l-1)$ ，还依赖于一个不确定的分母项 $\sum w$ 。这就是作者定义的**“时间扭曲问题”**的数学根源。
- 以ANN为例，神经元的输出只依赖于：
  $a_i^l = f(\sum w_{ij}^l a_j^{l-1} + b_i^l)$
  如果两个神经元有相同的加权输入和，它们会有相同的输出（假设相同的偏置和激活函数）。但是SNN中，对于两个得到相同加权和（充电电流）的神经元来说，它们理应表现出相同的特性，但是由于权重和的存在导致它们发放时间并不一致。这就是时空扭曲问题。

步骤一：代入编码关系，连接SNN与ANN

现在，我们将 $l - 1$ 层的编码关系
$t_j(l-1) = l - a_j(l-1)$
(公式9) 代入上述一般表达式中，从而将 $t_i^l$ 和ANN的激活值 $a_j^(l-1)$ 联系起来。
$til=ϑ+∑jwijl(l−ajl−1)∑jwijlt_i^l = \frac{\vartheta + \sum_{j} w_{ij}^l (l - a_j^{l-1})}{\sum_{j} w_{ij}^l}$

$10)t_i^l = \frac{\vartheta + l \sum_{j} w_{ij}^l - \sum_{j} w_{ij}^l a_j^{l-1}}{\sum_{j} w_{ij}^l} \quad \cdots \text{(公式 10)}$

这个公式是连接两个世界的桥梁，但形式依然很丑陋。

骤二：施加第一个核心约束——权重正则化

为了解决“时间扭曲问题”，作者引入了第一个关键约束：强制让每个神经元的输入权重总和为1。
$∑jwijl=1\sum_{j} w_{ij}^l = 1$
将这个约束代入公式(10)：
$til=ϑ+l(1)−∑jwijlajl−11t_i^l = \frac{\vartheta + l(1) - \sum_{j} w_{ij}^l a_j^{l-1}}{1}$

$til=ϑ+l−∑jwijlajl−1t_i^l = \vartheta + l - \sum_{j} w_{ij}^l a_j^{l-1}$

分母消失了，“时间扭曲”的根源被消除了。

步骤三：施加第二个核心约束——阈值设定\

进一步设定 $ϑ = 1$ 。这既是为了简化计算，也与后面使用的 $R e LU 1$ 激活函数相匹配。代入后得到：
$t_i^l = 1 + l - \sum_{j} w_{ij}^l a_j^{l-1} \quad \cdots \text{(公式 15)}$

关键洞察：请注意，这里的 $w_{ij}^l a_j(l-1)$ 正是ANN中第 $l$ 层神经元 $i$ 在激活函数之前的加权输入和（即预激活值）。

步骤四：施加第三个核心约束——动态阈值与ReLU1的对称性

我们离目标 $t_i^l = l + 1 - a_i^l$ 已经非常接近了。区别在于，我们现在得到的是预激活值，而目标是后激活值 $a_i^l$ 。

这里的推导非常巧妙，利用了作者设计的动态阈值函数 $F^l(t)$ 和 $R e LU 1$ 激活函数 $y (x)$ 之间的数学对称性。

论文中的函数 $F$ 是一个变换函数 (transformation function)，它代表了“动态发放阈值 (dynamic firing threshold)”机制所产生的效果。

简单来说， $F$ 的作用是将一个计算出的、理论上的脉冲发放时间，映射（或“限制”）到一个预先为该层神经元分配好的、允许的时间窗口内。

要解决的问题: 论文指出了在将 ANN (人工神经网络) 转换为 SNN (脉冲神经网络) 时存在一个“时间动态问题 (temporal dynamics problem)”，即脉冲可能会过早或过晚发放，导致信息处理出错。为了解决这个问题，作者提出了一种“动态发放阈值”机制。

$F$ 的具体映射关系: 这个机制的效果等同于应用了函数 $F$ 。根据论文中的公式 (12) 和图 3(b)，对于第 $l$ 层的神经元，其允许的发放时间窗口是 $[Tl, T (l + 1))$ 。

如果一个计算出的脉冲时间 $t$ 早于这个窗口的起始时间 $Tl$ ， $F$ 会将其映射为窗口的起始时间 $Tl$ 。
如果 $t$ 恰好在允许的时间窗口内， $F$ 不会改变它。
如果 $t$ 晚于这个窗口的结束时间 $T (l + 1)$ ， $F$ 会将其映射为窗口的结束时间 $T (l + 1)$ 。

本质上， $F$ 是一个**“裁剪”或“钳位”(clamping)函数**，它确保了无论计算出的脉冲时间是多少，最终实际的脉冲时间都必须落在为该层分配的特定时间段内。

最终目的: 通过这种映射，该算法保证了 SNN 的每一层都在一个独立的、不重叠的时间窗口内完成计算。前一层的所有脉冲都发放完毕后，后一层才开始发放脉冲。这解决了“时间动态问题”，确保了从 ANN 的激活值到 SNN 的脉冲时间的转换是稳定和“近乎无损”的，从而实现了高精度的网络转换。

ANN中的关系是：
$a_i^l = y(\sum_{j} w_{ij}^l a_j^{l-1})$
作者在论文中给出了一个关键的恒等式（公式17）：
$F^l(x) = l+1 - y(l+1-x)$
我们在步骤三得到的 $t_i^l$ 是一个“理论计算出的”时间，它可能超出允许的范围。实际的脉冲时间是经过动态阈值函数 $F^l$ 钳位后的结果，即
$Actual t_i^l = F^l(t_i^l)$

现在，我们将步骤三得到的 $t_i^l$ (公式15) 代入 $F^l(x)$ 的 $x$ 中：
$\text{Actual} t_i^l = F^l(1 + l - \sum_{j} w_{ij}^l a_j^{l-1})$
利用上面的恒等式
$F^l(x) = l+1 - y(l+1-x)$
，我们得到：
$Actualtil=(l+1)−y((l+1)−(1+l−∑jwijlajl−1))\text{Actual} t_i^l = (l+1) - y \left( (l+1) - (1 + l - \sum_{j} w_{ij}^l a_j^{l-1}) \right)$
化简括号内的部分：
$\sum_{j} w_{ij}^l a_j^{l-1}) = l+1-1-l + \sum_{j} w_{ij}^l a_j^{l-1} = \sum_{j} w_{ij}^l a_j^{l-1}$
所以，上式变为：
$Actualtil=(l+1)−y(∑jwijlajl−1)\text{Actual} t_i^l = (l+1) - y(\sum_{j} w_{ij}^l a_j^{l-1})$
我们知道
$a_i^l = y(\sum_{j} w_{ij}^l a_j^{l-1})$
，代入进去：
$\text{Actual} t_i^l = l+1 - a_i^l$

证明完成！ 我们成功地从 $l - 1$ 层的编码关系和SNN的基本物理规则出发，通过应用作者提出的三个核心约束（权重和为1，阈值为1，动态阈值/ReLU1），严格推导出了 $l$ 层的编码关系。

为什么文章强调不能使用BN，BN会破坏对权重的归一化？

普通的BN会引入一个新的、可学习的缩放因子（γ），这个因子会破坏（或者说“覆盖”）掉∑w=1这个约束，从而让整个数学推导功亏一篑。

一个标准的BN层，作用在预激活值 $z$ 上，执行以下两个步骤：

归一化 (Normalize)：
$z^=z−μBσB2+ϵ\hat{z} = \frac{z - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}$
它将一批数据（a batch）的 $z$ 值调整为均值为0，方差为1的分布。 $μ_B$ 和 $σ_B$ 是这批数据的均值和方差。
缩放和偏移 (Scale and Shift)：
$zBN=γz^+βz_{BN} = \gamma \hat{z} + \beta$
这是最关键的一步！BN层会用两个可学习的参数 $γ$ (gamma, 缩放) 和 $β$ (beta, 偏移) 对归一化后的 $ha t (z)$ 进行处理，得到最终的输出 $z_{BN}$ 。这个 $z_{BN}$ 才是真正送入激活函数（如ReLU）的值。

冲突点就在这里：

神经网络在训练时，为了降低损失，会自由地学习 $γ$ 和 $β$ 的值。 $γ$ 几乎不可能是1， $β$ 也几乎不可能是0。
现在，进入激活函数的不再是 $z$ ，而是 $z_{BN}$ 。
那么，我们之前推导出的 $t_{spike} = (l+1) - z$ 这个公式，就必须被替换成 $t_{spike} = (l+1) - z_{BN}$ 。

我们把 $z_{BN}$ 的完整形式代进去：
$tspike=(l+1)−(γ∑wa−μBσB+β)t_{spike} = (l+1) - (\gamma \frac{\sum w a - \mu_B}{\sigma_B} + \beta)$

这完全是一场灾难

$γ$ 的破坏性：我们费尽心机通过权重正则化让 $\sum w = 1$ ，但现在又凭空出现了一个新的缩放因子 $γ$ 。这个 $γ$ 是网络自己学到的，我们无法控制它等于1。它重新引入了我们想要消除的“时间扭曲问题”。 $γ$ 就像一个不可预测的乘数，彻底破坏了 $z$ 和 $t_{spike}$ 之间干净的线性关系。
$β$ 和 $μ_B$ 的破坏性： $β$ 和 $μ_B$ 引入了偏移量，同样也破坏了原始的线性关系。