当前位置：首页 > news >正文

学习笔记3-深度学习之logistic回归向量化

news 2025/10/18 8:30:07

消除显式循环的方法——向量化，又快又优美！

在这里插入图片描述

向量化（Vectorization）指用矩阵/向量运算替代显式的 for 循环，使计算由底层高效的线性代数库（如 BLAS、LAPACK）批量完成。其优势包括：极大加速计算、代码简洁优雅、便于扩展与调试。

实例演示： 当使用 for 循环时，耗时约为 35ms。

import numpy as np
import timea = np.random.rand(100000)
b = np.random.rand(100000)tic = time.time()
c = 0.0
for i in range(100000):  # 为公平起见，从 0 到 99999c += a[i] * b[i]
toc = time.time()print(c)
print("For loop: " + str(1000 * (toc - tic)) + " ms")

示例输出（不同机器会有差异）：

24985.226970335072
For loop: 34.96 ms

当使用向量化时，耗时约为 0.23ms，计算结果相同，但耗时相差百倍以上。

tic = time.time()
c = np.dot(a, b)
toc = time.time()print(c)
print("Vectorized version: " + str(1000 * (toc - tic)) + " ms")

示例输出：

24985.241649180934
Vectorized version: 0.23 ms

说明：NumPy 在底层调用了 C/Fortran 实现的矩阵运算，避免了 Python 层循环的解释器开销，因此显著加速。

Logistic 上的向量化

在这里插入图片描述

我们来一步一步对上述伪代码进行向量化。首先是输出预测值 A 的向量化。

在这里插入图片描述

一行代码可生成（只需要加 b 一个标量即可，广播机制）

数学形式（单样本）：
$w^\top x + b,\qquad a = \sigma(z),\qquad \sigma(z) = \frac{1}{1 + e^{-z}}.$

批量形式（ $m$ 个样本， $X\in\mathbb{R}^{n\times m}$ ， $W\in\mathbb{R}^{n\times 1}$ ）：
$W^\top X + b\cdot \mathbf{1}_{1\times m},\qquad A = \sigma(Z).$

示例代码：

def sigmoid(z):return 1.0 / (1.0 + np.exp(-z))# X: (n, m), W: (n, 1), b: scalar
Z = np.dot(W.T, X) + b   # 形状: (1, m)，b 通过广播加到每一列
A = sigmoid(Z)           # 形状: (1, m)

梯度下降法的向量化

三个参数的导数分别为
$dw_1 = x_1\cdot dz = x_1(a-y)$
$dw_2 = x_2\cdot dz = x_2(a-y)$
$d b = d z = (a - y)$

梯度下降法即为：
$w_1 := w_1 - \alpha\, dw_1$
$w_2 := w_2 - \alpha\, dw_2$
$\alpha\, db$

如何对梯度下降法进行向量化？

在这里插入图片描述

其中， $d z$ 可以做如下变换（批量）：
$Y\in\mathbb{R}^{1\times m}.$

对于 $d w$ 和 $d b$ ，我们希望得到如下形式的结果，以去掉第二个 for 循环。

在这里插入图片描述

矩阵形式（ $X\in\mathbb{R}^{n\times m}$ ）：
$\frac{1}{m} X\, dZ^\top \in \mathbb{R}^{n\times 1},\qquad db = \frac{1}{m}\sum_{i=1}^m dZ^{(i)} = \frac{1}{m}\,\mathbf{1}_{1\times m} dZ^\top\in \mathbb{R}.$

因此在代码中，我们可以进行梯度下降的向量化（注意是矩阵乘法而非逐元素乘法）：

m = X.shape[1]
dZ = A - Y                  # (1, m)
db = (1.0 / m) * np.sum(dZ) # 标量
dW = (1.0 / m) * np.dot(X, dZ.T)  # (n, 1)

最后总结一下，之前的伪代码可以转换成如下格式（此处 A, Z, W, Y 均为向量/矩阵， $\alpha$ 为学习率），仅去掉第二个 for 循环，时间复杂度显著下降，同时第一个 for 循环（迭代轮次）通常保留。

# 假设已给出：X (n, m), Y (1, m), 初始化 W (n, 1), b (scalar), 学习率 alpha
num_iters = 1000
for iter in range(num_iters):# 前向传播Z = np.dot(W.T, X) + b        # (1, m)A = sigmoid(Z)                # (1, m)# 反向传播dZ = A - Y                    # (1, m)db = (1.0 / X.shape[1]) * np.sum(dZ)          # scalardW = (1.0 / X.shape[1]) * np.dot(X, dZ.T)     # (n, 1)# 梯度下降更新参数W = W - alpha * dWb = b - alpha * db

tips：

广播机制参考：NumPy 广播机制
NumPy vector 技巧 —— 不要使用形状为 (5,) 或 (n,) 这种秩为 1 的数组

# 如果不指定，生成的仅为一个秩为 1 的数组而非矩阵
a = np.random.randn(5)
# 例如: [ 1.21177442 -0.27537481 -0.21272904 -0.18874844  0.59819099]# 显式生成矩阵，生成 (5, 1) 列向量（推荐）
a = np.random.randn(5, 1)
assert a.shape == (5, 1)
# [[ 1.03824448],
#  [-0.21599562],
#  [ 0.04871433],
#  [ 1.50486642],
#  [ 1.086666  ]]

随意插入assert以保证形状一致，便于调试：

assert W.shape == (n, 1)
assert X.shape == (n, m)
assert Y.shape == (1, m)

数值稳定性与实现细节（可选但推荐）

对 A 做裁剪避免 $\log(0)$ ：如 A = np.clip(A, 1e-15, 1-1e-15)
使用 @ 或 np.dot 做矩阵乘法，避免用 * 逐元素乘法替代矩阵乘法
b 保持为标量（或形状 (1,1)），便于广播

loss function 的证明（强烈建议去听老师的课程—logistic损失函数的解释，讲的非常清楚）

从极大似然出发：对于二分类样本 $x^{(i)}, y^{(i)})$ ，其中 $y^{(i)}\in\{0,1\}$ ，模型输出
$a^{(i)} = P(Y=1\mid x^{(i)}) = \sigma(w^\top x^{(i)} + b).$
条件似然：
$p(y^{(i)}\mid x^{(i)};w,b)=\big(a^{(i)}\big)^{y^{(i)}} \big(1-a^{(i)}\big)^{1-y^{(i)}}.$
负对数似然（单样本损失）为
$L\big(a^{(i)}, y^{(i)}\big) = -\log p\big(y^{(i)}\mid x^{(i)};w,b\big) = -\Big[y^{(i)}\log a^{(i)} + \big(1 - y^{(i)}\big)\log\big(1 - a^{(i)}\big)\Big].$
这即为逻辑回归常用的交叉熵损失。其关于 $z^{(i)}=w^\top x^{(i)}+b$ 的导数为
$\frac{\partial L}{\partial z^{(i)}} = a^{(i)} - y^{(i)},$
进而
$\frac{\partial L}{\partial w} = \big(a^{(i)} - y^{(i)}\big)\, x^{(i)},\qquad \frac{\partial L}{\partial b} = a^{(i)} - y^{(i)}.$

cost function 的证明
在这里插入图片描述

对于 $m$ 个样本，代价函数为
$J(w,b)=\frac{1}{m}\sum_{i=1}^m L\big(a^{(i)}, y^{(i)}\big) = -\frac{1}{m}\sum_{i=1}^m \Big[y^{(i)}\log a^{(i)} + \big(1-y^{(i)}\big)\log\big(1-a^{(i)}\big)\Big].$
将所有样本整合为矩阵形式，令
$W^\top X + b,\quad A=\sigma(Z),\quad dZ = A - Y\in\mathbb{R}^{1\times m},$
则梯度向量化为
$\frac{1}{m} X\, dZ^\top\in\mathbb{R}^{n\times 1},\qquad db = \frac{1}{m}\sum_{i=1}^m dZ^{(i)}\in\mathbb{R}.$
这与前述逐坐标推导一致，且消除了对样本维度的显式循环。