当前位置：首页 > news >正文

矩阵运算：深度学习的数学基石与手工实现解析

news 2025/10/1 12:34:02

矩阵运算：深度学习的数学基石与手工实现解析

在深度学习的世界里，从简单的线性回归到复杂的 Transformer 模型，背后都离不开基础的数学运算支撑。而矩阵与向量运算作为线性代数的核心，更是构建整个深度学习框架的 “砖瓦”。本文将结合一份手工实现的 C++ 矩阵运算代码，深入探讨矩阵加法与减法、标量乘法、向量点积、矩阵转置及标准矩阵乘法在深度学习中的核心作用，帮助读者理解这些基础运算如何支撑起复杂的神经网络模型。

引言：矩阵为何是深度学习的 “通用语言”

当我们谈论深度学习时，往往聚焦于复杂的模型结构（如卷积神经网络、循环神经网络）或精妙的训练技巧（如 Adam 优化器、批量归一化）。但如果剥离这些上层建筑，你会发现所有操作最终都可以拆解为一系列基本的矩阵与向量运算。

在计算机中，无论是输入的图像（二维像素矩阵）、文本（词向量矩阵），还是神经网络中的权重参数（多维权重矩阵），都以矩阵形式存储和处理。一个深度神经网络的前向传播过程，本质上是对输入矩阵进行一系列线性变换（矩阵乘法）、非线性激活和特征融合（矩阵加减）的过程；而反向传播中的梯度计算，则依赖于转置矩阵和标量乘法来实现链式法则的高效传播。

本文将基于一份完整的 C++ 矩阵运算实现代码，逐一解析各项基础运算的原理、实现细节及其在深度学习中的具体应用场景，为理解复杂模型打下坚实的数学基础。

矩阵与向量的基础表示

在深入运算之前，我们首先需要明确矩阵在代码中的表示方式。本文使用的Matrix类定义如下（核心部分）：

#include <vector>
#include <iostream>
#include <random>
#include <cassert>
#include <iomanip>
#include <stdexcept>class Matrix {
private:std::vector<std::vector<double>> data;size_t rows, cols;public:// 构造函数Matrix(size_t r, size_t c) : rows(r), cols(c) {data.resize(rows, std::vector<double>(cols, 0.0));}Matrix(size_t r, size_t c, double init_val) : rows(r), cols(c) {data.resize(rows, std::vector<double>(cols, init_val));}// 访问器double& operator()(size_t i, size_t j) {assert(i < rows && j < cols);return data[i][j];}const double& operator()(size_t i, size_t j) const {assert(i < rows && j < cols);return data[i][j];}size_t getRows() const { return rows; }size_t getCols() const { return cols; }// 随机初始化 - 用于神经网络权重初始化void randomInit(double min = -1.0, double max = 1.0) {std::random_device rd;std::mt19937 gen(rd());std::uniform_real_distribution<double> dis(min, max);for (size_t i = 0; i < rows; ++i) {for (size_t j = 0; j < cols; ++j) {data[i][j] = dis(gen);}}}// 显示矩阵void print() const {for (size_t i = 0; i < rows; ++i) {for (size_t j = 0; j < cols; ++j) {std::cout << std::setw(8) << std::fixed << std::setprecision(3) << data[i][j] << " ";}std::cout << "\n";}std::cout << "\n";}// 矩阵加法Matrix operator+(const Matrix& other) const {assert(rows == other.rows && cols == other.cols);Matrix result(rows, cols);for (size_t i = 0; i < rows; ++i) {for (size_t j = 0; j < cols; ++j) {result.data[i][j] = data[i][j] + other.data[i][j];}}return result;}// 矩阵减法Matrix operator-(const Matrix& other) const {assert(rows == other.rows && cols == other.cols);Matrix result(rows, cols);for (size_t i = 0; i < rows; ++i) {for (size_t j = 0; j < cols; ++j) {result.data[i][j] = data[i][j] - other.data[i][j];}}return result;}// 标量乘法Matrix operator*(double scalar) const {Matrix result(rows, cols);for (size_t i = 0; i < rows; ++i) {for (size_t j = 0; j < cols; ++j) {result.data[i][j] = data[i][j] * scalar;}}return result;}// 友元函数，支持 scalar * matrixfriend Matrix operator*(double scalar, const Matrix& mat) {return mat * scalar;}// 向量点积（假设向量用单行或单列矩阵表示）double dotProduct(const Matrix& vec1, const Matrix& vec2) {// 确保是向量（一维）assert((vec1.rows == 1 && vec2.rows == 1 && vec1.cols == vec2.cols) ||(vec1.cols == 1 && vec2.cols == 1 && vec1.rows == vec2.rows));double result = 0.0;if (vec1.rows == 1) {  // 行向量for (size_t i = 0; i < vec1.cols; ++i) {result += vec1.data[0][i] * vec2.data[0][i];}} else {  // 列向量for (size_t i = 0; i < vec1.rows; ++i) {result += vec1.data[i][0] * vec2.data[i][0];}}return result;}// 矩阵转置Matrix transpose() const {Matrix result(cols, rows);for (size_t i = 0; i < rows; ++i) {for (size_t j = 0; j < cols; ++j) {result.data[j][i] = data[i][j];}}return result;}// 标准矩阵乘法 O(n³)Matrix operator*(const Matrix& other) const {assert(cols == other.rows);Matrix result(rows, other.cols);for (size_t i = 0; i < rows; ++i) {for (size_t j = 0; j < other.cols; ++j) {double sum = 0.0;for (size_t k = 0; k < cols; ++k) {sum += data[i][k] * other.data[k][j];}result.data[i][j] = sum;}}return result;}// 分块矩阵乘法 - 缓存友好版本Matrix multiplyBlocked(const Matrix& other, size_t block_size = 64) const {assert(cols == other.rows);Matrix result(rows, other.cols, 0.0);  // 初始化为0// 按块进行矩阵乘法for (size_t i = 0; i < rows; i += block_size) {for (size_t j = 0; j < other.cols; j += block_size) {for (size_t k = 0; k < cols; k += block_size) {// 计算块的实际大小（处理边界情况）size_t actual_i_size = std::min(block_size, rows - i);size_t actual_j_size = std::min(block_size, other.cols - j);size_t actual_k_size = std::min(block_size, cols - k);// 在块内进行标准矩阵乘法for (size_t ii = i; ii < i + actual_i_size; ++ii) {for (size_t jj = j; jj < j + actual_j_size; ++jj) {double sum = result.data[ii][jj];  // 累积之前的结果for (size_t kk = k; kk < k + actual_k_size; ++kk) {sum += data[ii][kk] * other.data[kk][jj];}result.data[ii][jj] = sum;}}}}}return result;}
};int main(int argc ,char* argv[])
{double learning_rate = 10;Matrix weights(3, 3);Matrix gradients(3, 3);weights.randomInit(1, 5);weights.print();std::cout << "----------------" <<std::endl;gradients.randomInit(1, 5);gradients.print();std::cout << "----------------" <<std::endl;// 权重更新：W = W - lr * gradMatrix updated_weights = weights - learning_rate * gradients;updated_weights.print();return 0;
}class Matrix {
private:std::vector<std::vector<double>> data;  // 二维向量存储矩阵数据size_t rows, cols;                       // 矩阵的行数和列数public:// 构造函数：初始化指定大小的矩阵Matrix(size_t r, size_t c) : rows(r), cols(c) {data.resize(rows, std::vector<double>(cols, 0.0));}// 带初始值的构造函数Matrix(size_t r, size_t c, double init_val) : rows(r), cols(c) {data.resize(rows, std::vector<double>(cols, init_val));}// 访问器：通过(i,j)索引访问矩阵元素double& operator()(size_t i, size_t j) {assert(i < rows && j < cols);  // 边界检查return data[i][j];}// 其他方法：随机初始化、打印、运算重载等
};

这种实现方式通过嵌套的std::vector存储矩阵元素，使用rows和cols记录矩阵维度，并通过重载()运算符提供便捷的元素访问。在深度学习中，这种结构可以灵活表示：

输入数据（如(batch_size, feature_dim)的样本矩阵）
权重参数（如(input_dim, output_dim)的全连接层权重）
梯度矩阵（与权重同维度，用于参数更新）
向量（特殊的矩阵，如行向量(1, n)或列向量(n, 1)）

矩阵加法与减法：特征融合与残差连接的核心

矩阵加法与减法是最基础的矩阵运算，其定义为两个同维度矩阵对应元素的加减操作。在我们的代码中，这两种运算通过重载+和-运算符实现：

// 矩阵加法
Matrix operator+(const Matrix& other) const {assert(rows == other.rows && cols == other.cols);  // 确保维度匹配Matrix result(rows, cols);for (size_t i = 0; i < rows; ++i) {for (size_t j = 0; j < cols; ++j) {result.data[i][j] = data[i][j] + other.data[i][j];}}return result;
}// 矩阵减法
Matrix operator-(const Matrix& other) const {assert(rows == other.rows && cols == other.cols);Matrix result(rows, cols);for (size_t i = 0; i < rows; ++i) {for (size_t j = 0; j < cols; ++j) {result.data[i][j] = data[i][j] - other.data[i][j];}}return result;
}

数学意义与运算规则

矩阵加法的数学定义为：若有矩阵
$\mathbf{A}和\mathbf{B}（维度均为(m \times n)），则它们的和\mathbf{C} = \mathbf{A} + \mathbf{B}满足：$

$C_{i,j} = A_{i,j} + B_{i,j} \quad (1 \leq i \leq m, 1 \leq j \leq n)$

$减法同理：C_{i,j} = A_{i,j} - B_{i,j}。$

运算的前提是两个矩阵必须维度完全相同（行数和列数分别相等），否则会抛出错误（代码中通过assert检查）。

在深度学习中的核心应用

矩阵加减运算看似简单，却在深度学习中扮演着关键角色，以下是几个典型应用场景：

1. 残差网络（ResNet）中的残差连接

ResNet 通过引入 “残差块” 解决了深层网络的梯度消失问题，其核心公式为：
$\mathbf{y} = \mathcal{F}(\mathbf{x}) + \mathbf{x}$

其中**F(x)**是残差函数（由卷积、批归一化等操作组成），x是输入特征。这里的+正是矩阵加法，它将输入特征直接与经过变换的特征相加，实现了 “跳跃连接”。

在代码层面，假设input是输入特征矩阵，residual是残差函数输出的矩阵，则：

Matrix output = residual + input;  // 残差连接的加法操作

这种设计让网络可以更轻松地学习恒等映射(当F(x)=0时，y=x)，极大提升了深层网络的训练稳定性。

2. 梯度下降中的参数更新

在神经网络训练中，参数（如权重矩阵W)的更新公式为：
$\mathbf{W}_{t+1} = \mathbf{W}_t - \eta \cdot \nabla_{\mathbf{W}} \mathcal{L}$

$其中\eta是学习率，\nabla_{\mathbf{W}} \mathcal{L}是损失函数关于\mathbf{W}的梯度。$

这里的-正是矩阵减法，用于从当前权重中减去学习率缩放后的梯度。

代码示例中已展示了这一过程：

// 权重更新：W = W - lr * grad
Matrix updated_weights = weights - learning_rate * gradients;

这行代码直观体现了随机梯度下降（SGD）的核心操作，是所有优化算法的基础。

3. 特征融合与注意力机制

在多模态学习或特征融合场景中，常需要将不同来源的特征矩阵相加。例如在视觉 - 语言模型中，图像特征矩阵V和文本特征矩阵T可能通过加法融合：F=V+T（需先通过投影矩阵将两者维度统一）。

在注意力机制中，查询（Query）、键（Key）、值（Value）矩阵的计算也可能涉及加法操作，例如位置编码的加入：
$\mathbf{Q}' = \mathbf{Q} + \text{PosEnc}$

其中PosEnc是位置硬编码，通过加法为序列特征注入位置信息。

标量乘法：梯度缩放与特征归一化

标量乘法指将矩阵中的每个元素都乘以一个常数（标量），代码中通过重载*运算符实现：

// 矩阵与标量相乘
Matrix operator*(double scalar) const {Matrix result(rows, cols);for (size_t i = 0; i < rows; ++i) {for (size_t j = 0; j < cols; ++j) {result.data[i][j] = data[i][j] * scalar;}}return result;
}// 友元函数：支持标量在前的乘法（如 2 * matrix）
friend Matrix operator*(double scalar, const Matrix& mat) {return mat * scalar;
}

数学意义与运算规则

标量乘法的数学定义为：若有矩阵A（维度mxn）和标量k，则乘积 B = k.A 满足：
$B i, j = k \cdot A i, j (1 \leq i \leq m, 1 \leq j \leq n)$
运算规则简单直接：每个元素独立与标量相乘，矩阵维度保持不变。

在深度学习中的核心应用

标量乘法虽然简单，却是实现模型训练和特征处理的基础工具，主要应用在以下场景：

1. 学习率对梯度的缩放

在参数更新公式
$\mathbf{W}_{t+1} = \mathbf{W}_t - \eta \cdot \nabla_{\mathbf{W}} \mathcal{L}中，\eta \cdot \nabla_{\mathbf{W}} \mathcal{L}正是标量（学习率\eta)与梯度矩阵的乘法。$

$通过调整\eta的大小，可以控制参数更新的步长：$

$过大的\eta可能导致参数震荡，无法收敛.$

$过小的\eta会导致训练速度缓慢$

代码中learning_rate * gradients正是这一操作的实现，它先将梯度矩阵按学习率缩放，再通过矩阵减法更新权重。

2. 特征归一化与标准化

在数据预处理阶段，我们常对特征矩阵进行标准化：
$X^=X−μσ \hat{\mathbf{X}} = \frac{\mathbf{X} - \mu}{\sigma}$

$其中\mu是均值向量，\sigma是标准差向量。这里的/ σ本质上是特征矩阵与标量(1/\sigma）的乘法，用于将特征缩放至均值为 0、方差为 1 的分布，加速模型收敛。$
例如，对一个(batch_size, feature_dim)的特征矩阵进行标准化：

Matrix normalized = (features - mean_matrix) * (1.0 / std_matrix);

（注：实际中均值和标准差可能是向量，需通过广播机制实现，但核心仍是标量乘法的扩展）

3. 损失函数的加权与正则化

在多任务学习中，总损失通常是各任务损失的加权和：
$\mathcal{L}_{\text{total}} = w_1 \cdot \mathcal{L}_1 + w_2 \cdot \mathcal{L}_2 + \dots + w_k \cdot \mathcal{L}_k$

$其中w_i是标量权重。当损失以矩阵形式表示（如每个样本的损失构成的列向量）时，w_i \cdot \mathcal{L}_i就是标量与矩阵的乘法。$

$正则化项\lambda \cdot \|\mathbf{W}\|_2^2的计算中，\lambda与权重矩阵平方和的乘积也依赖于标量乘法，用于控制正则化强度。$

4. 激活函数的缩放

某些激活函数（如 Leaky ReLU）的实现中包含标量乘法：
$\text{LeakyReLU}(x) = \begin{cases} x & \text{if } x \geq 0 \\ \alpha \cdot x & \text{if } x < 0 \end{cases}$

$其中\alpha是小标量（通常为 0.01）。$

当对整个特征矩阵应用 Leaky ReLU 时，本质上是对负元素部分进行标量乘法。

向量点积：相似度计算与注意力权重

向量点积（Dot Product）是针对向量的特殊运算，用于衡量两个向量的相似度。代码中实现如下：

// 向量点积（假设向量用单行或单列矩阵表示）
double dotProduct(const Matrix& vec1, const Matrix& vec2) {// 确保是向量（一维）assert((vec1.rows == 1 && vec2.rows == 1 && vec1.cols == vec2.cols) ||(vec1.cols == 1 && vec2.cols == 1 && vec1.rows == vec2.rows));double result = 0.0;if (vec1.rows == 1) {  // 行向量for (size_t i = 0; i < vec1.cols; ++i) {result += vec1.data[0][i] * vec2.data[0][i];}} else {  // 列向量for (size_t i = 0; i < vec1.rows; ++i) {result += vec1.data[i][0] * vec2.data[i][0];}}return result;
}

数学意义与运算规则

$两个n维向量\mathbf{a} = [a_1, a_2, \dots, a_n]和\mathbf{b} = [b_1, b_2, \dots, b_n]的点积$

$a \cdot b = \sum i = 1 n ai \cdot bi = a 1 b 1 + a 2 b 2 + \dots + an bn $

其几何意义是
$\mathbf{a} \cdot \mathbf{b} = \|\mathbf{a}\| \|\mathbf{b}\| \cos\theta，其中\theta$

是两向量的夹角。因此，点积可用于衡量向量的相似度：

点积为正：两向量夹角小于 90°（相似）
点积为 0：两向量垂直（无关）
点积为负：两向量夹角大于 90°（不相似）

在深度学习中的核心应用

向量点积是深度学习中计算相似度的基础工具，在注意力机制、推荐系统等领域有不可替代的作用：

1. 注意力机制的核心计算

Transformer 模型的自注意力机制中，注意力权重的计算完全依赖于向量点积。给定查询（Query）矩阵Q、键（Key）矩阵K和值（Value）矩阵V，注意力权重的计算步骤为：

$计算\mathbf{Q}与\mathbf{K}^T的点积：\text{scores} = \mathbf{Q} \mathbf{K}^T$
$缩放点积：\text{scores} = \text{scores} / \sqrt{d_k}(d_k是查询 / 键的维度）$
$Softmax：\text{attention weights} = \text{Softmax}(\text{scores})$
$加权求和：\text{output} = \text{attention weights} \cdot \mathbf{V}$

其中第一步的
$\mathbf{Q} \mathbf{K}^T$

本质上是查询向量与键向量的批量点积：矩阵Q的每行是一个查询向量，矩阵K^t的每列是一个键向量，两者相乘的结果矩阵中每个元素**((i,j))正是第i个查询与第j个键的点积，代表它们的相似度**。
$例如，当\mathbf{Q}为(n, d_k)矩阵，\mathbf{K}^T为(d_k, n)矩阵时，\mathbf{Q} \mathbf{K}^T的结果为(n, n)矩阵，其中元素(i,j)衡量第i个位置与第j个位置的关联强度。$

2. 推荐系统中的相似度匹配

在协同过滤推荐中，用户向量与物品向量的点积常被用作推荐分数：
$\text{score}(u, i) = \mathbf{u} \cdot \mathbf{i}$

$其中\mathbf{u}是用户嵌入向量，\mathbf{i}是物品嵌入向量。点积越大，说明用户对物品的潜在兴趣越高。$

例如，在代码中计算两个用户向量的相似度：

Matrix user1(1, 5);  // 行向量：用户1的嵌入
Matrix user2(1, 5);  // 行向量：用户2的嵌入
double similarity = user1.dotProduct(user1, user2);  // 点积衡量相似度

3. 特征重要性加权

在线性模型中，预测值是输入特征与权重向量的点积：
$y^=w⋅x+b \hat{y} = \mathbf{w} \cdot \mathbf{x} + b$

$其中\mathbf{w}是权重向量(\mathbf{x}是特征向量。点积的结果是特征的加权和，权重大小反映特征的重要性。$

这一思想扩展到神经网络中，全连接层的输出本质上是输入向量与权重矩阵行向量的点积加偏置：
$\mathbf{h} = \sigma(\mathbf{W} \mathbf{x} + \mathbf{b})$

$其中\mathbf{h}的每个元素都是\mathbf{W}的对应行与\mathbf{x}的点积加偏置，再经过激活函数\sigma。$

矩阵转置：维度变换与权重共享

矩阵转置是将矩阵的行与列互换的操作，代码实现如下：

// 矩阵转置
Matrix transpose() const {Matrix result(cols, rows);  // 转置后行数=原列数，列数=原行数for (size_t i = 0; i < rows; ++i) {for (size_t j = 0; j < cols; ++j) {result.data[j][i] = data[i][j];  // (i,j) -> (j,i)}}return result;
}

数学意义与运算规则

$矩阵\mathbf{A}（维度m \times n）的转置记为\mathbf{A}^T，其维度为n \times m，且满足：$

$(A T) i, j = A j, i $

转置操作有几个重要性质：

$(\mathbf{A}^T)^T = \mathbf{A}（双重转置等于原矩阵）$
$(\mathbf{A} + \mathbf{B})^T = \mathbf{A}^T + \mathbf{B}^T（和的转置等于转置的和）$
$(\mathbf{A} \mathbf{B})^T = \mathbf{B}^T \mathbf{A}^T（乘积的转置等于转置的乘积逆序）$

在深度学习中的核心应用

矩阵转置看似只是维度变换，却在模型设计和高效计算中发挥着关键作用：

1. 矩阵乘法的维度适配

矩阵乘法要求第一个矩阵的列数等于第二个矩阵的行数。
$(\mathbf{A}_{m \times k} \cdot \mathbf{B}_{k \times n} = \mathbf{C}_{m \times n}）$

当维度不匹配时，转置是调整维度的重要工具。

在注意力机制中，键矩阵K的维度通常为
$n, d_k)为了与查询矩阵$

$\mathbf{Q}_{n \times d_k}进行乘法（需满足d_k = n），必须先转置为\mathbf{K}^T_{d_k \times n}，才能得到(n \times n)的相似度矩阵。$

代码中实现这一过程：

Matrix Q(n, d_k);  // 查询矩阵
Matrix K(n, d_k);  // 键矩阵
Matrix scores = Q * K.transpose();  // 转置后进行矩阵乘法

2. 卷积操作中的权重共享

在卷积神经网络（CNN）中，卷积核（Filter）的应用涉及转置操作。假设卷积核为
$\mathbf{W}_{k \times k}（k为核大小）$

输入特征图为
$X H \times W$
则卷积操作可视为滑动窗口内的点积：
$Yi, j = \sum p = 0 k - 1 \sum q = 0 k - 1 W p, q \cdot X i + p, j + q $

在实现时，为了提高计算效率，常将卷积操作转换为矩阵乘法（即 “im2col” 方法），其中卷积核矩阵的转置是维度调整的关键步骤，确保滑动窗口与核的维度匹配。

3. 权重矩阵的转置复用

在序列模型（如 RNN）中，编码器与解码器的权重有时会共享转置关系。例如在机器翻译的编码器 - 解码器架构中，解码器的某些权重可能是编码器权重的转置，这样既减少了参数数量，又能利用编码器学到的特征分布。
$数学上表示为\mathbf{W}_{\text{dec}} = \mathbf{W}_{\text{enc}}^T，通过转置操作实现权重共享，增强模型的一致性。$

4. 批量数据的维度转换

在处理批量数据时，转置常用于调整数据的存储格式。例如，图像数据的存储格式可能为(batch_size, height, width, channels)，通过转置可转换为(batch_size, channels, height, width)（适应不同框架的要求）。

对于矩阵形式的批量数据（如(batch_size, feature_dim)），转置可将其转换为(feature_dim, batch_size)，便于按特征维度进行聚合操作（如计算每个特征的均值）。

标准矩阵乘法：神经网络的 “引擎”

标准矩阵乘法是所有矩阵运算中最复杂也最重要的操作，它实现了两个矩阵的线性变换组合，代码实现如下：

// 标准矩阵乘法 O(n³)
Matrix operator*(const Matrix& other) const {assert(cols == other.rows);  // 确保左矩阵列数=右矩阵行数Matrix result(rows, other.cols);  // 结果维度：左行数×右列数for (size_t i = 0; i < rows; ++i) {for (size_t j = 0; j < other.cols; ++j) {double sum = 0.0;for (size_t k = 0; k < cols; ++k) {sum += data[i][k] * other.data[k][j];  // 点积求和}result.data[i][j] = sum;}}return result;
}

数学意义与运算规则

矩阵乘法的数学定义为：
$若\mathbf{A}是m \times k矩阵，\mathbf{B}是k \times n矩阵，则乘积\mathbf{C} = \mathbf{A} \mathbf{B}是m \times n矩阵$
其中：
$C i, j = \sum t = 1 k A i, t \cdot Bt, j $

即C的元素((i,j))是A的第i行与B的第j列的点积。这一运算的时间复杂度为(O(mkn))（三次嵌套循环），是深度学习中计算成本最高的操作之一。

在深度学习中的核心应用

矩阵乘法是神经网络的 “引擎”，几乎所有模型的前向传播都依赖于它实现特征的线性变换，以下是其核心应用：

1. 全连接层的特征变换

全连接层（Fully Connected Layer）是神经网络的基本组件，其输出是输入特征的线性变换：
$\mathbf{h} = \mathbf{W} \mathbf{x} + \mathbf{b}$

其中：

$\mathbf{x}是输入向量（维度d_{\text{in}} \times 1）$
$\mathbf{W}是权重矩阵（维度d_{\text{out}} \times d_{\text{in}}）$
$\mathbf{b}是偏置向量（维度d_{\text{out}} \times 1）$
$\mathbf{h}是输出向量（维度d_{\text{out}} \times 1）$

当处理批量数据时
$KaTeX parse error: Expected 'EOF', got '_' at position 31: …}（维度\text{batch_̲size} \times d_…$

$\mathbf{H} = \mathbf{X} \mathbf{W}^T + \mathbf{b}$

$这里的\mathbf{X} \mathbf{W}^T正是矩阵乘法，将输入特征从d_{\text{in}}维度映射到d_{\text{out}}维度。$

例如，代码中实现一个全连接层的前向传播：

Matrix X(batch_size, input_dim);  // 批量输入
Matrix W(output_dim, input_dim);  // 权重矩阵
Matrix b(output_dim, 1);          // 偏置向量// 计算 X * W^T（批量处理），再加偏置（通过广播）
Matrix H = X * W.transpose() + b.broadcast(batch_size);

2. 卷积操作的矩阵化实现

如前所述，卷积操作可通过 “im2col” 方法转换为矩阵乘法，从而利用高度优化的矩阵乘法库（如 BLAS）加速计算。具体步骤为：

$将输入特征图的每个滑动窗口展平为列向量，形成矩阵\mathbf{X}_{\text{col}}（维度k^2c_{\text{in}} \times H'W'，其中k是核大小，c_{\text{in}}是输入通道数，H',W'是输出特征图尺寸）$
$将卷积核展平为矩阵\mathbf{W}_{\text{flat}}（维度c_{\text{out}} \times k^2c_{\text{in}}）$
$卷积结果为\mathbf{Y} = \mathbf{W}_{\text{flat}} \mathbf{X}_{\text{col}}（维度c_{\text{out}} \times H'W'），再 reshape 为特征图格式$