当前位置: 首页 > news >正文

【深度学习】详解矩阵乘法、点积,内积,外积、哈达玛积极其应用|tensor系列02

在这里插入图片描述

  • 博主简介:努力学习的22级计算机科学与技术本科生一枚🌸
  • 博主主页: @Yaoyao2024
  • 往期回顾:【深度学习】你真的理解张量了吗?|标量、向量、矩阵、张量的秩|01
  • 每日一言🌼: “脑袋想不明白的,就用脚想”——《走吧,张小砚》🌺

0、前言

在张量的操作的时候,有下面几个概念总容易弄混:

  • 点积
  • 内积
  • 外积
  • 哈达玛积(Hadamard Product
  • 矩阵乘法

这篇博客,我将结合这三种操作在深度学习中的运用,来讲解一下这三种操作的区别。

1、点积(Dot Product)

点积定义和计算:

点积是两个向量的之间的二元运算,结果为标量。数学意义上:取两个相等长度的数字序列(通常是坐标向量,也就是坐标点),并返回一个数字。

对于向量(一阶张量) u = [ u 1 , u 2 , ⋯ , u n ] \mathbf{u} = [u_1, u_2, \cdots, u_n] u=[u1,u2,,un] v = [ v 1 , v 2 , ⋯ , v n ] \mathbf{v} = [v_1, v_2, \cdots, v_n] v=[v1,v2,,vn] u , v ∈ R n \mathbf{u},\mathbf{v}\in\mathbb{R}^n u,vRn,点积的定义为: 逐元素相乘,再相加

u ⋅ v = ∑ i = 1 n u i v i \mathbf{u}\cdot\mathbf{v}=\sum_{i=1}^nu_iv_i uv=i=1nuivi

在欧几里得空间中,点积也可表示为:
u ⋅ v = ∥ u ∥ ∥ v ∥ cos ⁡ θ ( θ 为夹角)  \mathbf{u}\cdot\mathbf{v}=\|\mathbf{u}\|\|\mathbf{v}\|\cos\theta\text{ (}\theta\text{ 为夹角) } uv=u∥∥vcosθ (θ 为夹角

示例:
[ 1 2 ] ⋅ [ 3 4 ] = 1 × 3 + 2 × 4 = 11 \begin{bmatrix}1\\2\end{bmatrix}\cdot\begin{bmatrix}3\\4\end{bmatrix}=1\times3+2\times4=11 [12][34]=1×3+2×4=11

特点:

  • 仅适用于向量(一阶张量)。
  • 满足交换律 u ⋅ v = v ⋅ u \mathbf{u}\cdot\mathbf{v}=\mathbf{v}\cdot\mathbf{u} uv=vu
  • 是内积在欧几里得空间中的特例(当内积空间为 R n \mathbb{R}^n Rn且权重矩阵为单位矩阵时)

在深度学习中的应用

首先代码是:

# 点积(向量)
u = torch.tensor([1, 2, 3])
v = torch.tensor([4, 5, 6])
# NumPy
dot_product = np.dot(u, v)  # 或 u @ v,一维矩阵相乘=向量点乘# PyTorch
dot_product = torch.dot(u, v)  # 一维张量
  1. 余弦相似度(Cosine Similarity):
    归一化点积用于衡量向量相似性:
    cos ⁡ ( θ ) = u ⋅ v ∥ u ∥ ∥ v ∥ = ∑ i = 1 n u i v i ∑ i = 1 n u i 2 ∑ i = 1 n v i 2 \cos(\theta)=\frac{\mathbf{u} \cdot \mathbf{v}}{\|\mathbf{u}\| \|\mathbf{v}\|} = \frac{\sum_{i=1}^{n} u_i v_i}{\sqrt{\sum_{i=1}^{n} u_i^2} \sqrt{\sum_{i=1}^{n} v_i^2}} cos(θ)=u∥∥vuv=i=1nui2 i=1nvi2 i=1nuivi

    其中:

    • u ⋅ v \mathbf{u} \cdot \mathbf{v} uv 表示向量 u \mathbf{u} u v \mathbf{v} v 的点积,即 ∑ i = 1 n u i v i \sum_{i=1}^{n} u_i v_i i=1nuivi

    • ∥ u ∥ \|\mathbf{u}\| u ∥ v ∥ \|\mathbf{v}\| v 分别表示向量 u \mathbf{u} u v \mathbf{v} v L 2 L_2 L2 范数(也称为欧几里得范数),计算公式分别为 ∑ i = 1 n u i 2 \sqrt{\sum_{i=1}^{n} u_i^2} i=1nui2 ∑ i = 1 n v i 2 \sqrt{\sum_{i=1}^{n} v_i^2} i=1nvi2

    • 余弦相似度常用于对比学习(Contrastive Learning)或推荐系统。

    # 计算两个特征向量的余弦相似度
    def cosine_similarity(u, v, eps=1e-8):dot_product = torch.dot(u, v)norm_u = torch.norm(u)norm_v = torch.norm(v)return dot_product / (norm_u * norm_v + eps) # 用于对比损失(如InfoNCE Loss)
    positive_sim = cosine_similarity(anchor, positive)  # 增大
    negative_sim = cosine_similarity(anchor, negative)  # 减小
    

2、内积(Inner Product)——点积的推广

定义和计算:

内积是点积的推广,适用于更一般的向量空间(如函数空间、矩阵空间)。对于向量或高阶张量,内积通常指在特定空间中的一种双线性运算,结果为标量

在工科的讨论范围内,内积和点积会混在一起说。这是无可厚非的,毕竟点积是内积的一种特殊形式

  • R n \mathbb{R}^n Rn空间中,内积与点积相同(一阶张量,n维向量,n个元素相乘再相加)。

  • 在矩阵空间(二阶张量)中,Frobenius内积定义为:即两个形状相同的矩阵对应位置的元素相乘后求和,结果是一个标量。
    ⟨ A , B ⟩ F = ∑ i , j A i j B i j = t r ( A T B ) \langle\mathbf{A},\mathbf{B}\rangle_F=\sum_{i,j}A_{ij}B_{ij}=\mathrm{tr}(\mathbf{A}^T\mathbf{B}) A,BF=i,jAijBij=tr(ATB)

    其中 tr ⁡ ( ⋅ ) \operatorname{tr}(\cdot) tr()代表求矩阵的迹(trace): tr ⁡ ( A T B ) = ∑ i = 1 n ( A T B ) i i = ∑ i = 1 n ∑ k = 1 m A k i B k i \operatorname{tr}(\mathbf{A}^T\mathbf{B})=\sum_{i=1}^n(\mathbf{A}^T\mathbf{B})_{ii}=\sum_{i=1}^n\sum_{k=1}^mA_{ki}B_{ki} tr(ATB)=i=1n(ATB)ii=i=1nk=1mAkiBki

特点:

  • 广义性:内积可以定义在函数、矩阵等对象上(如 ⟨ f , g ⟩ = ∫ f ( x ) g ( x ) d x ) \langle f,g\rangle=\int f(x)g(x)dx) f,g=f(x)g(x)dx)
  • 需满足正定性、对称性和线性性(在复空间中为共轭对称性)。
  • 点积是内积在有限维实数空间中的特例

示例:

矩阵内积:
⟨ [ 1 2 3 4 ] , [ 5 6 7 8 ] ⟩ F = 1 × 5 + 2 × 6 + 3 × 7 + 4 × 8 = 70 。 \left\langle\begin{bmatrix}1&2\\3&4\end{bmatrix},\begin{bmatrix}5&6\\7&8\end{bmatrix}\right\rangle_F=1\times5+2\times6+3\times7+4\times8=70。 [1324],[5768]F=1×5+2×6+3×7+4×8=70

与内积的联系:内积 = 哈达玛积的所有元素之和。

内积的计算可以分解为两步:

  1. 先计算哈达玛积:对输入矩阵/向量逐元素相乘。
  2. 再求和:将哈达玛积的所有元素相加,得到标量。
运算定义输入要求输出
哈达玛积 A ∘ B ,逐元素相乘: C i j = A i j B i j \mathbf{A}\circ\mathbf{B}\text{,逐元素相乘:}C_{ij}=A_{ij}B_{ij} AB,逐元素相乘:Cij=AijBij同形状矩阵/张量同形状矩阵
内积 向量: ⟨ u , v ⟩ = ∑ i u i v i 矩阵: ⟨ A , B ⟩ F = ∑ i , j A i j B i j \begin{aligned}&\text{向量:}\langle\mathbf{u},\mathbf{v}\rangle=\sum_iu_iv_i\\&\text{矩阵:}\langle\mathbf{A},\mathbf{B}\rangle_F=\sum_{i,j}A_{ij}B_{ij}\end{aligned} 向量:u,v=iuivi矩阵:A,BF=i,jAijBij向量同维或矩阵同形标量

在深度学习中的应用(PyTorch代码实现

(1) 向量内积(就是点积,可以参考上面点积的应用)

import torchu = torch.tensor([1.0, 2.0, 3.0])  # [3]
v = torch.tensor([4.0, 5.0, 6.0])  # [3]# 方法1:直接点积
dot_product = torch.dot(u, v)  # 输出: 1*4 + 2*5 + 3*6 = 32.0# 方法2:等价于求和逐元素乘积
dot_product_alt = torch.sum(u * v)  # 同上

(2) 矩阵内积(Frobenius内积)

A = torch.tensor([[1.0, 2.0], [3.0, 4.0]])  # [2, 2]
B = torch.tensor([[5.0, 6.0], [7.0, 8.0]])  # [2, 2]# 方法1:逐元素乘后求和
frobenius_inner = torch.sum(A * B)  # 1*5 + 2*6 + 3*7 + 4*8 = 70.0# 方法2:迹运算
frobenius_inner_alt = torch.trace(A.T @ B)  # 同上

深度学习中的应用:
(1) 正则化(Regularization)

  • L2 正则化(权重衰减)可以看作权重矩阵与自身的内积
    ∥ W ∥ F 2 = ⟨ W , W ⟩ F \|\mathbf{W}\|_F^2=\langle\mathbf{W},\mathbf{W}\rangle_F WF2=W,WF这样做是为了避免在求导时出现平方根运算,简化计算,避免过拟合。

  • 应用场景:L2权重衰减(权重矩阵的Frobenius范数)。在 L2 权重衰减中,正则化项通常使用 L2 范数的平方

  • 代码:

    weight = torch.randn(100, 50, requires_grad=True)
    l2_reg = torch.sum(weight ** 2)  # 等价于 Frobenius 内积 <weight, weight>
    loss = model_loss + 0.01 * l2_reg  # 添加到总损失
    

(2) 核方法(Kernel Methods)

  • 在支持向量机(SVM)或高斯过程中,内积用于计算数据在高维空间的相似性: K ( x , y ) = ⟨ ϕ ( x ) , ϕ ( y ) ⟩ K(\mathbf{x},\mathbf{y})=\langle\phi(\mathbf{x}),\phi(\mathbf{y})\rangle K(x,y)=ϕ(x),ϕ(y)⟩其中 ϕ \phi ϕ 是特征映射。

  • 核函数的核心思想是:直接计算高维空间中的内积 ⟨ ϕ ( x ) , ϕ ( y ) ⟩ \langle\phi(\mathbf{x}),\phi(\mathbf{y})\rangle ϕ(x),ϕ(y)⟩而无需显式构造到高维 ϕ ( x ) \phi(\mathbf{x}) ϕ(x)。对于高斯核,可以证明它对应一个无限维的特征映射(这里没有深究原理,但确实有数学公式可以证明)。

  • 手动实现的高斯核

    import numpy as npdef rbf_kernel(x, y, sigma=1.0):"""手动实现高斯核(内积形式)"""distance = np.linalg.norm(x - y) ** 2  # ||x - y||^2return np.exp(-distance / (2 * sigma ** 2))  # K(x,y) = <φ(x), φ(y)># 示例计算
    x = np.array([1.0, 2.0])
    y = np.array([3.0, 4.0])
    print("手动计算高斯核:", rbf_kernel(x, y))
    

(3)自注意力机制中的Query-Key评分

  • 虽然Transformer中的 Q K T QK^T QKT 是矩阵乘法,但每个评分 Q i ⋅ K j Q_i\cdot K_j QiKj是向量点积(内积)

    Q = torch.randn(10, 64)  # [seq_len, d_k]
    K = torch.randn(10, 64)  # [seq_len, d_k]
    scores = Q @ K.T  # [10, 10], 每个元素是内积
    

3、外积(Outer Product)

定义和计算:
在线性代数中,两个坐标向量的外积(Outer product)是一个矩阵。如果这两个向量的维数分别为n和m,那么它们的外积是一个n×m矩阵。(相当于n×1的矩阵核1×m的矩阵相乘)

外积是两个向量的张量积,结果为高阶张量。对于向量 u ∈ R m \mathbf{u}\in\mathbb{R}^m uRm v ∈ R n \mathbf{v}\in\mathbb{R}^n vRn,外积生成一个矩阵(二阶张量):

u ⊗ v = u v T = [ u 1 v 1 ⋯ u 1 v n ⋮ ⋱ ⋮ u m v 1 ⋯ u m v n ] \mathbf{u}\otimes\mathbf{v}=\mathbf{u}\mathbf{v}^T=\begin{bmatrix}u_1v_1&\cdots&u_1v_n\\\vdots&\ddots&\vdots\\u_mv_1&\cdots&u_mv_n\end{bmatrix} uv=uvT= u1v1umv1u1vnumvn
对于高阶张量,外积将它们的阶数相加(如 m m m阶张量和 n n n阶张量,计算外积,结果是 m + n m+n m+n阶张量。

特点:

  • 不满足交换律 ( u ⊗ v ≠ v ⊗ u (\mathbf{u}\otimes\mathbf{v}\neq\mathbf{v}\otimes\mathbf{u} (uv=vu
  • 用于构造高阶张量(如矩阵、三阶张量等)。
  • 与叉积(Cross Product)不同(叉积仅适用于三维向量,结果为向量)。

示例:

[ 1 2 ] ⊗ [ 3 4 ] = [ 1 × 3 1 × 4 2 × 3 2 × 4 ] = [ 3 4 6 8 ] \begin{bmatrix}1\\2\end{bmatrix}\otimes\begin{bmatrix}3&4\end{bmatrix}=\begin{bmatrix}1\times3&1\times4\\2\times3&2\times4\end{bmatrix}=\begin{bmatrix}3&4\\6&8\end{bmatrix} [12][34]=[1×32×31×42×4]=[3648]

在深度学习中的应用(PyTorch代码实现

import torch# 定义两个向量
u = torch.tensor([1, 2, 3])
v = torch.tensor([4, 5, 6])# 计算外积
outer_product = torch.outer(u, v)
print("外积结果:")
print(outer_product)# 等价的矩阵乘法matrix_m = u[:,None] @ v[None,:] assert torch.allclose(outer_product ,matrix_m )

4、哈达玛积(Hadamard Product)

是矩阵的逐元素乘积,与点积、外积无关。

哈达玛积(Hadamard Product),也称为 逐元素乘积(Element-wise Product),是一种基本的矩阵/张量运算,广泛应用于深度学习、信号处理和数值计算等领域。它与矩阵乘法完全不同,核心在于 对应位置的元素相乘,而非行列点积

定义和计算:

对于两个形状相同的矩阵 A , B ∈ R m × n \mathbf{A},\mathbf{B}\in\mathbb{R}^{m\times n} A,BRm×n,它们的哈达玛积 C = A ∘ B \mathbf{C}=\mathbf{A}\circ\mathbf{B} C=AB定义为:

C i j = A i j × B i j , ∀ i ∈ { 1 , … , m } , j ∈ { 1 , … , n } C_{ij}=A_{ij}\times B_{ij},\quad\forall i\in\{1,\ldots,m\},j\in\{1,\ldots,n\} Cij=Aij×Bij,i{1,,m},j{1,,n}

符号表示:

  • 哈达玛积常用符号 ∘ \circ ⊙ \odot
  • 在代码中通常用 * 或逐元素乘法函数(如 np.multiplytorch.mul

特点:

  • 输入要求:两个矩阵/张量必须形状完全相同(广播机制除外)
  • 对应位置相乘,输出维度不变

在深度学习中的应用:

首先哈达玛积在python中用*运算符来表示:

A = torch.randn(2, 3)  # [2, 3]
B = torch.randn(2, 3)  # [2, 3]
hadamard = A * B  # 或 torch.mul(A, B)
  1. 门控机制(如LSTM/GRU)
# input_gate: [batch, hidden], candidate: [batch, hidden]
new_state = input_gate * candidate  # 逐元素相乘
  1. 注意力掩码(Transformer)
# scores: [batch, seq_len, seq_len], mask: [seq_len, seq_len]
masked_scores = scores * mask.unsqueeze(0)  # 应用掩码

5、矩阵乘法( matrix multiplication)

矩阵乘法(Matrix Multiplication)是线性代数中的核心运算,也是深度学习中最基本、最重要的操作之一。它用于将两个矩阵(或更高维张量)按照特定规则相乘,生成一个新的矩阵。

定义和计算:

矩阵乘法定义为:对于矩阵 A ∈ R m × n \mathbf{A}\in\mathbb{R}^{m\times n} ARm×n B ∈ R n × p \mathbf{B}\in\mathbb{R}^{n\times p} BRn×p ,它们的乘积 C = A B C = AB C=AB或写成 C = A × B C=A\times B C=A×B ,是一个 m × p m \times p m×p形状的矩阵。其中每个元素 C i j C_{ij} Cij的计算如下:也就是 A \mathbf{A} A 的第 i i i 行向量和 B \mathbf{B} B 的第 j j j 列向量做点积(对应元素相乘再求和)。
C i j = ∑ k = 1 n A i k B k j C_{ij}=\sum_{k=1}^nA_{ik}B_{kj} Cij=k=1nAikBkj

  • 矩阵 A A A行和矩阵 B B B的列必须相同
  • 结果矩阵的 C C C的行数 = A A A的行数,列数 = B B B的列数

在这里插入图片描述

与内积的联系:

  • 首先矩阵乘法的运算规则里面本来就包含了内积的概念,新矩阵的元素本来就由行向量和列向量最点积而来
  • 特殊情况:当矩阵退化为一维向量时,矩阵乘法就等同于内积。例如,对于两个一维向量 a = [ a 1 , a 2 , ⋯ , a n ] \mathbf{a}=[a_1,a_2,\cdots,a_n] a=[a1,a2,,an] b = [ b 1 , b 2 , ⋯ , b n ] \mathbf{b}=[b_1,b_2,\cdots,b_n] b=[b1,b2,,bn],它们的内积 a ⋅ b = ∑ i = 1 n a i b i \mathbf{a}\cdot\mathbf{b}=\sum_{i = 1}^{n}a_ib_i ab=i=1naibi,这可以看作是一个 1 × n 1\times n 1×n 的矩阵和一个 n × 1 n\times 1 n×1 的矩阵相乘。在这里插入图片描述

与外积的关联

  • 矩阵乘法也能和外积联系起来。当一个列向量 a \mathbf{a} a(形状为 m × 1 m\times 1 m×1)和一个行向量 b \mathbf{b} b(形状为 1 × n 1\times n 1×n)相乘时,得到的结果是一个 m × n m\times n m×n 的矩阵,这个过程类似于外积的计算方式。

在这里插入图片描述

🙎🏻‍♀️几何意义

  • 线性变换的组合矩阵本身就可以代表一个线性的变换。在二维平面里,矩阵乘法可实现对二维向量的旋转、缩放、反射等几何变换。对于线性变换 A A A B B B A B AB AB表示先应用 B B B的变换,再应用 A A A的变换
    在这里插入图片描述
    在这里插入图片描述

    图片来源于B站视频:【【从0开始学广义相对论02】嫌矩阵运算难写?看看爱因斯坦怎么做的:Einstein求和约定】 https://www.bilibili.com/video/BV1LF411s7MX/?share_source=copy_web&vd_source=f81ef849101bd49f5953b524b903fdfb

  • 空间映射(空间变换)⭐:将输入空间( R p \mathbb{R}^p Rp)通过 B B B映射到中间空间 ( R n ) (\mathbb{R}^n) (Rn),再通过 A A A映射到输出空间 ( R m ) (\mathbb{R}^m) (Rm)

示例代码

import torch# 创建两个矩阵
A = torch.tensor([[1, 2], [3, 4]])
B = torch.tensor([[5, 6], [7, 8]])# 进行矩阵乘法
C = torch.matmul(A, B)
C = torch.mm(A, B)     # [3, 5] 或 A @ B
print(C)

在这个例子中,矩阵 C \mathbf{C} C 的每个元素都是通过 A \mathbf{A} A 的行向量和 B \mathbf{B} B 的列向量做点积得到的。

torch.matmultorch.mm 都可用于执行张量乘法,但它们存在一些区别

  • torch.mm:仅适用于二维张量(即矩阵)。若输入不是二维张量,会抛出错误。
  • torch.matmul:支持更灵活的输入维度,可处理多种维度组合的张量乘法。具体规则如下:
    • 若两个输入都是一维张量,计算的是它们的点积(内积),返回一个标量。
    • 若两个输入都是二维张量,执行的是常规的矩阵乘法,与 torch.mm 效果相同。
    • 若一个输入是一维张量,另一个是二维张量,会自动对一维张量进行维度扩展以完成矩阵乘法,结果为一维张量。
    • 若输入张量的维度超过二维,torch.matmul 会将最后两个维度视为矩阵维度进行乘法,其他维度作为批量维度处理。

总结

对比总结表

运算数学符号代码实现(PyTorch)输入要求输出规则
矩阵乘法 A B \mathbf{A} \mathbf{B} ABA @ Btorch.mm(A, B)前列=后行行列点积求和
点积(内积) u ⋅ v \mathbf{u} \cdot \mathbf{v} uvtorch.dot(u, v)同维向量标量
外积 u ⊗ v \mathbf{u} \otimes \mathbf{v} uvtorch.outer(u, v)任意两向量矩阵(( \mathbf{u} \mathbf{v}^T ))
哈达玛积 A ∘ B \mathbf{A} \circ \mathbf{B} ABA * Btorch.mul(A, B)同形状矩阵/张量逐元素相乘
克罗内克积 A ⊗ B \mathbf{A} \otimes \mathbf{B} ABtorch.kron(A, B)任意两矩阵分块扩展矩阵
逐元素除法 A ⊘ B \mathbf{A} \oslash \mathbf{B} ABA / Btorch.div(A, B)同形状矩阵/张量逐元素相除

关键点

  1. 矩阵乘法是深度学习最核心的运算(如全连接层、注意力机制)。
  2. 哈达玛积用于逐元素操作(如激活函数、掩码)。
  3. 外积克罗内克积在特定场景(如推荐系统、量子计算)中非常有用。
  4. 代码中注意区分 *(哈达玛积)和 @(矩阵乘法),这是常见的错误来源!

参考

  • 点积、内积、外积、叉积、张量积——概念区分
  • 豆包、Deepseek(感谢)

相关文章:

  • 数据中台(大数据平台)之数据质量管理
  • QML之Overlay
  • 目标分割模型优化自身参数都是梯度下降算法吗?
  • 【shell】终端文本的颜色和样式打印
  • 滑动窗口209. 长度最小的子数组
  • IP-Guard域用户登录后自动登录代理控制台
  • Vue-cli迁移Rsbuild
  • 重置cursor免费次数(2025.4.17可行)
  • MySQL入门:数据操作CURD
  • SSMS中如何把一个库的表移到另一个库中
  • java 多线程之Worker Thread模式(Thread Pool模式)
  • 基于Django框架的图书索引智能排序系统设计与实现(源码+lw+部署文档+讲解),源码可白嫖!
  • 大数据开发核心技术难点:数据倾斜问题深度解析
  • docker harbor私有仓库登录报错
  • CASS 用户坐标系转换到世界坐标系
  • 阿里云ECS访问不了
  • 【NLP 64、基于LLM的垂直领域【特定领域】问答方案】
  • Java与MySQL数据库连接的JDBC驱动配置教程
  • ORA-00600: internal error code, arguments: [kcratr_nab_less_than_odr], [1],
  • RabbitMQ原理及代码示例
  • 秦洪看盘|重估叙事主题卷土重来,给A股注入新活力
  • 四问当前旱情:还会持续多久
  • 外交部回应西班牙未来外交战略:愿与之一道继续深化开放合作
  • A股三大股指集体高开大涨超1%,券商、房地产涨幅居前
  • 全军军级以上单位新任纪委书记监委主任培训班结业
  • 文旅部:加强对景区索道、游船等设施设备安全隐患排查整治