标量/向量/矩阵/张量/范数详解及其在机器学习中的应用
标量(Scalar)、向量(Vector)、矩阵(Matrix)、张量(Tensor)与范数(Norm)详解及其在机器学习中的应用
1. 标量(Scalar)
-
定义:标量是单个数字,仅具有大小(Magnitude),没有方向。
- 数学表示:如 a = 5 a = 5 a=5, b = − 3.2 b = -3.2 b=−3.2
- 特点:零维数据(0D Tensor)。
-
机器学习中的应用:
- 模型参数:如线性回归中的偏置项(Bias)。
- 损失函数输出:如均方误差(MSE)的结果是一个标量。
- 超参数:学习率(Learning Rate)、正则化系数(Regularization Coefficient)等。
2. 向量(Vector)
-
定义:向量是一维数组,既有大小又有方向,表示空间中的点或变化量。
- 数学表示:如 v = [ v 1 , v 2 , … , v n ] T \mathbf{v} = [v_1, v_2, \dots, v_n]^T v=[v1,v2,…,vn]T
- 特点:一维数据(1D Tensor),可看作标量的有序集合。
-
机器学习中的应用:
- 特征向量(Feature Vector):数据样本的数值化表示(如图像的像素值、文本的词频统计)。
- 嵌入(Embedding):将离散数据(如单词、类别)映射为低维向量(如Word2Vec、GloVe)。
- 梯度(Gradient):优化算法中参数更新的方向(如随机梯度下降SGD)。
- 输出结果:分类任务中概率分布的输出(如Softmax后的向量)。
3. 矩阵(Matrix)
-
定义:矩阵是二维数组,由行和列组成,可表示线性变换或数据关系。
- 数学表示:如 A = [ a 11 a 12 a 21 a 22 ] \mathbf{A} = \begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{bmatrix} A=[a11a21a12a22]
- 特点:二维数据(2D Tensor),矩阵运算(乘法、逆、特征分解)是核心工具。
-
机器学习中的应用:
- 数据集表示:每行代表样本,每列代表特征(如表格型数据)。
- 权重矩阵(Weight Matrix):神经网络中层与层之间的连接参数。
- 核方法(Kernel Methods):支持向量机(SVM)中通过核矩阵计算高维相似性。
- 矩阵分解:推荐系统(协同过滤)中将用户-物品评分矩阵分解为低秩矩阵。
4. 张量(Tensor)
-
定义:张量是向量和矩阵的高维推广,表示多维数组。
- 数学表示:三维张量 T ∈ R n × m × k \mathcal{T} \in \mathbb{R}^{n \times m \times k} T∈Rn×m×k
- 特点:N维数据(ND Tensor),如图像(3D:高×宽×通道)、视频(4D:帧×高×宽×通道)。
-
机器学习中的应用:
- 图像处理:RGB图像表示为三维张量(如 224 × 224 × 3 224 \times 224 \times 3 224×224×3。
- 深度学习输入/输出:卷积神经网络(CNN)中张量在层间流动(如特征图Feature Maps)。
- 自然语言处理(NLP):词嵌入矩阵(如 句子长度 × 词向量维度 \text{句子长度} \times \text{词向量维度} 句子长度×词向量维度。
- 高阶关系建模:张量分解用于知识图谱(如TransE模型)。
5. 范数(Norm)
-
定义:范数是向量或矩阵的“长度”度量,用于量化大小、距离或复杂度。
- 常见类型:
- L0范数:非零元素个数(常用于稀疏性约束)。
- L1范数:绝对值之和( ∣ ∣ x ∣ ∣ 1 = ∑ ∣ x i ∣ ||\mathbf{x}||_1 = \sum |x_i| ∣∣x∣∣1=∑∣xi∣,稀疏性正则化。
- L2范数:欧几里得范数( ∣ ∣ x ∣ ∣ 2 = ∑ x i 2 ||\mathbf{x}||_2 = \sqrt{\sum x_i^2} ∣∣x∣∣2=∑xi2,防止过拟合。
- L∞范数:最大绝对值( ∣ ∣ x ∣ ∣ ∞ = max ∣ x i ∣ ||\mathbf{x}||_\infty = \max |x_i| ∣∣x∣∣∞=max∣xi∣。
- Frobenius范数:矩阵版本的L2范数( ∣ ∣ A ∣ ∣ F = ∑ a i j 2 ||\mathbf{A}||_F = \sqrt{\sum a_{ij}^2} ∣∣A∣∣F=∑aij2。
- 常见类型:
-
机器学习中的应用:
- 正则化(Regularization):
- L1正则化(Lasso):使模型参数稀疏化,选择重要特征。
- L2正则化(Ridge):限制参数大小,防止过拟合。
- 优化算法:
- 梯度裁剪(Gradient Clipping):用L2范数限制梯度爆炸。
- 距离计算:K近邻(KNN)中的欧氏距离(L2)或曼哈顿距离(L1)。
- 模型评估:
- 均方误差(MSE)等价于预测值与真实值差向量的L2范数平方。
- 嵌入学习:对比学习(Contrastive Learning)中用余弦相似度(基于L2归一化)。
- 正则化(Regularization):
总结:机器学习中的核心角色
概念 | 核心作用 | 典型应用 |
---|---|---|
标量 | 参数、超参数、损失值 | 学习率、损失函数输出 |
向量 | 特征表示、梯度更新 | 特征向量、嵌入向量 |
矩阵 | 数据存储、线性变换 | 权重矩阵、协方差矩阵 |
张量 | 高维数据建模 | 图像、视频、特征图 |
范数 | 正则化、距离度量 | L1/L2正则化、KNN |
扩展思考
- 张量与深度学习框架:PyTorch/TensorFlow中所有数据均以张量形式处理,支持GPU加速。
- 范数选择的影响:L1稀疏性适合特征选择,L2稳定性适合参数约束。
- 高阶应用:张量网络(Tensor Networks)用于压缩模型或建模复杂关系。