All in AI之二:数学体系的建立
文章目录
- 前言
- 数和量
- 几何
- 函数
- 标量函数:标量到标量的映射
- 向量函数:标量/向量到向量的映射
- 线性代数
- 线性组合
- 范数
- 点积
- 线性变换与矩阵
- 方阵与非方阵
- 矩阵行与列的含义
- 矩阵乘法与线性变换的组合
- 矩阵的秩
- 微积分
- 极限
- 导数
- 微分
- 偏导数
- 梯度
- 积分
- 概率论与数理统计
- 概率论
- 随机现象和概率模型
- 概率的分类与计算
- 先验概率的计算
- 条件概率的计算
- 后验概率的计算
- 随机变量和概率分布
- 数字特征
- 大数定律(LLN)
- 中心极限定理(CLT)
- 数理统计
- 样本与统计量
- 参数估计
- 点估计
- 矩估计法
- 最大似然估计法(MLE)
- 点估计性质
- 区间估计
- 假设检验
- 基本概念
- 常用检验
- 检验步骤
- 回归与相关分析
- 简单线性回归
- 多元回归
- 相关系数与假设检验
- 抽样分布与渐近理论
- 附录
- 集合
- 排列组合
前言
机器学习是现代数学建模的极致形式,集成了函数、向量、微积分、概率论、统计学及其他扩展数学工具。如果你是计算机爱好者,那么机器学习是一个值得终身研究的学科,但学习机器学习的前提,必须要有一个良好的数学基础。作者已毕业三年且从未接触过机器学习,本文是作者花费了大量的事件和精力,浏览无数文本和视频总结出来的数学知识,如果你:
- 毕业很久了
- 想要学习机器学习
- 技术栈是Java
那么本文将十分适合你,它会构建你的实用数学体系。
数和量
在数学里,数只是“多少”的抽象,是孤立的符号;而量则是“世界的属性”,它需要用数去度量。根据量的特性,可分为两类核心形式:
- 标量:只有大小,没有方向,例如温度 36.5℃、质量 70kg。
- 向量:既有大小又有方向,例如位移、速度、力,可以表示为:
v⃗=(v1,v2,…,vn)\vec{v} = (v_1, v_2, \dots, v_n) v=(v1,v2,…,vn)
几何
几何的核心作用是为“数与量”提供空间直观表达——通过建立“空间位置”与“数字”的对应关系,将抽象的标量、向量转化为可感知的图形,其中“坐标系”是连接二者的关键桥梁。坐标系通过设定“原点”(基准点)与“坐标轴”(基准方向),为空间中任意点或向量分配唯一的“数字标签”,实现“几何对象→数值”的转化:
- 二维平面(如纸面):常用直角坐标系,由x轴(水平方向)、y轴(垂直方向)及原点O(0,0)构成,任意点的位置可表示为坐标(x,y)(x, y)(x,y)(x为沿x轴到原点的距离,y为沿y轴到原点的距离);
- 三维空间(如现实空间):由x轴、y轴、z轴(垂直于平面的方向)及原点O(0,0,0)构成,任意点的位置可表示为坐标(x,y,z)(x, y, z)(x,y,z)。
为简化向量的表示与运算,引入单位向量——模长为1、方向沿坐标轴正方向的向量,作为构建任意向量的“基本单元”:
- 二维空间:x轴单位向量i^=(1,0)\hat{i}=(1,0)i^=(1,0),y轴单位向量j^=(0,1)\hat{j}=(0,1)j^=(0,1);
- 三维空间:x轴单位向量i^=(1,0,0)\hat{i}=(1,0,0)i^=(1,0,0),y轴单位向量j^=(0,1,0)\hat{j}=(0,1,0)j^=(0,1,0),z轴单位向量k^=(0,0,1)\hat{k}=(0,0,1)k^=(0,0,1)。
任意向量均可表示为单位向量的线性组合,几何意义是“沿各坐标轴方向的分量叠加”:
- 二维向量v⃗=(v1,v2)\vec{v}=(v_1, v_2)v=(v1,v2):v⃗=v1i^+v2j^\vec{v} = v_1\hat{i} + v_2\hat{j}v=v1i^+v2j^(沿x轴i^\hat{i}i^方向叠加v1v_1v1倍,y轴j^\hat{j}j^方向叠加v2v_2v2倍);
- 三维向量v⃗=(v1,v2,v3)\vec{v}=(v_1, v_2, v_3)v=(v1,v2,v3):v⃗=v1i^+v2j^+v3k^\vec{v} = v_1\hat{i} + v_2\hat{j} + v_3\hat{k}v=v1i^+v2j^+v3k^。
函数
现实世界中,量与量之间常存在“依赖变化”的关系(如位置随时间变化、温度随高度变化),函数是描述这种依赖关系的数学工具,本质是“输入到输出的确定性映射”,记为:
y=f(x)y = f(x) y=f(x)
其中xxx为输入(自变量),yyy为输出(因变量),fff为映射规则。结合“量的类型”,函数可分为标量函数与向量函数,二者的可视化与几何意义存在显著差异。
标量函数:标量到标量的映射
标量函数的输入与输出均为标量,形式为f:R1→R1f: \mathbb{R}^1 \to \mathbb{R}^1f:R1→R1(单变量)或f:Rn→R1f: \mathbb{R}^n \to \mathbb{R}^1f:Rn→R1(多变量),描述“一个标量量随其他标量量的变化”。
-
单变量标量函数(如y=f(x)y = f(x)y=f(x))
- 映射规则:单个输入xxx(如时间ttt)对应单个输出yyy(如温度TTT),例如T=f(t)=20+5tT = f(t) = 20 + 5tT=f(t)=20+5t(表示温度随时间每增加1单位,升高5单位);
- 几何可视化:以输入xxx为横轴、输出yyy为纵轴建立直角坐标系,函数图像为平面中的一条曲线,曲线的“斜率”反映输出随输入的变化率(如y=x2y=x^2y=x2的抛物线,斜率随xxx增大而增大,体现变化率递增);
- 核心意义:曲线的形态直接反映函数的变化趋势(上升/下降、递增/递减、极值点等),例如y=sinxy=\sin xy=sinx的正弦曲线,体现周期性变化。
-
多变量标量函数(如z=f(x,y)z = f(x, y)z=f(x,y))
- 映射规则:两个输入x,yx,yx,y(如平面中的横、纵坐标)对应单个输出zzz(如高度hhh),例如h=f(x,y)=x2+y2h = f(x, y) = \sqrt{x^2 + y^2}h=f(x,y)=x2+y2(表示平面中某点到原点的高度,图像为圆锥面);
- 几何可视化:需建立三维坐标系(xxx轴、yyy轴为输入轴,zzz轴为输出轴),函数图像为三维空间中的一个曲面,曲面的“凹凸性”反映输出随输入的变化趋势;
- 核心意义:曲面的高度分布对应输出的大小,例如地形高度函数,曲面的峰值对应地形的最高点,谷值对应最低点。
向量函数:标量/向量到向量的映射
向量函数的输出为向量,形式为y⃗=f(x)\vec{y} = f(x)y=f(x)(标量输入)或y⃗=f(x⃗)\vec{y} = f(\vec{x})y=f(x)(向量输入),描述“向量量随其他量的变化”,几何上体现为“向量在空间中的运动或变换”。
-
标量输入的向量函数(如r⃗=f(t)\vec{r} = f(t)r=f(t))
- 映射规则:单个输入ttt(如时间)对应一个向量输出r⃗\vec{r}r(如位置向量),例如平面圆周运动的位置函数r⃗(t)=(cost,sint)\vec{r}(t) = (\cos t, \sin t)r(t)=(cost,sint)(ttt为时间,r⃗(t)\vec{r}(t)r(t)为平面中到原点距离为1的位置向量);
- 几何可视化:以输入ttt为参数,向量r⃗(t)\vec{r}(t)r(t)的终点在空间中形成一条曲线(称为“参数曲线”),曲线的“切线方向”对应向量的变化方向(如圆周运动的切线方向为速度方向);
- 核心意义:参数曲线直接反映向量的动态变化,例如r⃗(t)=(t,t2)\vec{r}(t) = (t, t^2)r(t)=(t,t2)的抛物线参数曲线,体现位置向量随时间沿抛物线轨迹运动。
-
向量输入的向量函数(如y⃗=f(x⃗)\vec{y} = f(\vec{x})y=f(x))
- 映射规则:向量输入x⃗\vec{x}x(如平面中的位置向量(x,y)(x,y)(x,y))对应向量输出y⃗\vec{y}y(如速度向量v⃗\vec{v}v),例如平面向量变换v⃗=f(x,y)=(2x,y)\vec{v} = f(x,y) = (2x, y)v=f(x,y)=(2x,y)(表示将输入向量的x分量放大2倍,y分量不变);
- 几何可视化:在同一坐标系中,将每个输入向量x⃗\vec{x}x的终点与输出向量y⃗\vec{y}y的终点相连,形成“向量场”(如电场、磁场中的向量分布),向量场的“密度”反映向量的大小分布;
- 核心意义:向量场体现空间中向量的整体分布规律,例如v⃗=(−y,x)\vec{v} = (-y, x)v=(−y,x)的旋转向量场,所有向量沿逆时针方向旋转,体现圆周运动的速度分布。
线性代数
线性代数是一门专注于研究向量及向量间线性关系的数学学科。这里的“向量”不只是几何里的“有向线段”,而是被抽象成了一种通用数学对象——只要某个东西能满足“向量加法”(比如两个向量首尾相连求和)和“标量乘法”(比如给向量放大2倍)这两条基础规则,就能用线性代数的方法分析。这种抽象性打破了二维、三维空间的限制,向量可以存在于任意维度的空间中(比如机器学习里的“特征向量”,可能包含几十甚至上百个维度)。从数学定义来看,若一个集合 VVV 满足:对任意向量 u,v∈V\mathbf{u},\mathbf{v}\in Vu,v∈V,以及任意标量 α,β∈F\alpha,\beta\in\mathbb{F}α,β∈F(F\mathbb{F}F 代表数域,比如我们常用的实数域 R\mathbb{R}R、复数域 C\mathbb{C}C),都有
αu+βv∈V,\alpha\mathbf{u}+\beta\mathbf{v}\in V, αu+βv∈V,
那么这个集合 VVV 就被称为向量空间。简单说,向量空间就像一个“舞台”,在这里向量既能通过加法组合出新向量,也能通过标量(比如实数1.5、-2)缩放改变大小或方向,最终形成更多样的向量形式。
推荐学习资源:全球最好的线性代数教程
线性组合
线性组合是描述“如何用一组向量拼出新向量”的核心工具。比如我们有向量 v1=(1,0)\mathbf{v}_1=(1,0)v1=(1,0) 和 v2=(0,1)\mathbf{v}_2=(0,1)v2=(0,1),给它们分别乘上标量2和3,再相加得到 v=2v1+3v2=(2,3)\mathbf{v}=2\mathbf{v}_1+3\mathbf{v}_2=(2,3)v=2v1+3v2=(2,3),这就是一次线性组合。更一般地,假设在向量空间 VVV 中有一组向量 v1,…,vn\mathbf{v}_1,\dots,\mathbf{v}_nv1,…,vn,再给定一组来自数域 F\mathbb{F}F 的标量 α1,…,αn\alpha_1,\dots,\alpha_nα1,…,αn(可理解为“权重”,决定每个向量在组合中的贡献大小),那么向量
v=α1v1+α2v2+⋯+αnvn\mathbf{v} = \alpha_1\mathbf{v}_1 + \alpha_2\mathbf{v}_2 + \cdots + \alpha_n\mathbf{v}_n v=α1v1+α2v2+⋯+αnvn
就称为这组向量 {v1,…,vn}\{\mathbf{v}_1,\dots,\mathbf{v}_n\}{v1,…,vn} 的一个线性组合。若存在不全为零的标量 α1,…,αn\alpha_1,\dots,\alpha_nα1,…,αn,使得线性组合的结果为零向量,即
0=α1v1+⋯+αnvn,\mathbf{0} = \alpha_1\mathbf{v}_1 + \cdots + \alpha_n\mathbf{v}_n, 0=α1v1+⋯+αnvn,
则称这组向量 {vi}\{\mathbf{v}_i\}{vi} 线性相关。通俗说,就是组里至少有一个向量“多余”,能被其他向量通过线性组合表示。若只有当所有 αi=0\alpha_i=0αi=0 时,上述等式才成立,则称向量组 {vi}\{\mathbf{v}_i\}{vi} 线性无关。这意味着组里每个向量都“不可替代”,无法被其他向量组合出来。如果向量空间 VVV 中的一组向量 {e1,…,en}\{\mathbf{e}_1,\dots,\mathbf{e}_n\}{e1,…,en} 满足两个条件:
- 线性无关(无冗余,每个基准都有用);
- 能生成 VVV 中的任意向量(即 VVV 里所有向量都能唯一表示成这组向量的线性组合);
那么这组向量就被称为 VVV 的基(可理解为向量空间的“基本单位”,类似直角坐标系里的x轴、y轴单位向量)。在某个基下,向量的线性组合系数 (a1,…,an)(a_1,\dots,a_n)(a1,…,an) 就是这个向量的坐标——就像在直角坐标系里,点 (3,4)(3,4)(3,4) 的坐标是x轴系数3、y轴系数4。坐标通常写成列向量的形式:
v=[a1a2⋮an].\mathbf{v}= \begin{bmatrix} a_1\\a_2\\\vdots\\a_n \end{bmatrix}. v=a1a2⋮an.
基中向量的个数 nnn 是固定的,它被称为向量空间 VVV 的维度,记作:
dimV=n\dim V=ndimV=n
从几何角度理解维度,会更直观:
- 维度为1的空间:一条直线(比如数轴,只有“左右”一个方向);
- 维度为2的空间:一个平面(比如直角坐标系,有“左右”“上下”两个方向);
- 维度为3的空间:我们生活的三维空间(有“前后”“左右”“上下”三个方向);
- 维度≥4的空间:虽然没有直观几何图像(比如机器学习中100维的特征空间),但代数性质和低维空间一致,比如100维向量的线性组合、坐标表示,和2维向量的规则完全相同。
范数
范数是用来量化向量“大小”或“长度”的数学概念——类似几何中线段的长度,但能适应任意维度的向量。不同场景需要不同的“衡量标准”,常见的有三种范数:
- L2L^2L2 范数(欧几里得范数)
这是最贴近日常认知的“长度”,对应两点之间的直线距离。对于向量 v=(v1,v2,…,vn)\mathbf{v}=(v_1,v_2,\dots,v_n)v=(v1,v2,…,vn),其 L2L^2L2 范数定义为:
∥v∥2=∑i=1nvi2.\|\mathbf{v}\|_2 = \sqrt{\sum_{i=1}^n v_i^2}. ∥v∥2=i=1∑nvi2.
比如二维向量 (3,4)(3,4)(3,4) 的 L2L^2L2 范数是 32+42=5\sqrt{3^2+4^2}=532+42=5,正好是直角三角形的斜边长度;三维向量 (1,2,2)(1,2,2)(1,2,2) 的 L2L^2L2 范数是 12+22+22=3\sqrt{1^2+2^2+2^2}=312+22+22=3,对应空间中从原点到该点的直线距离。 - L1L^1L1 范数(曼哈顿范数)
得名于“曼哈顿街道的距离”——只能沿横竖方向走,不能走斜线。它的定义是向量各分量的绝对值之和:
∥v∥1=∑i=1n∣vi∣.\|\mathbf{v}\|_1 = \sum_{i=1}^n |v_i|. ∥v∥1=i=1∑n∣vi∣.
比如二维向量 (3,4)(3,4)(3,4) 的 L1L^1L1 范数是 ∣3∣+∣4∣=7|3|+|4|=7∣3∣+∣4∣=7,对应从原点到该点“横走3格、竖走4格”的总路程;在机器学习中,L1L^1L1 范数常用来让向量“稀疏化”(比如让特征向量中大部分分量为0,只保留关键特征)。 - L∞L^\inftyL∞ 范数(最大范数)
反映向量各分量中的“最大绝对值”,可以理解为“最极端的分量大小”。定义为:
∥v∥∞=max1≤i≤n∣vi∣.\|\mathbf{v}\|_\infty = \max_{1\le i\le n} |v_i|. ∥v∥∞=1≤i≤nmax∣vi∣.
比如向量 (3,4,−5)(3,4,-5)(3,4,−5) 的 L∞L^\inftyL∞ 范数是 max{∣3∣,∣4∣,∣−5∣}=5\max\{|3|,|4|,|-5|\}=5max{∣3∣,∣4∣,∣−5∣}=5;在异常检测中,L∞L^\inftyL∞ 范数可用来识别“某一个特征特别极端”的数据(比如用户消费数据中,某一笔消费远高于其他消费)。
从几何上看,不同范数对应不同的“单位球”(即范数等于1的所有向量构成的图形):
- L2L^2L2 范数的单位球:二维是圆形,三维是球体(最“圆润”的形状);
- L1L^1L1 范数的单位球:二维是菱形,三维是菱面体(边角更尖锐);
- L∞L^\inftyL∞ 范数的单位球:二维是正方形,三维是立方体(边与坐标轴平行)。
点积
对于实数域 Rn\mathbb{R}^nRn 中的两个向量 u=(u1,…,un)\mathbf{u}=(u_1,\dots,u_n)u=(u1,…,un) 和 v=(v1,…,vn)\mathbf{v}=(v_1,\dots,v_n)v=(v1,…,vn),点积(也叫内积)是描述它们“方向关系”的核心运算。它有两种等价的定义方式,分别对应代数和几何意义:
- 代数定义:分量相乘再求和
点积的代数计算很直接,将两个向量对应分量相乘,再把所有结果相加:
u⋅v=∑i=1nuivi.\mathbf{u}\cdot\mathbf{v} = \sum_{i=1}^n u_i v_i. u⋅v=i=1∑nuivi.
比如 u=(1,2,3)\mathbf{u}=(1,2,3)u=(1,2,3),v=(4,5,6)\mathbf{v}=(4,5,6)v=(4,5,6),它们的点积是 1×4+2×5+3×6=4+10+18=321\times4 + 2\times5 + 3\times6 = 4+10+18=321×4+2×5+3×6=4+10+18=32。 - 几何定义:与夹角相关的“相似度”
点积的几何意义更直观,它和两个向量的夹角直接相关:
u⋅v=∥u∥∥v∥cosθ,\mathbf{u}\cdot\mathbf{v} = \|\mathbf{u}\|\,\|\mathbf{v}\| \cos\theta, u⋅v=∥u∥∥v∥cosθ,
其中 θ\thetaθ 是向量 u\mathbf{u}u 和 v\mathbf{v}v 的夹角,∥⋅∥\|\cdot\|∥⋅∥ 通常用 L2L^2L2 范数。这个公式告诉我们:点积的大小不仅和两个向量的“长度”有关,还和它们的“方向相似度”有关。
通过点积的结果,我们能快速判断两个向量的方向的相近程度:
- 若 u⋅v>0\mathbf{u}\cdot\mathbf{v}>0u⋅v>0:cosθ>0\cos\theta>0cosθ>0,说明夹角 θ<90∘\theta<90^\circθ<90∘,两向量方向相近(比如 u=(1,0)\mathbf{u}=(1,0)u=(1,0) 和 v=(1,1)\mathbf{v}=(1,1)v=(1,1),点积为1>0,方向接近);
- 若 u⋅v=0\mathbf{u}\cdot\mathbf{v}=0u⋅v=0:cosθ=0\cos\theta=0cosθ=0,说明夹角 θ=90∘\theta=90^\circθ=90∘,两向量正交(即“垂直”,比如 u=(1,0)\mathbf{u}=(1,0)u=(1,0) 和 v=(0,1)\mathbf{v}=(0,1)v=(0,1),点积为0,相互独立);
- 若 u⋅v<0\mathbf{u}\cdot\mathbf{v}<0u⋅v<0:cosθ<0\cos\theta<0cosθ<0,说明夹角 θ>90∘\theta>90^\circθ>90∘,两向量方向相反(比如 u=(1,0)\mathbf{u}=(1,0)u=(1,0) 和 v=(−1,1)\mathbf{v}=(-1,1)v=(−1,1),点积为-1<0,方向相反)。
我会在“线性变换与矩阵”章节中新增“方阵与非方阵的核心区别及意义”小节,围绕维度映射关系展开,结合几何直观和机器学习应用,明确两者在变换效果、核心属性(如行列式)、可逆性上的差异,确保逻辑衔接自然。
线性变换与矩阵
向量不仅能“静止”地存在于空间中,还会发生“运动”——比如旋转(将二维向量绕原点转30°)、缩放(将向量长度放大2倍)、投影(将三维向量“压平”到二维平面)、剪切(将矩形变成平行四边形)等。这些“运动”如果满足“线性规则”(即保持向量的线性组合关系),就称为线性变换,而矩阵就是描述线性变换的“数字工具”。线性变换是一种从一个向量空间映射到另一个向量空间的规则,通常记作 T:V→WT: V\to WT:V→W(表示从向量空间 VVV 映射到向量空间 WWW),它必须满足两个条件(保持线性组合):对任意 u,v∈V\mathbf{u},\mathbf{v}\in Vu,v∈V 和任意标量 α,β∈F\alpha,\beta\in\mathbb{F}α,β∈F,有
T(αu+βv)=αT(u)+βT(v).T(\alpha\mathbf{u}+\beta\mathbf{v})=\alpha T(\mathbf{u})+\beta T(\mathbf{v}). T(αu+βv)=αT(u)+βT(v).
简单说,就是“先组合向量再变换”,和“先变换向量再组合”的结果完全一致。比如先将 u\mathbf{u}u 放大2倍、v\mathbf{v}v 放大3倍再相加,再进行变换,与先分别变换 u\mathbf{u}u 和 v\mathbf{v}v,再放大2倍、3倍相加,结果相同——这确保了线性变换不会破坏向量的线性关系。线性变换是抽象的(比如“旋转30°”是一个动作),而矩阵能将这个动作转化为具体的数字运算。要通过矩阵表示线性变换,需要先为原空间 VVV 和目标空间 WWW 选择“基”(就像给空间设定坐标系):
- 设原空间 VVV 的基为 {e1,…,en}\{\mathbf{e}_1,\dots,\mathbf{e}_n\}{e1,…,en}(nnn 是 VVV 的维度,比如二维空间的基 e1=(1,0)\mathbf{e}_1=(1,0)e1=(1,0),e2=(0,1)\mathbf{e}_2=(0,1)e2=(0,1));
- 设目标空间 WWW 的基为 {f1,…,fm}\{\mathbf{f}_1,\dots,\mathbf{f}_m\}{f1,…,fm}(mmm 是 WWW 的维度,比如三维空间的基 f1=(1,0,0)\mathbf{f}_1=(1,0,0)f1=(1,0,0),f2=(0,1,0)\mathbf{f}_2=(0,1,0)f2=(0,1,0),f3=(0,0,1)\mathbf{f}_3=(0,0,1)f3=(0,0,1))。
由于线性变换保持线性关系,原空间的每个基向量 ei\mathbf{e}_iei 经过变换后,得到的 T(ei)T(\mathbf{e}_i)T(ei) 一定能表示成目标空间基的线性组合(比如将二维基 e1=(1,0)\mathbf{e}_1=(1,0)e1=(1,0) 旋转30°后,得到的向量能表示为三维基的组合 T(e1)=cos30∘⋅f1+sin30∘⋅f2+0⋅f3T(\mathbf{e}_1)=\cos30^\circ\cdot\mathbf{f}_1 + \sin30^\circ\cdot\mathbf{f}_2 + 0\cdot\mathbf{f}_3T(e1)=cos30∘⋅f1+sin30∘⋅f2+0⋅f3):
T(ei)=∑j=1majifj.T(\mathbf{e}_i) = \sum_{j=1}^m a_{ji}\,\mathbf{f}_j. T(ei)=j=1∑majifj.
我们将这些组合系数 ajia_{ji}aji 按“列”收集起来,就能得到一个 mmm 行、nnn 列的矩阵 A∈Fm×nA\in\mathbb{F}^{m\times n}A∈Fm×n(行数对应目标空间维度,列数对应原空间维度):
A=[a11a12⋯a1na21a22⋯a2n⋮⋮⋱⋮am1am2⋯amn].A= \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots\\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{bmatrix}. A=a11a21⋮am1a12a22⋮am2⋯⋯⋱⋯a1na2n⋮amn.
此时,原空间 VVV 中的任意向量 v\mathbf{v}v(在基 {e1,…,en}\{\mathbf{e}_1,\dots,\mathbf{e}_n\}{e1,…,en} 下表示为列向量),经过线性变换 TTT 后的结果,就等于矩阵 AAA 与向量 v\mathbf{v}v 的乘积——这就是“矩阵乘法对应线性变换”的核心逻辑:
T(v)=Av.T(\mathbf{v}) = A\mathbf{v}. T(v)=Av.
方阵与非方阵
矩阵的“行数是否等于列数”(即方阵/非方阵),直接决定了线性变换的维度映射关系,进而影响其几何效果和应用场景,这是线性代数中最关键的区分之一。
-
方阵(m=nm=nm=n):当矩阵的行数 mmm 等于列数 nnn 时,称为方阵(如 2×22\times22×2、3×33\times33×3 矩阵),对应的线性变换是 T:V→VT: V\to VT:V→V——即从 nnn 维空间映射到同一维度的空间,本质是对空间进行“内部调整”,不改变空间的维度。方阵的核心作用是“在不压缩/扩展维度的前提下,调整空间内向量的位置、方向或大小”,常见几何效果包括:
- 旋转:如二维旋转矩阵 R(θ)=[cosθ−sinθsinθcosθ]R(\theta)=\begin{bmatrix}\cos\theta & -\sin\theta \\ \sin\theta & \cos\theta\end{bmatrix}R(θ)=[cosθsinθ−sinθcosθ],将二维平面内所有向量绕原点旋转 θ\thetaθ 角,空间仍为二维;
- 缩放:如三维缩放矩阵 S=[k1000k2000k3]S=\begin{bmatrix}k_1 & 0 & 0 \\ 0 & k_2 & 0 \\ 0 & 0 & k_3\end{bmatrix}S=k1000k2000k3,将向量在x轴放大 k1k_1k1 倍、y轴放大 k2k_2k2 倍、z轴放大 k3k_3k3 倍,空间仍为三维;
- 剪切:如二维剪切矩阵 C=[1k01]C=\begin{bmatrix}1 & k \\ 0 & 1\end{bmatrix}C=[10k1],将矩形沿x轴方向“推斜”成平行四边形,空间维度不变;
- 镜像:如二维镜像矩阵 M=[−1001]M=\begin{bmatrix}-1 & 0 \\ 0 & 1\end{bmatrix}M=[−1001],将向量沿y轴翻转,空间仍为二维。
由于方阵作用于同维度空间,存在两个非方阵没有的核心属性:
- 行列式:描述线性变换对“空间体积”的缩放效果(二维是面积,三维是体积)。例如 2×22\times22×2 矩阵 [2003]\begin{bmatrix}2 & 0 \\ 0 & 3\end{bmatrix}[2003] 的行列式为 666,会将单位正方形(面积1)放大为 2×32\times32×3 的矩形(面积6);若行列式为负(如 [−2003]\begin{bmatrix}-2 & 0 \\ 0 & 3\end{bmatrix}[−2003],行列式=-6),则会同时翻转空间方向(如二维图形左右镜像)。
- 可逆性:若方阵的行列式 det(A)≠0\det(A)\neq0det(A)=0,则存在“逆矩阵 A−1A^{-1}A−1”,能还原该线性变换(即 A−1(Av)=vA^{-1}(A\mathbf{v})=\mathbf{v}A−1(Av)=v)。例如旋转矩阵的逆矩阵是“反向旋转矩阵”(旋转 −θ-\theta−θ 角),可将旋转后的向量还原为原向量。
-
非方阵(m≠nm\neq nm=n):当矩阵的行数 mmm 不等于列数 nnn 时,称为非方阵,对应的线性变换是 T:V→WT: V\to WT:V→W(dimV=n≠m=dimW\dim V=n\neq m=\dim WdimV=n=m=dimW),本质是“在不同维度空间之间转换”,必然改变空间的维度。非方阵分为两种情况:m>nm>nm>n(高维映射)和 m<nm<nm<n(低维映射)。
- m>nm>nm>n(如 3×23\times23×2 矩阵):低维嵌入高维,线性变换是 T:Fn→FmT: \mathbb{F}^n\to\mathbb{F}^mT:Fn→Fm(m>nm>nm>n),几何意义是将 nnn 维空间“嵌入”到 mmm 维空间的一个子空间中,新增“冗余维度”但不改变原空间的形态。
- m<nm<nm<n(如 2×32\times32×3 矩阵):高维投影到低维
线性变换是 T:Fn→FmT: \mathbb{F}^n\to\mathbb{F}^mT:Fn→Fm(m<nm<nm<n),几何意义是将 nnn 维空间“压缩”或“投影”到 mmm 维空间,会丢失高维空间的部分信息(丢失的维度无法还原)。
非方阵的关键特点:无行列式、不可逆
- 无行列式:由于维度改变,“体积缩放”的概念不再成立(如将三维体积压缩到二维面积,无法用一个数值描述缩放效果),因此非方阵没有行列式;
- 不可逆:丢失的维度信息无法通过任何矩阵还原。例如将三维向量 (x,y,z)(x,y,z)(x,y,z) 投影为 (x,y)(x,y)(x,y) 后,无法从 (x,y)(x,y)(x,y) 反推出原向量的 zzz 值,因此非方阵不存在逆矩阵。
矩阵行与列的含义
矩阵的行和列承载着不同的几何意义,结合线性变换能更直观地理解:
-
矩阵的每一列对应原空间基向量经过变换后的结果。以二维旋转矩阵为例:
R(θ)=[cosθ−sinθsinθcosθ]R(\theta)= \begin{bmatrix} \cos\theta & -\sin\theta\\ \sin\theta & \cos\theta \end{bmatrix} R(θ)=[cosθsinθ−sinθcosθ]
第一列 [cosθsinθ]\begin{bmatrix}\cos\theta \\ \sin\theta\end{bmatrix}[cosθsinθ] 是原x轴单位向量 (1,0)(1,0)(1,0) 旋转θ\thetaθ后的新方向,第二列 [−sinθcosθ]\begin{bmatrix}-\sin\theta \\ \cos\theta\end{bmatrix}[−sinθcosθ] 是原y轴单位向量 (0,1)(0,1)(0,1) 旋转后的新方向。这意味着:矩阵的列向量定义了变换后空间的新“坐标轴”,所有向量都会跟随这些坐标轴的变化而运动。 -
矩阵的每一行则对应目标空间中坐标的测量规则。当计算 Av=yA\mathbf{v}=\mathbf{y}Av=y 时,结果向量 y\mathbf{y}y 的第iii个分量 yiy_iyi 等于矩阵AAA的第iii行与原向量v\mathbf{v}v的点积:
yi=∑k=1naikvk=rowi(A)⋅vy_i = \sum_{k=1}^n a_{ik}v_k = \text{row}_i(A) \cdot \mathbf{v} yi=k=1∑naikvk=rowi(A)⋅v
这相当于用行向量作为“标尺”,测量原向量在新坐标轴上的投影长度。例如,三维到二维的投影矩阵:
P=[100010]P= \begin{bmatrix} 1 & 0 & 0\\ 0 & 1 & 0 \end{bmatrix} P=[100100]
第一行 (1,0,0)(1,0,0)(1,0,0) 测量向量在x轴的投影,第二行 (0,1,0)(0,1,0)(0,1,0) 测量y轴投影,最终将三维向量“压平”到xy平面。
矩阵乘法与线性变换的组合
当多个线性变换依次作用时,其效果可以用矩阵乘法表示,这就是变换的复合。若先进行变换T1T_1T1(对应矩阵AAA),再进行变换T2T_2T2(对应矩阵BBB),则最终结果等价于单个变换T2(T1(v))T_2(T_1(\mathbf{v}))T2(T1(v)),对应的矩阵为B⋅AB\cdot AB⋅A。矩阵乘法的顺序至关重要,因为线性变换的作用顺序会影响结果。例如:
- 先旋转90°(矩阵RRR)再缩放2倍(矩阵SSS):结果矩阵为S⋅RS\cdot RS⋅R;
- 先缩放2倍再旋转90°:结果矩阵为R⋅SR\cdot SR⋅S;
这两种操作会得到不同的变换效果。数学上表现为矩阵乘法不满足交换律:A⋅B≠B⋅AA\cdot B \neq B\cdot AA⋅B=B⋅A。
矩阵的秩
矩阵的秩(rank)定义为其列向量中线性无关向量的最大数量,记作rank(A)\text{rank}(A)rank(A)。它反映了线性变换后空间的“有效维度”——即变换后向量张成的空间(像空间)的维度。
- 若rank(A)=n\text{rank}(A) = nrank(A)=n(nnn为原空间维度),称矩阵满秩,此时线性变换不会压缩空间(如旋转、缩放);
- 若rank(A)<n\text{rank}(A) < nrank(A)<n,称矩阵降秩,此时变换会将空间压缩到更低维度(如投影变换将三维压缩到二维)。
例如,矩阵A=[1224]A= \begin{bmatrix}1 & 2 \\ 2 & 4\end{bmatrix}A=[1224]的列向量线性相关(第二列是第一列的2倍),其秩为1,对应的变换会将所有二维向量压缩到一条直线上。
微积分
微积分是用来研究函数的工具。
全球最好的微积分视频
极限
微积分的所有概念都建立在极限的基础上,它描述了变量在无限逼近某个状态时的终极趋势。就像数列1/2, 1/4, 1/8…不断靠近0却永远不到达0一样,极限让我们能够精确描述"无限接近"这种抽象的动态过程。对于函数f(x)f(x)f(x),当自变量xxx无限接近aaa(但不等于aaa)时,如果函数值f(x)f(x)f(x)无限接近某个常数LLL,我们就称LLL是f(x)f(x)f(x)在xxx趋近于aaa时的极限,记作:
limx→af(x)=L\lim_{x \to a} f(x) = L x→alimf(x)=L
这个定义包含两层含义:
- 自变量xxx可以从aaa的左侧(x→a−x \to a^-x→a−)或右侧(x→a+x \to a^+x→a+)趋近;
- 无论xxx以何种方式趋近于aaa,函数值都必须稳定地逼近LLL。
几何上,这相当于观察函数图像在x=ax=ax=a附近的走势。例如,函数f(x)=x2−1x−1f(x)=\frac{x^2-1}{x-1}f(x)=x−1x2−1在x=1x=1x=1处无定义,但当xxx无限接近1时,函数值无限接近2,因此limx→1f(x)=2\lim_{x \to 1} f(x)=2limx→1f(x)=2。
导数
导数是微积分的核心概念,它量化了函数在某一点的瞬时变化率,就像用放大镜观察函数图像在该点的"倾斜程度"。函数f(x)f(x)f(x)在点x0x_0x0处的导数定义为极限:
f′(x0)=limΔx→0f(x0+Δx)−f(x0)Δxf'(x_0) = \lim_{\Delta x \to 0} \frac{f(x_0+\Delta x) - f(x_0)}{\Delta x} f′(x0)=Δx→0limΔxf(x0+Δx)−f(x0)
几何意义是函数图像在(x0,f(x0))(x_0, f(x_0))(x0,f(x0))处切线的斜率。当Δx\Delta xΔx趋近于0时,割线逐渐变成切线,平均变化率升级为瞬时变化率。基本求导法则:
- 四则运算:(u±v)′=u′±v′(u \pm v)' = u' \pm v'(u±v)′=u′±v′;(uv)′=u′v+uv′(uv)' = u'v + uv'(uv)′=u′v+uv′;(uv)′=u′v−uv′v2\left(\frac{u}{v}\right)' = \frac{u'v - uv'}{v^2}(vu)′=v2u′v−uv′
- 链式法则:若y=f(g(x))y = f(g(x))y=f(g(x)),则y′=f′(g(x))⋅g′(x)y' = f'(g(x)) \cdot g'(x)y′=f′(g(x))⋅g′(x)(复合函数求导的核心)
- 基本公式:(xn)′=nxn−1(x^n)' = nx^{n-1}(xn)′=nxn−1;(ex)′=ex(e^x)' = e^x(ex)′=ex;(sinx)′=cosx(\sin x)' = \cos x(sinx)′=cosx;(lnx)′=1x(\ln x)' = \frac{1}{x}(lnx)′=x1
当我们对导数再次求导,就得到高阶导数,它描述了变化率本身的变化情况。
- 二阶导数f′′(x)f''(x)f′′(x)是导数f′(x)f'(x)f′(x)的导数,表示斜率的变化率,几何上对应函数图像的曲率;
- 三阶导数f′′′(x)f'''(x)f′′′(x)描述曲率的变化率,以此类推。
例如,物体的位置函数s(t)s(t)s(t)的一阶导数是速度v(t)=s′(t)v(t) = s'(t)v(t)=s′(t),二阶导数是加速度a(t)=v′(t)=s′′(t)a(t) = v'(t) = s''(t)a(t)=v′(t)=s′′(t),三阶导数是加加速度( jerk ),用于衡量运动的平滑度。
微分
微分是导数的“孪生概念”,它用“线性增量”近似函数的“实际增量”,就像用直尺测量曲线的微小片段——虽然不是完全精确,但误差足够小,能大幅简化计算。对于函数y=f(x)y=f(x)y=f(x),当自变量xxx获得微小增量Δx\Delta xΔx(记为dx=Δxdx=\Delta xdx=Δx,称为自变量的微分)时,函数增量Δy=f(x+Δx)−f(x)\Delta y=f(x+\Delta x)-f(x)Δy=f(x+Δx)−f(x)的线性主部称为函数的微分,记作dydydy:
dy=f′(x)⋅dxdy = f'(x) \cdot dx dy=f′(x)⋅dx
这里的核心是“近似”:Δy=dy+o(Δx)\Delta y = dy + o(\Delta x)Δy=dy+o(Δx),其中o(Δx)o(\Delta x)o(Δx)是比Δx\Delta xΔx更小的“高阶无穷小”(当Δx\Delta xΔx趋近于0时,误差可以忽略)。例如,函数y=x2y=x^2y=x2的微分dy=2x⋅dxdy=2x \cdot dxdy=2x⋅dx,当x=1x=1x=1、dx=0.01dx=0.01dx=0.01时,Δy=(1.01)2−12=0.0201\Delta y=(1.01)^2-1^2=0.0201Δy=(1.01)2−12=0.0201,而dy=2×1×0.01=0.02dy=2 \times 1 \times 0.01=0.02dy=2×1×0.01=0.02,误差仅0.0001,几乎可以忽略。从图像上看,dydydy是函数在xxx处切线的“纵向增量”——当xxx增加dxdxdx时,切线上升(或下降)的高度就是dydydy,而Δy\Delta yΔy是曲线本身的纵向增量。微分的本质是“用切线代替曲线”,在微小范围内,这种替代的误差极小。
偏导数
在多元函数中,偏导数描述了函数在某一维度上的变化率,其他维度保持不变。这就像在三维山地地图上,只沿x轴或y轴方向测量坡度。对于二元函数f(x,y)f(x,y)f(x,y),它关于xxx的偏导数定义为:
∂f∂x=limΔx→0f(x+Δx,y)−f(x,y)Δx\frac{\partial f}{\partial x} = \lim_{\Delta x \to 0} \frac{f(x+\Delta x, y) - f(x,y)}{\Delta x} ∂x∂f=Δx→0limΔxf(x+Δx,y)−f(x,y)
计算时只需将其他变量视为常数,按一元函数求导法则计算。偏导数∂f∂x\frac{\partial f}{\partial x}∂x∂f表示用平面y=y0y = y_0y=y0切割曲面z=f(x,y)z = f(x,y)z=f(x,y)得到的曲线在该点的切线斜率,同理∂f∂y\frac{\partial f}{\partial y}∂y∂f对应x=x0x = x_0x=x0切片的斜率。方向导数扩展了偏导数的概念,它描述函数在任意指定方向上的变化率,而非局限于坐标轴方向。函数f(x,y)f(x,y)f(x,y)在点(x0,y0)(x_0,y_0)(x0,y0)处沿单位向量u=(cosθ,sinθ)\mathbf{u} = (\cos\theta, \sin\theta)u=(cosθ,sinθ)方向的方向导数为:
Duf(x0,y0)=limh→0f(x0+hcosθ,y0+hsinθ)−f(x0,y0)hD_{\mathbf{u}}f(x_0,y_0) = \lim_{h \to 0} \frac{f(x_0 + h\cos\theta, y_0 + h\sin\theta) - f(x_0,y_0)}{h} Duf(x0,y0)=h→0limhf(x0+hcosθ,y0+hsinθ)−f(x0,y0)
通过偏导数可简化计算:Duf=∂f∂xcosθ+∂f∂ysinθD_{\mathbf{u}}f = \frac{\partial f}{\partial x}\cos\theta + \frac{\partial f}{\partial y}\sin\thetaDuf=∂x∂fcosθ+∂y∂fsinθ,这本质是偏导数与方向向量的点积。
梯度
梯度是由所有偏导数组成的向量,它指向函数值增长最快的方向,其模长表示该方向上的变化率大小。对于多元函数f(x1,x2,...,xn)f(x_1,x_2,...,x_n)f(x1,x2,...,xn),梯度定义为:
∇f=(∂f∂x1,∂f∂x2,...,∂f∂xn)\nabla f = \left( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, ..., \frac{\partial f}{\partial x_n} \right) ∇f=(∂x1∂f,∂x2∂f,...,∂xn∂f)
梯度具有两个关键性质:
- 梯度方向是函数局部增长最快的方向;
- 梯度与函数的等高线(或等高面)垂直。
我会先新增“微分”章节(放在导数与高阶导数之间,符合“导数→微分→高阶导数”的逻辑链),再优化“积分”章节(补充不定积分定义、计算方法及更多机器学习/工程应用),保持通俗比喻、几何意义与实用场景结合的风格。
积分
积分是导数的逆运算,它计算函数在某一区间(或区域)上的“累积效应”——可以是面积、体积、总变化量,也可以是概率、期望等抽象的累积概念,是连接“局部变化”与“全局累积”的桥梁。
-
不定积分是“找原函数”的过程——已知函数f(x)f(x)f(x),寻找所有满足F′(x)=f(x)F'(x)=f(x)F′(x)=f(x)的函数F(x)F(x)F(x),记作:
∫f(x)dx=F(x)+C\int f(x)dx = F(x) + C ∫f(x)dx=F(x)+C
其中CCC是任意常数(称为积分常数),因为常数的导数为0,所以原函数不唯一,而是一个“函数族”。例如,∫x2dx=13x3+C\int x^2dx = \frac{1}{3}x^3 + C∫x2dx=31x3+C,因为(13x3+C)′=x2(\frac{1}{3}x^3 + C)' = x^2(31x3+C)′=x2。 -
定积分计算函数f(x)f(x)f(x)在区间[a,b][a,b][a,b]上的“净累积量”,定义为 Riemann 和的极限:
∫abf(x)dx=limn→∞∑i=1nf(xi∗)Δx\int_a^b f(x)dx = \lim_{n \to \infty} \sum_{i=1}^n f(x_i^*) \Delta x ∫abf(x)dx=n→∞limi=1∑nf(xi∗)Δx
其中Δx=b−an\Delta x = \frac{b-a}{n}Δx=nb−a是区间分割的小宽度,xi∗x_i^*xi∗是每个小区间内的任意点。定积分的几何意义是:函数图像与xxx轴在[a,b][a,b][a,b]区间内围成的“净面积”——xxx轴上方的面积为正,下方为负,总积分是正负面积的代数和。例如,∫−11xdx=0\int_{-1}^1 x dx = 0∫−11xdx=0(因为xxx在[−1,0][-1,0][−1,0]的负面积与[0,1][0,1][0,1]的正面积相等,相互抵消);∫01x2dx=13\int_0^1 x^2 dx = \frac{1}{3}∫01x2dx=31(抛物线y=x2y=x^2y=x2在[0,1][0,1][0,1]下的面积)。
下面这个定理是微积分的“灵魂”,它建立了不定积分与定积分的联系:若F(x)F(x)F(x)是f(x)f(x)f(x)的一个原函数(即F′(x)=f(x)F'(x)=f(x)F′(x)=f(x)),则:
∫abf(x)dx=F(b)−F(a)\int_a^b f(x)dx = F(b) - F(a) ∫abf(x)dx=F(b)−F(a)
例如,计算∫02x2dx\int_0^2 x^2 dx∫02x2dx,先找原函数F(x)=13x3F(x)=\frac{1}{3}x^3F(x)=31x3,再代入得F(2)−F(0)=83−0=83F(2)-F(0)=\frac{8}{3} - 0 = \frac{8}{3}F(2)−F(0)=38−0=38,无需再计算复杂的 Riemann 和,大幅简化了定积分计算。
概率论与数理统计
数理统计以概率论为理论基础,概率论通过数理统计落地应用;两者共同构成“处理不确定性问题”的框架,也是机器学习中“建模不确定性、从数据学习规律”的核心工具。
学科 | 研究对象 | 核心逻辑 | 通俗理解 |
---|---|---|---|
概率论 | 已知概率模型的随机现象 | 从“模型”推导“概率”(演绎推理) | 知道骰子公平(模型),算掷出6点的概率 |
数理统计 | 未知概率模型的观测数据 | 从“数据”推断“模型”(归纳推理) | 掷骰子100次得30次6点(数据),推断骰子是否公平 |
概率论
随机现象和概率模型
随机现象是指结果不可预知、但长期来看有规律的现象(比如掷骰子)。概率模型是指用数学方式描述随机现象的模型。一个标准的概率模型通常包含三部分:
- 样本空间Ω\OmegaΩ:表示有可能样本的集合,比如掷骰子:Ω={1,2,3,4,5,6}\Omega = \{1,2,3,4,5,6\}Ω={1,2,3,4,5,6}
- 事件:样本空间的子集。比如“掷出偶数”就是事件 A={2,4,6}A=\{2,4,6\}A={2,4,6}
- 概率函数PPP:给每个事件分配一个表示发生可能性的数值(即概率),比如AAA事件的概率就是P(A)P(A)P(A)
常见的概率模型如下:
- 古典概型(样本点有限且等可能)
P(A)=∣A∣∣Ω∣P(A) = \frac{|A|}{|\Omega|} P(A)=∣Ω∣∣A∣
比如掷骰子掷出偶数:P(A)=3/6=1/2P(A)=3/6=1/2P(A)=3/6=1/2。 - 几何概型(样本点连续且等可能)
P(A)=事件区域长度/面积/体积样本空间总长度/面积/体积P(A) = \frac{\text{事件区域长度/面积/体积}}{\text{样本空间总长度/面积/体积}} P(A)=样本空间总长度/面积/体积事件区域长度/面积/体积
概率的分类与计算
类型 | 说明 |
---|---|
先验概率 | 在得到任何新证据之前,某个事件发生的概率,记为P(A)P(A)P(A) |
条件概率 | 在BiB_iBi事件发生的前提下,AAA事件发生的概率,记为P(A∣Bi)P(A \mid B_i)P(A∣Bi) |
后验概率 | 在得到新证据 AAA 后,事件 BiB_iBi 发生的概率,记为P(Bi∣A)P(B_i \mid A)P(Bi∣A) |
先验概率的计算
先验概率往往可以通过概率模型直接计算,且有一些通用公式:对于样本空间Ω\OmegaΩ和概率函数PPP:
- P(Ω)=1P(\Omega)=1P(Ω)=1
- P(∅)=0P(\empty)=0P(∅)=0
- P(Ac)=1−P(A)P(A^c)=1-P(A)P(Ac)=1−P(A)
- P(A∪B)=P(A)+P(B)−P(A∩B)P(A\cup B)=P(A)+P(B)-P(A\cap B)P(A∪B)=P(A)+P(B)−P(A∩B)
- P(A∩B)=P(A∣B)P(B)=P(B∣A)P(A)P(A\cap B)=P(A|B)P(B)=P(B|A)P(A)P(A∩B)=P(A∣B)P(B)=P(B∣A)P(A)
- 若A,BA,BA,B互斥(不能同时发生),则P(A∩B)=0P(A\cap B)=0P(A∩B)=0
- 若A,BA,BA,B独立(一个事件发生不会影响另一个事件发生),则P(A∩B)=P(A)P(B)P(A\cap B)=P(A)P(B)P(A∩B)=P(A)P(B)
但有时直接计算比较困难,此时可以通过全概率公式进行计算:
P(A)=∑i=1nP(A∣Bi)⋅P(Bi)P(A) = \sum_{i=1}^{n} P(A \mid B_i) \cdot P(B_i) P(A)=i=1∑nP(A∣Bi)⋅P(Bi)
- B1,B2,...,BnB_1, B_2, ..., B_nB1,B2,...,Bn 是 互斥且完备事件(两两不重叠,且把所有可能情况覆盖)
- P(A∣Bi)P(A \mid B_i)P(A∣Bi) 是 条件概率:在 BiB_iBi 发生的前提下 AAA 发生的概率
用大白话讲全概率公式就是:
- 把事件 AAA 发生的情况分成多条路径(每条路径对应一个 BiB_iBi)
- 每条路径的概率 = “走到这条路径的概率” × “在这条路径下 AAA 发生的概率”
- 最后把所有路径的概率加起来
条件概率的计算
给定事件 BBB 已发生,事件AAA在此条件下 发生的概率:
P(A∣B)=P(A∩B)P(B),P(B)>0P(A|B) = \frac{P(A \cap B)}{P(B)}, \quad P(B)>0 P(A∣B)=P(B)P(A∩B),P(B)>0
如果 P(A∩B)=P(A)P(B)P(A \cap B) = P(A)P(B)P(A∩B)=P(A)P(B),则 AAA 与 BBB 独立。
后验概率的计算
后验概率可以通过贝叶斯公式计算:
P(Bi∣A)=P(A∣Bi)⋅P(Bi)P(A)P(B_i \mid A) = \frac{P(A \mid B_i) \cdot P(B_i)}{P(A)} P(Bi∣A)=P(A)P(A∣Bi)⋅P(Bi)
用大白话讲贝叶斯公式就是:
- 在知道 AAA 发生后,倒推是哪条路径(哪个 BiB_iBi)发生的概率
随机变量和概率分布
随机变量是用于将样本空间中的样本映射到实数的函数,记作XXX,对于样本空间Ω\OmegaΩ,样本ωi\omega_iωi:
X:Ω→RX(ωi)=xiX:\Omega \to \reals \\ X(\omega_i)=x_i X:Ω→RX(ωi)=xi
那么根据概率模型的不同,进而将随机变量划分为离散型随机变量和连续性随机变量。对于离散型随机变量,可以用 概率质量函数 (PMF) 来描述随机变量的概率分布,记作
p(x)(p(xi)≥0,且∑ip(xi)=1)p(x)(p(x_i)\ge0,且\sum_ip(x_i)=1) p(x)(p(xi)≥0,且i∑p(xi)=1)
那么:
P(X=xi)=p(xi)P(X=x_i)=p(x_i) P(X=xi)=p(xi)
对于连续型随机变量,可以用 概率密度函数 (PDF) 来描述随机变量的概率分布,记作:
f(x)(f(xi)=0且∫−∞∞f(x)dx=1)f(x)(f(x_i)=0且\int_{-\infty}^{\infty} f(x) dx = 1) f(x)(f(xi)=0且∫−∞∞f(x)dx=1)
那么:
P(a≤X≤b)=∫abf(x)dxP(a \leq X \leq b) = \int_a^b f(x) dx P(a≤X≤b)=∫abf(x)dx
概率分布就是随机变量的取值和对应概率(或概率密度)的整体描述。常用的概率分布如下:
- 离散型概率分布(PMF):
- 伯努利分布 Bernoulli§
P(X=x)={p,x=11−p,x=0,0≤p≤1P(X = x) = \begin{cases} p, & x=1\\ 1-p, & x=0 \end{cases}, \quad 0 \le p \le 1 P(X=x)={p,1−p,x=1x=0,0≤p≤1 - 二项分布 Binomial(n, p)
P(X=k)=(nk)pk(1−p)n−k,k=0,1,…,nP(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k=0,1,\dots,n P(X=k)=(kn)pk(1−p)n−k,k=0,1,…,n - 泊松分布 Poisson(λ)
P(X=k)=e−λλkk!,k=0,1,2,…P(X = k) = \frac{e^{-\lambda} \lambda^k}{k!}, \quad k=0,1,2,\dots P(X=k)=k!e−λλk,k=0,1,2,…
- 伯努利分布 Bernoulli§
- 连续型概率分布(PDF):
- 均匀分布 Uniform(a, b)
f(x)={1b−a,a≤x≤b0,其它f(x) = \begin{cases} \frac{1}{b-a}, & a \le x \le b\\ 0, & \text{其它} \end{cases} f(x)={b−a1,0,a≤x≤b其它 - 正态分布 Normal(μ, σ²)
f(x)=12πσ2exp[−(x−μ)22σ2],x∈Rf(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\Big[-\frac{(x-\mu)^2}{2\sigma^2}\Big], \quad x \in \mathbb{R} f(x)=2πσ21exp[−2σ2(x−μ)2],x∈R - 指数分布 Exponential(λ)
f(x)={λe−λx,x≥00,x<0f(x) = \begin{cases} \lambda e^{-\lambda x}, & x \ge 0\\ 0, & x < 0 \end{cases} f(x)={λe−λx,0,x≥0x<0
- 均匀分布 Uniform(a, b)
数字特征
数字特征就是用一个或多个数值,刻画随机变量或概率分布的整体特性。
-
数学期望:随机变量取值的加权平均,权重为概率
- 离散型:
E[X]=∑ixip(xi)E[X] = \sum_i x_i p(x_i) E[X]=i∑xip(xi) - 连续型:
E[X]=∫−∞∞xf(x)dxE[X] = \int_{-\infty}^{\infty} x f(x) dx E[X]=∫−∞∞xf(x)dx - 意义:分布的中心位置
- 离散型:
-
方差与标准差
- 方差:
Var(X)=E[(X−E[X])2]Var(X) = E[(X - E[X])^2] Var(X)=E[(X−E[X])2] - 离散型:
Var(X)=∑i(xi−E[X])2p(xi)Var(X) = \sum_i (x_i - E[X])^2 p(x_i) Var(X)=i∑(xi−E[X])2p(xi) - 连续型:
Var(X)=∫−∞∞(x−E[X])2f(x)dxVar(X) = \int_{-\infty}^{\infty} (x - E[X])^2 f(x) dx Var(X)=∫−∞∞(x−E[X])2f(x)dx - 标准差:σ=Var(X)\sigma = \sqrt{Var(X)}σ=Var(X)
- 意义:衡量数据或分布的离散程度
- 方差:
-
协方差
Cov(X,Y)=E[(X−E[X])(Y−E[Y])]\mathrm{Cov}(X, Y) = E\big[(X - E[X])(Y - E[Y])\big] Cov(X,Y)=E[(X−E[X])(Y−E[Y])]- 意义
- 方向性:
- Cov(X,Y)>0\mathrm{Cov}(X,Y) > 0Cov(X,Y)>0:XXX 增大时,YYY 往往也增大(正相关趋势)。
- Cov(X,Y)<0\mathrm{Cov}(X,Y) < 0Cov(X,Y)<0:XXX 增大时,YYY 往往减小(负相关趋势)。
- Cov(X,Y)=0\mathrm{Cov}(X,Y) = 0Cov(X,Y)=0:二者线性上无关(但可能存在非线性关系)。
- 大小问题:协方差的值依赖于变量的量纲(单位),比如身高(米)和体重(公斤),换单位结果就会变。所以协方差不方便直接比较。
- 方向性:
- 意义
-
相关系数
ρX,Y=Cov(X,Y)σXσY\rho_{X,Y} = \frac{\mathrm{Cov}(X,Y)}{\sigma_X \sigma_Y} ρX,Y=σXσYCov(X,Y)
其中 σX,σY\sigma_X, \sigma_YσX,σY 是标准差。- 意义
- 取值范围:[−1,1][-1, 1][−1,1]。
- ρ=1\rho = 1ρ=1:完全正线性相关(点都落在一条上升直线上)。
- ρ=−1\rho = -1ρ=−1:完全负线性相关。
- ρ=0\rho = 0ρ=0:无线性关系。
相关系数是无量纲的,更直观,常用于衡量两个变量之间的强弱关系。
- 意义
大数定律(LLN)
设 X1,X2,…,XnX_1, X_2, \dots, X_nX1,X2,…,Xn 是独立同分布随机变量,期望为 μ\muμ。那么当样本数 n→∞n \to \inftyn→∞ 时:
X‾n=1n∑i=1nXi⟶μ\overline{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \;\;\longrightarrow\;\; \mu Xn=n1i=1∑nXi⟶μ
即:
- 样本均值趋近于总体均值。
- 说明通过大量采样,平均值就能逼近真实期望。
中心极限定理(CLT)
设 X1,X2,…,XnX_1, X_2, \dots, X_nX1,X2,…,Xn 是独立同分布随机变量,期望为 μ\muμ,方差为 σ2\sigma^2σ2。当 nnn 很大时,标准化的样本均值:
Z=X‾n−μσ/nZ = \frac{\overline{X}_n - \mu}{\sigma/\sqrt{n}} Z=σ/nXn−μ
近似服从标准正态分布 N(0,1)N(0,1)N(0,1)。即:
- 不管原始分布是什么,只要样本数够大,样本均值的分布趋近正态分布。
- 这是正态分布“普适性”的来源。
数理统计
样本与统计量
-
样本与总体
- 总体(Population):研究对象的全体集合,通常用未知参数描述。
- 样本(Sample):从总体中抽取的若干观测值,用于推断总体特征。
- 样本量:样本中观测值的个数,记为 $n$。
-
统计量
- 统计量(Statistic):从样本计算得出的量,用于估计总体参数。
- 常见统计量:
- 样本均值:
X‾=1n∑i=1nXi\overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i X=n1i=1∑nXi - 样本方差:
S2=1n−1∑i=1n(Xi−X‾)2S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2 S2=n−11i=1∑n(Xi−X)2 - 样本标准差:
S=S2S = \sqrt{S^2} S=S2 - 样本协方差:
Cov(X,Y)=1n−1∑i=1n(Xi−X‾)(Yi−Y‾)\mathrm{Cov}(X,Y) = \frac{1}{n-1}\sum_{i=1}^{n} (X_i - \overline{X})(Y_i - \overline{Y}) Cov(X,Y)=n−11i=1∑n(Xi−X)(Yi−Y) - 样本相关系数:
rXY=Cov(X,Y)SXSYr_{XY} = \frac{\mathrm{Cov}(X,Y)}{S_X S_Y} rXY=SXSYCov(X,Y)
- 样本均值:
-
抽样分布
- 定义:统计量在重复抽样中形成的概率分布。
- 常用结论:
- 若总体服从正态 $N(\mu, \sigma^2)$,则
X‾∼N(μ,σ2n)\overline{X} \sim N\Big(\mu, \frac{\sigma^2}{n}\Big) X∼N(μ,nσ2) - 小样本方差比 $\chi^2$ 分布:
(n−1)S2σ2∼χn−12\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1} σ2(n−1)S2∼χn−12 - $t$ 分布:
T=X‾−μS/n∼tn−1T = \frac{\overline{X}-\mu}{S/\sqrt{n}} \sim t_{n-1} T=S/nX−μ∼tn−1 - 两个方差比 $F$ 分布:
F=S12/σ12S22/σ22∼Fn1−1,n2−1F = \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F_{n_1-1,n_2-1} F=S22/σ22S12/σ12∼Fn1−1,n2−1
- 若总体服从正态 $N(\mu, \sigma^2)$,则
参数估计
点估计
- 点估计:用样本统计量作为总体参数的估计值。
- 方法:
矩估计法
-
原理:总体矩 = 样本矩
-
例子:总体均值 $\mu$ 的估计
μ^=X‾=1n∑i=1nXi\hat{\mu} = \overline{X} = \frac{1}{n}\sum_{i=1}^{n} X_i μ^=X=n1i=1∑nXi
最大似然估计法(MLE)
-
定义:选择使样本观测结果出现概率最大的参数。
-
似然函数:
L(θ)=∏i=1nf(Xi;θ)L(\theta) = \prod_{i=1}^{n} f(X_i; \theta) L(θ)=i=1∏nf(Xi;θ)
-
对数似然:
ℓ(θ)=∑i=1nlogf(Xi;θ)\ell(\theta) = \sum_{i=1}^{n} \log f(X_i;\theta) ℓ(θ)=i=1∑nlogf(Xi;θ)
-
求解:
∂ℓ(θ)∂θ=0\frac{\partial \ell(\theta)}{\partial \theta} = 0 ∂θ∂ℓ(θ)=0
-
示例:正态分布 $N(\mu,\sigma^2)$ 的MLE
μ^=X‾,σ^2=1n∑i=1n(Xi−X‾)2\hat{\mu} = \overline{X}, \quad \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (X_i-\overline{X})^2 μ^=X,σ^2=n1i=1∑n(Xi−X)2
点估计性质
- 无偏性:$E[\hat{\theta}] = \theta$
- 一致性:$n \to \infty, \hat{\theta} \to \theta$
- 有效性:在所有无偏估计量中方差最小
- 最小方差无偏估计(MVUE):既无偏又方差最小
区间估计
-
置信区间:基于样本给出总体参数的区间估计
-
例子:
-
正态总体均值已知方差:
μ∈[X‾−zα/2σn,X‾+zα/2σn]\mu \in \Big[\overline{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \overline{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\Big] μ∈[X−zα/2nσ,X+zα/2nσ]
-
正态总体均值未知方差:
μ∈[X‾−tα/2,n−1Sn,X‾+tα/2,n−1Sn]\mu \in \Big[\overline{X}-t_{\alpha/2,n-1}\frac{S}{\sqrt{n}}, \overline{X}+t_{\alpha/2,n-1}\frac{S}{\sqrt{n}}\Big] μ∈[X−tα/2,n−1nS,X+tα/2,n−1nS]
-
假设检验
基本概念
- 原假设 $H_0$:假设成立
- 备择假设 $H_1$:与原假设对立
- 显著性水平 $\alpha$:拒绝 $H_0$ 的概率
- 检验统计量:根据样本构造
- $p$ 值:实际观测值对应统计量概率
常用检验
- Z 检验:大样本均值检验
- t 检验:小样本均值检验
- $\chi^2$ 检验:方差检验、列联表独立性检验
- F 检验:两总体方差比检验
- 单尾/双尾检验
检验步骤
- 提出 $H_0$ 与 $H_1$
- 选择显著性水平 $\alpha$
- 构造检验统计量
- 求 $p$ 值或临界值
- 作出结论
- 分析类型 I/II 错误与检验力
回归与相关分析
简单线性回归
-
模型:
Y=β0+β1X+ϵ,ϵ∼N(0,σ2)Y = \beta_0 + \beta_1 X + \epsilon, \quad \epsilon \sim N(0, \sigma^2) Y=β0+β1X+ϵ,ϵ∼N(0,σ2)
-
最小二乘估计:
β^1=∑i(Xi−X‾)(Yi−Y‾)∑i(Xi−X‾)2,β^0=Y‾−β^1X‾\hat{\beta}_1 = \frac{\sum_i (X_i-\overline{X})(Y_i-\overline{Y})}{\sum_i (X_i-\overline{X})^2}, \quad \hat{\beta}_0 = \overline{Y} - \hat{\beta}_1 \overline{X} β^1=∑i(Xi−X)2∑i(Xi−X)(Yi−Y),β^0=Y−β^1X
-
回归方程解释:
- $\beta_1$:每单位 $X$ 变化引起 $Y$ 的平均变化
- $\beta_0$:$X=0$ 时 $Y$ 的估计值
多元回归
-
模型:
Y=β0+β1X1+⋯+βpXp+ϵY = \beta_0 + \beta_1 X_1 + \dots + \beta_p X_p + \epsilon Y=β0+β1X1+⋯+βpXp+ϵ
-
矩阵形式:
β^=(XTX)−1XTY\hat{\beta} = (X^TX)^{-1}X^T Y β^=(XTX)−1XTY
相关系数与假设检验
-
Pearson 相关系数:
r=∑i(Xi−X‾)(Yi−Y‾)∑i(Xi−X‾)2∑i(Yi−Y‾)2r = \frac{\sum_i (X_i-\overline{X})(Y_i-\overline{Y})}{\sqrt{\sum_i (X_i-\overline{X})^2 \sum_i (Y_i-\overline{Y})^2}} r=∑i(Xi−X)2∑i(Yi−Y)2∑i(Xi−X)(Yi−Y)
-
检验 $H_0: \rho=0$ 可用 $t$ 检验:
t=rn−21−r2∼tn−2t = r \sqrt{\frac{n-2}{1-r^2}} \sim t_{n-2} t=r1−r2n−2∼tn−2
抽样分布与渐近理论
-
样本均值 $\overline{X}$ 的分布:
- 正态总体:精确分布
- 大样本(CLT):渐近正态
-
样本方差 $(n-1)S2/\sigma2 \sim \chi^2_{n-1}$
-
$t$ 分布来源:
T=X‾−μS/n∼tn−1T = \frac{\overline{X}-\mu}{S/\sqrt{n}} \sim t_{n-1} T=S/nX−μ∼tn−1
-
$F$ 分布来源:
F=S12/σ12S22/σ22∼Fn1−1,n2−1F = \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F_{n_1-1,n_2-1} F=S22/σ22S12/σ12∼Fn1−1,n2−1
-
渐近正态性与大样本理论(MLE的一致性与渐近正态性)
附录
集合
-
什么是集合
-
集合就是一些确定的、不同的元素组成的整体。
-
元素可以是数字、字母、对象等。
-
记法:
- 列举法:A={1,2,3}A = \{1,2,3\}A={1,2,3}
- 描述法:B={x∣x是偶数且 x<10}B = \{x \mid x \text{是偶数且 } x<10\}B={x∣x是偶数且 x<10}
-
-
集合的基本概念
- 子集:若集合 AAA 的所有元素都属于集合 BBB,则 AAA 是 BBB 的子集,记作 A⊆BA \subseteq BA⊆B
- 空集:没有元素的集合,记作 ∅\emptyset∅
- 全集:讨论问题时所有可能元素组成的集合
- 交集(∩):A∩BA \cap BA∩B,同时属于 AAA 和 BBB 的元素
- 并集(∪):A∪BA \cup BA∪B,属于 AAA 或 BBB 的元素
- 补集(c^cc):全集中不在 AAA 中的元素
-
集合的作用
-
在概率论中,事件就是样本空间的子集。
-
交并补操作帮助我们分析事件之间的关系。
-
示例:掷骰子,事件“偶数” A={2,4,6}A=\{2,4,6\}A={2,4,6},事件“>3” B={4,5,6}B=\{4,5,6\}B={4,5,6}
- A∩B={4,6}A \cap B = \{4,6\}A∩B={4,6}
- A∪B={2,4,5,6}A \cup B = \{2,4,5,6\}A∪B={2,4,5,6}
- Ac={1,3,5}A^c = \{1,3,5\}Ac={1,3,5}
-
排列组合
排列组合是 集合中的元素计数方法,解决“从集合中选取或排列元素,有多少种可能”的问题。
-
计数原则
- 加法原则:不同情况下只能选一个,把可能数加起来。
- 示例:抽一张牌,红桃或黑桃?红桃有 13 种,黑桃有 13 种 → 共 13+13=26 种
- 乘法原则:事件分步骤,每步有若干可能,把每步可能数乘起来。
- 示例:做密码,前两位数字 0~9 → 10×10=100 种
- 加法原则:不同情况下只能选一个,把可能数加起来。
-
排列
- 定义:从 n 个元素中选 r 个排成一列,顺序不同算不同。
- 公式:
A(n,r)=n!(n−r)!A(n,r) = \frac{n!}{(n-r)!} A(n,r)=(n−r)!n!- n!n!n! 是 n 的阶乘,表示 n 个元素全排列的数量
- 例子:从 {A,B,C,D}\{A,B,C,D\}{A,B,C,D} 中选 2 个排成一列:
- AB、BA、AC、CA、AD、DA、BC、CB、BD、DB、CD、DC → 共 12 种
- 用公式 A(4,2)=4∗3=12A(4,2)=4*3=12A(4,2)=4∗3=12
-
组合
- 定义:从 n 个元素中选 r 个,不考虑顺序。
- 公式:
C(n,r)=n!r!(n−r)!C(n,r) = \frac{n!}{r!(n-r)!} C(n,r)=r!(n−r)!n! - 例子:从 {A,B,C,D}\{A,B,C,D\}{A,B,C,D} 中选 2 个,不考虑顺序:
- {A,B}, {A,C}, {A,D}, {B,C}, {B,D}, {C,D} → 共 6 种
-
排列与组合的关系
A(n,r)=C(n,r)⋅r!A(n,r) = C(n,r) \cdot r! A(n,r)=C(n,r)⋅r!- 排列比组合多了顺序的考虑,乘上 r! 就是不同顺序的排列数