当前位置：首页 > news >正文

All in AI之二：数学体系的建立

news 2025/9/10 8:14:41

文章目录

前言
数和量
几何
函数
- 标量函数：标量到标量的映射
- 向量函数：标量/向量到向量的映射
线性代数
- 线性组合
- 范数
- 点积
- 线性变换与矩阵
- - 方阵与非方阵
  - 矩阵行与列的含义
- 矩阵乘法与线性变换的组合
- 矩阵的秩
微积分
- 极限
- 导数
- 微分
- 偏导数
- 梯度
- 积分
概率论与数理统计
- 概率论
- - 随机现象和概率模型
  - 概率的分类与计算
  - - 先验概率的计算
    - 条件概率的计算
    - 后验概率的计算
  - 随机变量和概率分布
  - 数字特征
  - 大数定律（LLN）
  - 中心极限定理（CLT）
- 数理统计
- - 样本与统计量
  - 参数估计
  - - 点估计
    - - 矩估计法
      - 最大似然估计法（MLE）
    - 点估计性质
    - 区间估计
  - 假设检验
  - - 基本概念
    - 常用检验
    - 检验步骤
  - 回归与相关分析
  - - 简单线性回归
    - 多元回归
    - 相关系数与假设检验
  - 抽样分布与渐近理论
附录
- 集合
- 排列组合

前言

机器学习是现代数学建模的极致形式，集成了函数、向量、微积分、概率论、统计学及其他扩展数学工具。如果你是计算机爱好者，那么机器学习是一个值得终身研究的学科，但学习机器学习的前提，必须要有一个良好的数学基础。作者已毕业三年且从未接触过机器学习，本文是作者花费了大量的事件和精力，浏览无数文本和视频总结出来的数学知识，如果你：

毕业很久了
想要学习机器学习
技术栈是Java

那么本文将十分适合你，它会构建你的实用数学体系。

数和量

在数学里，数只是“多少”的抽象，是孤立的符号；而量则是“世界的属性”，它需要用数去度量。根据量的特性，可分为两类核心形式：

标量：只有大小，没有方向，例如温度 36.5℃、质量 70kg。
向量：既有大小又有方向，例如位移、速度、力，可以表示为：
$v⃗=(v1,v2,…,vn)\vec{v} = (v_1, v_2, \dots, v_n)$

几何

几何的核心作用是为“数与量”提供空间直观表达——通过建立“空间位置”与“数字”的对应关系，将抽象的标量、向量转化为可感知的图形，其中“坐标系”是连接二者的关键桥梁。坐标系通过设定“原点”（基准点）与“坐标轴”（基准方向），为空间中任意点或向量分配唯一的“数字标签”，实现“几何对象→数值”的转化：

二维平面（如纸面）：常用直角坐标系，由x轴（水平方向）、y轴（垂直方向）及原点O(0,0)构成，任意点的位置可表示为坐标 $(x, y)$ （x为沿x轴到原点的距离，y为沿y轴到原点的距离）；
三维空间（如现实空间）：由x轴、y轴、z轴（垂直于平面的方向）及原点O(0,0,0)构成，任意点的位置可表示为坐标 $(x, y, z)$ 。

为简化向量的表示与运算，引入单位向量——模长为1、方向沿坐标轴正方向的向量，作为构建任意向量的“基本单元”：

二维空间：x轴单位向量 $i^=(1,0)\hat{i}=(1,0)$ ，y轴单位向量 $j^=(0,1)\hat{j}=(0,1)$ ；
三维空间：x轴单位向量 $i^=(1,0,0)\hat{i}=(1,0,0)$ ，y轴单位向量 $j^=(0,1,0)\hat{j}=(0,1,0)$ ，z轴单位向量 $k^=(0,0,1)\hat{k}=(0,0,1)$ 。

任意向量均可表示为单位向量的线性组合，几何意义是“沿各坐标轴方向的分量叠加”：

二维向量 $v⃗=(v1,v2)\vec{v}=(v_1, v_2)$ ： $v⃗=v1i^+v2j^\vec{v} = v_1\hat{i} + v_2\hat{j}$ （沿x轴 $i^\hat{i}$ 方向叠加 $v_1$ 倍，y轴 $j^\hat{j}$ 方向叠加 $v_2$ 倍）；
三维向量 $v⃗=(v1,v2,v3)\vec{v}=(v_1, v_2, v_3)$ ： $v⃗=v1i^+v2j^+v3k^\vec{v} = v_1\hat{i} + v_2\hat{j} + v_3\hat{k}$ 。

函数

现实世界中，量与量之间常存在“依赖变化”的关系（如位置随时间变化、温度随高度变化），函数是描述这种依赖关系的数学工具，本质是“输入到输出的确定性映射”，记为：
$y = f (x)$
其中 $x$ 为输入（自变量）， $y$ 为输出（因变量）， $f$ 为映射规则。结合“量的类型”，函数可分为标量函数与向量函数，二者的可视化与几何意义存在显著差异。

标量函数：标量到标量的映射

标量函数的输入与输出均为标量，形式为 $\mathbb{R}^1 \to \mathbb{R}^1$ （单变量）或 $\mathbb{R}^n \to \mathbb{R}^1$ （多变量），描述“一个标量量随其他标量量的变化”。

单变量标量函数（如 $y = f (x)$ ）
- 映射规则：单个输入 $x$ （如时间 $t$ ）对应单个输出 $y$ （如温度 $T$ ），例如 $T = f (t) = 20 + 5 t$ （表示温度随时间每增加1单位，升高5单位）；
- 几何可视化：以输入 $x$ 为横轴、输出 $y$ 为纵轴建立直角坐标系，函数图像为平面中的一条曲线，曲线的“斜率”反映输出随输入的变化率（如 $y=x^2$ 的抛物线，斜率随 $x$ 增大而增大，体现变化率递增）；
- 核心意义：曲线的形态直接反映函数的变化趋势（上升/下降、递增/递减、极值点等），例如 $y=sin⁡xy=\sin x$ 的正弦曲线，体现周期性变化。
多变量标量函数（如 $z = f (x, y)$ ）
- 映射规则：两个输入 $x, y$ （如平面中的横、纵坐标）对应单个输出 $z$ （如高度 $h$ ），例如 $\sqrt{x^2 + y^2}$ （表示平面中某点到原点的高度，图像为圆锥面）；
- 几何可视化：需建立三维坐标系（ $x$ 轴、 $y$ 轴为输入轴， $z$ 轴为输出轴），函数图像为三维空间中的一个曲面，曲面的“凹凸性”反映输出随输入的变化趋势；
- 核心意义：曲面的高度分布对应输出的大小，例如地形高度函数，曲面的峰值对应地形的最高点，谷值对应最低点。

向量函数：标量/向量到向量的映射

向量函数的输出为向量，形式为 $y⃗=f(x)\vec{y} = f(x)$ （标量输入）或 $y⃗=f(x⃗)\vec{y} = f(\vec{x})$ （向量输入），描述“向量量随其他量的变化”，几何上体现为“向量在空间中的运动或变换”。

标量输入的向量函数（如 $r⃗=f(t)\vec{r} = f(t)$ ）
- 映射规则：单个输入 $t$ （如时间）对应一个向量输出 $r⃗\vec{r}$ （如位置向量），例如平面圆周运动的位置函数 $r⃗(t)=(cos⁡t,sin⁡t)\vec{r}(t) = (\cos t, \sin t)$ （ $t$ 为时间， $r⃗(t)\vec{r}(t)$ 为平面中到原点距离为1的位置向量）；
- 几何可视化：以输入 $t$ 为参数，向量 $r⃗(t)\vec{r}(t)$ 的终点在空间中形成一条曲线（称为“参数曲线”），曲线的“切线方向”对应向量的变化方向（如圆周运动的切线方向为速度方向）；
- 核心意义：参数曲线直接反映向量的动态变化，例如 $r⃗(t)=(t,t2)\vec{r}(t) = (t, t^2)$ 的抛物线参数曲线，体现位置向量随时间沿抛物线轨迹运动。
向量输入的向量函数（如 $y⃗=f(x⃗)\vec{y} = f(\vec{x})$ ）
- 映射规则：向量输入 $x⃗\vec{x}$ （如平面中的位置向量 $(x, y)$ ）对应向量输出 $y⃗\vec{y}$ （如速度向量 $v⃗\vec{v}$ ），例如平面向量变换 $v⃗=f(x,y)=(2x,y)\vec{v} = f(x,y) = (2x, y)$ （表示将输入向量的x分量放大2倍，y分量不变）；
- 几何可视化：在同一坐标系中，将每个输入向量 $x⃗\vec{x}$ 的终点与输出向量 $y⃗\vec{y}$ 的终点相连，形成“向量场”（如电场、磁场中的向量分布），向量场的“密度”反映向量的大小分布；
- 核心意义：向量场体现空间中向量的整体分布规律，例如 $v⃗=(−y,x)\vec{v} = (-y, x)$ 的旋转向量场，所有向量沿逆时针方向旋转，体现圆周运动的速度分布。

线性代数

线性代数是一门专注于研究向量及向量间线性关系的数学学科。这里的“向量”不只是几何里的“有向线段”，而是被抽象成了一种通用数学对象——只要某个东西能满足“向量加法”（比如两个向量首尾相连求和）和“标量乘法”（比如给向量放大2倍）这两条基础规则，就能用线性代数的方法分析。这种抽象性打破了二维、三维空间的限制，向量可以存在于任意维度的空间中（比如机器学习里的“特征向量”，可能包含几十甚至上百个维度）。从数学定义来看，若一个集合 $V$ 满足：对任意向量 $u,v∈V\mathbf{u},\mathbf{v}\in V$ ，以及任意标量 $α,β∈F\alpha,\beta\in\mathbb{F}$ （ $F\mathbb{F}$ 代表数域，比如我们常用的实数域 $R\mathbb{R}$ 、复数域 $C\mathbb{C}$ ），都有
$αu+βv∈V,\alpha\mathbf{u}+\beta\mathbf{v}\in V,$
那么这个集合 $V$ 就被称为向量空间。简单说，向量空间就像一个“舞台”，在这里向量既能通过加法组合出新向量，也能通过标量（比如实数1.5、-2）缩放改变大小或方向，最终形成更多样的向量形式。

推荐学习资源：全球最好的线性代数教程

线性组合

线性组合是描述“如何用一组向量拼出新向量”的核心工具。比如我们有向量 $v1=(1,0)\mathbf{v}_1=(1,0)$ 和 $v2=(0,1)\mathbf{v}_2=(0,1)$ ，给它们分别乘上标量2和3，再相加得到 $v=2v1+3v2=(2,3)\mathbf{v}=2\mathbf{v}_1+3\mathbf{v}_2=(2,3)$ ，这就是一次线性组合。更一般地，假设在向量空间 $V$ 中有一组向量 $v1,…,vn\mathbf{v}_1,\dots,\mathbf{v}_n$ ，再给定一组来自数域 $F\mathbb{F}$ 的标量 $α1,…,αn\alpha_1,\dots,\alpha_n$ （可理解为“权重”，决定每个向量在组合中的贡献大小），那么向量
$v=α1v1+α2v2+⋯+αnvn\mathbf{v} = \alpha_1\mathbf{v}_1 + \alpha_2\mathbf{v}_2 + \cdots + \alpha_n\mathbf{v}_n$
就称为这组向量 ${v1,…,vn}\{\mathbf{v}_1,\dots,\mathbf{v}_n\}$ 的一个线性组合。若存在不全为零的标量 $α1,…,αn\alpha_1,\dots,\alpha_n$ ，使得线性组合的结果为零向量，即
$0=α1v1+⋯+αnvn,\mathbf{0} = \alpha_1\mathbf{v}_1 + \cdots + \alpha_n\mathbf{v}_n,$
则称这组向量 ${vi}\{\mathbf{v}_i\}$ 线性相关。通俗说，就是组里至少有一个向量“多余”，能被其他向量通过线性组合表示。若只有当所有 $αi=0\alpha_i=0$ 时，上述等式才成立，则称向量组 ${vi}\{\mathbf{v}_i\}$ 线性无关。这意味着组里每个向量都“不可替代”，无法被其他向量组合出来。如果向量空间 $V$ 中的一组向量 ${e1,…,en}\{\mathbf{e}_1,\dots,\mathbf{e}_n\}$ 满足两个条件：

线性无关（无冗余，每个基准都有用）；
能生成 $V$ 中的任意向量（即 $V$ 里所有向量都能唯一表示成这组向量的线性组合）；

那么这组向量就被称为 $V$ 的基（可理解为向量空间的“基本单位”，类似直角坐标系里的x轴、y轴单位向量）。在某个基下，向量的线性组合系数 $(a1,…,an)(a_1,\dots,a_n)$ 就是这个向量的坐标——就像在直角坐标系里，点 $(3, 4)$ 的坐标是x轴系数3、y轴系数4。坐标通常写成列向量的形式：
$v=[a1a2⋮an].\mathbf{v}= \begin{bmatrix} a_1\\a_2\\\vdots\\a_n \end{bmatrix}.$

基中向量的个数 $n$ 是固定的，它被称为向量空间 $V$ 的维度，记作：
$dim⁡V=n\dim V=n$
从几何角度理解维度，会更直观：

维度为1的空间：一条直线（比如数轴，只有“左右”一个方向）；
维度为2的空间：一个平面（比如直角坐标系，有“左右”“上下”两个方向）；
维度为3的空间：我们生活的三维空间（有“前后”“左右”“上下”三个方向）；
维度≥4的空间：虽然没有直观几何图像（比如机器学习中100维的特征空间），但代数性质和低维空间一致，比如100维向量的线性组合、坐标表示，和2维向量的规则完全相同。

范数

范数是用来量化向量“大小”或“长度”的数学概念——类似几何中线段的长度，但能适应任意维度的向量。不同场景需要不同的“衡量标准”，常见的有三种范数：

$L^2$ 范数（欧几里得范数）
这是最贴近日常认知的“长度”，对应两点之间的直线距离。对于向量 $v=(v1,v2,…,vn)\mathbf{v}=(v_1,v_2,\dots,v_n)$ ，其 $L^2$ 范数定义为：
$∥v∥2=∑i=1nvi2.\|\mathbf{v}\|_2 = \sqrt{\sum_{i=1}^n v_i^2}.$
比如二维向量 $(3, 4)$ 的 $L^2$ 范数是 $32+42=5\sqrt{3^2+4^2}=5$ ，正好是直角三角形的斜边长度；三维向量 $(1, 2, 2)$ 的 $L^2$ 范数是 $12+22+22=3\sqrt{1^2+2^2+2^2}=3$ ，对应空间中从原点到该点的直线距离。
$L^1$ 范数（曼哈顿范数）
得名于“曼哈顿街道的距离”——只能沿横竖方向走，不能走斜线。它的定义是向量各分量的绝对值之和：
$∥v∥1=∑i=1n∣vi∣.\|\mathbf{v}\|_1 = \sum_{i=1}^n |v_i|.$
比如二维向量 $(3, 4)$ 的 $L^1$ 范数是 $∣3∣ + ∣4∣ = 7$ ，对应从原点到该点“横走3格、竖走4格”的总路程；在机器学习中， $L^1$ 范数常用来让向量“稀疏化”（比如让特征向量中大部分分量为0，只保留关键特征）。
$L∞L^\infty$ 范数（最大范数）
反映向量各分量中的“最大绝对值”，可以理解为“最极端的分量大小”。定义为：
$∥v∥∞=max⁡1≤i≤n∣vi∣.\|\mathbf{v}\|_\infty = \max_{1\le i\le n} |v_i|.$
比如向量 $(3, 4, - 5)$ 的 $L∞L^\infty$ 范数是 $max\{|3|,|4|,|-5|\}=5$ ；在异常检测中， $L∞L^\infty$ 范数可用来识别“某一个特征特别极端”的数据（比如用户消费数据中，某一笔消费远高于其他消费）。

从几何上看，不同范数对应不同的“单位球”（即范数等于1的所有向量构成的图形）：

$L^2$ 范数的单位球：二维是圆形，三维是球体（最“圆润”的形状）；
$L^1$ 范数的单位球：二维是菱形，三维是菱面体（边角更尖锐）；
$L∞L^\infty$ 范数的单位球：二维是正方形，三维是立方体（边与坐标轴平行）。

点积

对于实数域 $Rn\mathbb{R}^n$ 中的两个向量 $u=(u1,…,un)\mathbf{u}=(u_1,\dots,u_n)$ 和 $v=(v1,…,vn)\mathbf{v}=(v_1,\dots,v_n)$ ，点积（也叫内积）是描述它们“方向关系”的核心运算。它有两种等价的定义方式，分别对应代数和几何意义：

代数定义：分量相乘再求和
点积的代数计算很直接，将两个向量对应分量相乘，再把所有结果相加：
$u⋅v=∑i=1nuivi.\mathbf{u}\cdot\mathbf{v} = \sum_{i=1}^n u_i v_i.$
比如 $u=(1,2,3)\mathbf{u}=(1,2,3)$ ， $v=(4,5,6)\mathbf{v}=(4,5,6)$ ，它们的点积是 $1×4+2×5+3×6=4+10+18=321\times4 + 2\times5 + 3\times6 = 4+10+18=32$ 。
几何定义：与夹角相关的“相似度”
点积的几何意义更直观，它和两个向量的夹角直接相关：
$u⋅v=∥u∥∥v∥cos⁡θ,\mathbf{u}\cdot\mathbf{v} = \|\mathbf{u}\|\,\|\mathbf{v}\| \cos\theta,$
其中 $θ\theta$ 是向量 $u\mathbf{u}$ 和 $v\mathbf{v}$ 的夹角， $∥⋅∥\|\cdot\|$ 通常用 $L^2$ 范数。这个公式告诉我们：点积的大小不仅和两个向量的“长度”有关，还和它们的“方向相似度”有关。

通过点积的结果，我们能快速判断两个向量的方向的相近程度：

若 $u⋅v>0\mathbf{u}\cdot\mathbf{v}>0$ ： $cos⁡θ>0\cos\theta>0$ ，说明夹角 $θ<90∘\theta<90^\circ$ ，两向量方向相近（比如 $u=(1,0)\mathbf{u}=(1,0)$ 和 $v=(1,1)\mathbf{v}=(1,1)$ ，点积为1>0，方向接近）；
若 $u⋅v=0\mathbf{u}\cdot\mathbf{v}=0$ ： $cos⁡θ=0\cos\theta=0$ ，说明夹角 $θ=90∘\theta=90^\circ$ ，两向量正交（即“垂直”，比如 $u=(1,0)\mathbf{u}=(1,0)$ 和 $v=(0,1)\mathbf{v}=(0,1)$ ，点积为0，相互独立）；
若 $u⋅v<0\mathbf{u}\cdot\mathbf{v}<0$ ： $cos⁡θ<0\cos\theta<0$ ，说明夹角 $θ>90∘\theta>90^\circ$ ，两向量方向相反（比如 $u=(1,0)\mathbf{u}=(1,0)$ 和 $v=(−1,1)\mathbf{v}=(-1,1)$ ，点积为-1<0，方向相反）。

我会在“线性变换与矩阵”章节中新增“方阵与非方阵的核心区别及意义”小节，围绕维度映射关系展开，结合几何直观和机器学习应用，明确两者在变换效果、核心属性（如行列式）、可逆性上的差异，确保逻辑衔接自然。

线性变换与矩阵

向量不仅能“静止”地存在于空间中，还会发生“运动”——比如旋转（将二维向量绕原点转30°）、缩放（将向量长度放大2倍）、投影（将三维向量“压平”到二维平面）、剪切（将矩形变成平行四边形）等。这些“运动”如果满足“线性规则”（即保持向量的线性组合关系），就称为线性变换，而矩阵就是描述线性变换的“数字工具”。线性变换是一种从一个向量空间映射到另一个向量空间的规则，通常记作 $V\to W$ （表示从向量空间 $V$ 映射到向量空间 $W$ ），它必须满足两个条件（保持线性组合）：对任意 $u,v∈V\mathbf{u},\mathbf{v}\in V$ 和任意标量 $α,β∈F\alpha,\beta\in\mathbb{F}$ ，有
$T(αu+βv)=αT(u)+βT(v).T(\alpha\mathbf{u}+\beta\mathbf{v})=\alpha T(\mathbf{u})+\beta T(\mathbf{v}).$
简单说，就是“先组合向量再变换”，和“先变换向量再组合”的结果完全一致。比如先将 $u\mathbf{u}$ 放大2倍、 $v\mathbf{v}$ 放大3倍再相加，再进行变换，与先分别变换 $u\mathbf{u}$ 和 $v\mathbf{v}$ ，再放大2倍、3倍相加，结果相同——这确保了线性变换不会破坏向量的线性关系。线性变换是抽象的（比如“旋转30°”是一个动作），而矩阵能将这个动作转化为具体的数字运算。要通过矩阵表示线性变换，需要先为原空间 $V$ 和目标空间 $W$ 选择“基”（就像给空间设定坐标系）：

设原空间 $V$ 的基为 ${e1,…,en}\{\mathbf{e}_1,\dots,\mathbf{e}_n\}$ （ $n$ 是 $V$ 的维度，比如二维空间的基 $e1=(1,0)\mathbf{e}_1=(1,0)$ ， $e2=(0,1)\mathbf{e}_2=(0,1)$ ）；
设目标空间 $W$ 的基为 ${f1,…,fm}\{\mathbf{f}_1,\dots,\mathbf{f}_m\}$ （ $m$ 是 $W$ 的维度，比如三维空间的基 $f1=(1,0,0)\mathbf{f}_1=(1,0,0)$ ， $f2=(0,1,0)\mathbf{f}_2=(0,1,0)$ ， $f3=(0,0,1)\mathbf{f}_3=(0,0,1)$ ）。

由于线性变换保持线性关系，原空间的每个基向量 $ei\mathbf{e}_i$ 经过变换后，得到的 $T(ei)T(\mathbf{e}_i)$ 一定能表示成目标空间基的线性组合（比如将二维基 $e1=(1,0)\mathbf{e}_1=(1,0)$ 旋转30°后，得到的向量能表示为三维基的组合 $T(e1)=cos⁡30∘⋅f1+sin⁡30∘⋅f2+0⋅f3T(\mathbf{e}_1)=\cos30^\circ\cdot\mathbf{f}_1 + \sin30^\circ\cdot\mathbf{f}_2 + 0\cdot\mathbf{f}_3$ ）：
$T(ei)=∑j=1majifj.T(\mathbf{e}_i) = \sum_{j=1}^m a_{ji}\,\mathbf{f}_j.$

我们将这些组合系数 $a_{ji}$ 按“列”收集起来，就能得到一个 $m$ 行、 $n$ 列的矩阵 $A∈Fm×nA\in\mathbb{F}^{m\times n}$ （行数对应目标空间维度，列数对应原空间维度）：
$\begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots\\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{bmatrix}.$

此时，原空间 $V$ 中的任意向量 $v\mathbf{v}$ （在基 ${e1,…,en}\{\mathbf{e}_1,\dots,\mathbf{e}_n\}$ 下表示为列向量），经过线性变换 $T$ 后的结果，就等于矩阵 $A$ 与向量 $v\mathbf{v}$ 的乘积——这就是“矩阵乘法对应线性变换”的核心逻辑：
$T(v)=Av.T(\mathbf{v}) = A\mathbf{v}.$

方阵与非方阵

矩阵的“行数是否等于列数”（即方阵/非方阵），直接决定了线性变换的维度映射关系，进而影响其几何效果和应用场景，这是线性代数中最关键的区分之一。

方阵（ $m = n$ ）：当矩阵的行数 $m$ 等于列数 $n$ 时，称为方阵（如 $2×22\times2$ 、 $3×33\times3$ 矩阵），对应的线性变换是 $V\to V$ ——即从 $n$ 维空间映射到同一维度的空间，本质是对空间进行“内部调整”，不改变空间的维度。方阵的核心作用是“在不压缩/扩展维度的前提下，调整空间内向量的位置、方向或大小”，常见几何效果包括：
- 旋转：如二维旋转矩阵 $R(θ)=[cos⁡θ−sin⁡θsin⁡θcos⁡θ]R(\theta)=\begin{bmatrix}\cos\theta & -\sin\theta \\ \sin\theta & \cos\theta\end{bmatrix}$ ，将二维平面内所有向量绕原点旋转 $θ\theta$ 角，空间仍为二维；
- 缩放：如三维缩放矩阵 $S=[k1000k2000k3]S=\begin{bmatrix}k_1 & 0 & 0 \\ 0 & k_2 & 0 \\ 0 & 0 & k_3\end{bmatrix}$ ，将向量在x轴放大 $k_1$ 倍、y轴放大 $k_2$ 倍、z轴放大 $k_3$ 倍，空间仍为三维；
- 剪切：如二维剪切矩阵 $C=[1k01]C=\begin{bmatrix}1 & k \\ 0 & 1\end{bmatrix}$ ，将矩形沿x轴方向“推斜”成平行四边形，空间维度不变；
- 镜像：如二维镜像矩阵 $M=[−1001]M=\begin{bmatrix}-1 & 0 \\ 0 & 1\end{bmatrix}$ ，将向量沿y轴翻转，空间仍为二维。
由于方阵作用于同维度空间，存在两个非方阵没有的核心属性：
- 行列式：描述线性变换对“空间体积”的缩放效果（二维是面积，三维是体积）。例如 $2×22\times2$ 矩阵 $[2003]\begin{bmatrix}2 & 0 \\ 0 & 3\end{bmatrix}$ 的行列式为 $6$ ，会将单位正方形（面积1）放大为 $2×32\times3$ 的矩形（面积6）；若行列式为负（如 $[−2003]\begin{bmatrix}-2 & 0 \\ 0 & 3\end{bmatrix}$ ，行列式=-6），则会同时翻转空间方向（如二维图形左右镜像）。
- 可逆性：若方阵的行列式 $det⁡(A)≠0\det(A)\neq0$ ，则存在“逆矩阵 $A^{-1}$ ”，能还原该线性变换（即 $A−1(Av)=vA^{-1}(A\mathbf{v})=\mathbf{v}$ ）。例如旋转矩阵的逆矩阵是“反向旋转矩阵”（旋转 $−θ-\theta$ 角），可将旋转后的向量还原为原向量。
非方阵（ $m≠nm\neq n$ ）：当矩阵的行数 $m$ 不等于列数 $n$ 时，称为非方阵，对应的线性变换是 $V\to W$ （ $dim⁡V=n≠m=dim⁡W\dim V=n\neq m=\dim W$ ），本质是“在不同维度空间之间转换”，必然改变空间的维度。非方阵分为两种情况： $m > n$ （高维映射）和 $m < n$ （低维映射）。
- $m > n$ （如 $3×23\times2$ 矩阵）：低维嵌入高维，线性变换是 $\mathbb{F}^n\to\mathbb{F}^m$ （ $m > n$ ），几何意义是将 $n$ 维空间“嵌入”到 $m$ 维空间的一个子空间中，新增“冗余维度”但不改变原空间的形态。
- $m < n$ （如 $2×32\times3$ 矩阵）：高维投影到低维
  线性变换是 $\mathbb{F}^n\to\mathbb{F}^m$ （ $m < n$ ），几何意义是将 $n$ 维空间“压缩”或“投影”到 $m$ 维空间，会丢失高维空间的部分信息（丢失的维度无法还原）。
非方阵的关键特点：无行列式、不可逆
- 无行列式：由于维度改变，“体积缩放”的概念不再成立（如将三维体积压缩到二维面积，无法用一个数值描述缩放效果），因此非方阵没有行列式；
- 不可逆：丢失的维度信息无法通过任何矩阵还原。例如将三维向量 $(x, y, z)$ 投影为 $(x, y)$ 后，无法从 $(x, y)$ 反推出原向量的 $z$ 值，因此非方阵不存在逆矩阵。

矩阵行与列的含义

矩阵的行和列承载着不同的几何意义，结合线性变换能更直观地理解：

矩阵的每一列对应原空间基向量经过变换后的结果。以二维旋转矩阵为例：
$R(θ)=[cos⁡θ−sin⁡θsin⁡θcos⁡θ]R(\theta)= \begin{bmatrix} \cos\theta & -\sin\theta\\ \sin\theta & \cos\theta \end{bmatrix}$
第一列 $[cos⁡θsin⁡θ]\begin{bmatrix}\cos\theta \\ \sin\theta\end{bmatrix}$ 是原x轴单位向量 $(1, 0)$ 旋转 $θ\theta$ 后的新方向，第二列 $[−sin⁡θcos⁡θ]\begin{bmatrix}-\sin\theta \\ \cos\theta\end{bmatrix}$ 是原y轴单位向量 $(0, 1)$ 旋转后的新方向。这意味着：矩阵的列向量定义了变换后空间的新“坐标轴”，所有向量都会跟随这些坐标轴的变化而运动。
矩阵的每一行则对应目标空间中坐标的测量规则。当计算 $Av=yA\mathbf{v}=\mathbf{y}$ 时，结果向量 $y\mathbf{y}$ 的第 $i$ 个分量 $y_i$ 等于矩阵 $A$ 的第 $i$ 行与原向量 $v\mathbf{v}$ 的点积：
$yi=∑k=1naikvk=rowi(A)⋅vy_i = \sum_{k=1}^n a_{ik}v_k = \text{row}_i(A) \cdot \mathbf{v}$
这相当于用行向量作为“标尺”，测量原向量在新坐标轴上的投影长度。例如，三维到二维的投影矩阵：
$\begin{bmatrix} 1 & 0 & 0\\ 0 & 1 & 0 \end{bmatrix}$
第一行 $(1, 0, 0)$ 测量向量在x轴的投影，第二行 $(0, 1, 0)$ 测量y轴投影，最终将三维向量“压平”到xy平面。

矩阵乘法与线性变换的组合

当多个线性变换依次作用时，其效果可以用矩阵乘法表示，这就是变换的复合。若先进行变换 $T_1$ （对应矩阵 $A$ ），再进行变换 $T_2$ （对应矩阵 $B$ ），则最终结果等价于单个变换 $T2(T1(v))T_2(T_1(\mathbf{v}))$ ，对应的矩阵为 $B⋅AB\cdot A$ 。矩阵乘法的顺序至关重要，因为线性变换的作用顺序会影响结果。例如：

先旋转90°（矩阵 $R$ ）再缩放2倍（矩阵 $S$ ）：结果矩阵为 $S⋅RS\cdot R$ ；
先缩放2倍再旋转90°：结果矩阵为 $R⋅SR\cdot S$ ；
这两种操作会得到不同的变换效果。数学上表现为矩阵乘法不满足交换律： $A⋅B≠B⋅AA\cdot B \neq B\cdot A$ 。

矩阵的秩

矩阵的秩（rank）定义为其列向量中线性无关向量的最大数量，记作 $rank(A)\text{rank}(A)$ 。它反映了线性变换后空间的“有效维度”——即变换后向量张成的空间（像空间）的维度。

若 $rank(A)=n\text{rank}(A) = n$ （ $n$ 为原空间维度），称矩阵满秩，此时线性变换不会压缩空间（如旋转、缩放）；
若 $rank(A)<n\text{rank}(A) < n$ ，称矩阵降秩，此时变换会将空间压缩到更低维度（如投影变换将三维压缩到二维）。

例如，矩阵 $\begin{bmatrix}1 & 2 \\ 2 & 4\end{bmatrix}$ 的列向量线性相关（第二列是第一列的2倍），其秩为1，对应的变换会将所有二维向量压缩到一条直线上。

微积分

微积分是用来研究函数的工具。

全球最好的微积分视频

极限

微积分的所有概念都建立在极限的基础上，它描述了变量在无限逼近某个状态时的终极趋势。就像数列1/2, 1/4, 1/8…不断靠近0却永远不到达0一样，极限让我们能够精确描述"无限接近"这种抽象的动态过程。对于函数 $f (x)$ ，当自变量 $x$ 无限接近 $a$ （但不等于 $a$ ）时，如果函数值 $f (x)$ 无限接近某个常数 $L$ ，我们就称 $L$ 是 $f (x)$ 在 $x$ 趋近于 $a$ 时的极限，记作：
$lim⁡x→af(x)=L\lim_{x \to a} f(x) = L$
这个定义包含两层含义：

自变量 $x$ 可以从 $a$ 的左侧（ $\to a^-$ ）或右侧（ $\to a^+$ ）趋近；
无论 $x$ 以何种方式趋近于 $a$ ，函数值都必须稳定地逼近 $L$ 。

几何上，这相当于观察函数图像在 $x = a$ 附近的走势。例如，函数 $f(x)=x2−1x−1f(x)=\frac{x^2-1}{x-1}$ 在 $x = 1$ 处无定义，但当 $x$ 无限接近1时，函数值无限接近2，因此 $lim⁡x→1f(x)=2\lim_{x \to 1} f(x)=2$ 。

导数

导数是微积分的核心概念，它量化了函数在某一点的瞬时变化率，就像用放大镜观察函数图像在该点的"倾斜程度"。函数 $f (x)$ 在点 $x_0$ 处的导数定义为极限：
$f′(x0)=lim⁡Δx→0f(x0+Δx)−f(x0)Δxf'(x_0) = \lim_{\Delta x \to 0} \frac{f(x_0+\Delta x) - f(x_0)}{\Delta x}$
几何意义是函数图像在 $x_0, f(x_0))$ 处切线的斜率。当 $Δx\Delta x$ 趋近于0时，割线逐渐变成切线，平均变化率升级为瞬时变化率。基本求导法则：

四则运算： $\pm v)' = u' \pm v'$ ； $(uv)^{'} = u^{'} v + u v^{'}$ ； $(uv)′=u′v−uv′v2\left(\frac{u}{v}\right)' = \frac{u'v - uv'}{v^2}$
链式法则：若 $y = f (g (x))$ ，则 $\cdot g'(x)$ （复合函数求导的核心）
基本公式： $x^n)' = nx^{n-1}$ ； $e^x)' = e^x$ ； $(sin⁡x)′=cos⁡x(\sin x)' = \cos x$ ； $(ln⁡x)′=1x(\ln x)' = \frac{1}{x}$

当我们对导数再次求导，就得到高阶导数，它描述了变化率本身的变化情况。

二阶导数 $f^{''} (x)$ 是导数 $f^{'} (x)$ 的导数，表示斜率的变化率，几何上对应函数图像的曲率；
三阶导数 $f^{'''} (x)$ 描述曲率的变化率，以此类推。

例如，物体的位置函数 $s (t)$ 的一阶导数是速度 $v (t) = s^{'} (t)$ ，二阶导数是加速度 $a (t) = v^{'} (t) = s^{''} (t)$ ，三阶导数是加加速度（ jerk ），用于衡量运动的平滑度。

微分

微分是导数的“孪生概念”，它用“线性增量”近似函数的“实际增量”，就像用直尺测量曲线的微小片段——虽然不是完全精确，但误差足够小，能大幅简化计算。对于函数 $y = f (x)$ ，当自变量 $x$ 获得微小增量 $Δx\Delta x$ （记为 $dx=Δxdx=\Delta x$ ，称为自变量的微分）时，函数增量 $Δy=f(x+Δx)−f(x)\Delta y=f(x+\Delta x)-f(x)$ 的线性主部称为函数的微分，记作 $d y$ ：
$\cdot dx$
这里的核心是“近似”： $Δy=dy+o(Δx)\Delta y = dy + o(\Delta x)$ ，其中 $o(Δx)o(\Delta x)$ 是比 $Δx\Delta x$ 更小的“高阶无穷小”（当 $Δx\Delta x$ 趋近于0时，误差可以忽略）。例如，函数 $y=x^2$ 的微分 $\cdot dx$ ，当 $x = 1$ 、 $d x = 0.01$ 时， $Δy=(1.01)2−12=0.0201\Delta y=(1.01)^2-1^2=0.0201$ ，而 $\times 1 \times 0.01=0.02$ ，误差仅0.0001，几乎可以忽略。从图像上看， $d y$ 是函数在 $x$ 处切线的“纵向增量”——当 $x$ 增加 $d x$ 时，切线上升（或下降）的高度就是 $d y$ ，而 $Δy\Delta y$ 是曲线本身的纵向增量。微分的本质是“用切线代替曲线”，在微小范围内，这种替代的误差极小。

偏导数

在多元函数中，偏导数描述了函数在某一维度上的变化率，其他维度保持不变。这就像在三维山地地图上，只沿x轴或y轴方向测量坡度。对于二元函数 $f (x, y)$ ，它关于 $x$ 的偏导数定义为：
$∂f∂x=lim⁡Δx→0f(x+Δx,y)−f(x,y)Δx\frac{\partial f}{\partial x} = \lim_{\Delta x \to 0} \frac{f(x+\Delta x, y) - f(x,y)}{\Delta x}$
计算时只需将其他变量视为常数，按一元函数求导法则计算。偏导数 $∂f∂x\frac{\partial f}{\partial x}$ 表示用平面 $y = y_0$ 切割曲面 $z = f (x, y)$ 得到的曲线在该点的切线斜率，同理 $∂f∂y\frac{\partial f}{\partial y}$ 对应 $x = x_0$ 切片的斜率。方向导数扩展了偏导数的概念，它描述函数在任意指定方向上的变化率，而非局限于坐标轴方向。函数 $f (x, y)$ 在点 $x_0,y_0)$ 处沿单位向量 $u=(cos⁡θ,sin⁡θ)\mathbf{u} = (\cos\theta, \sin\theta)$ 方向的方向导数为：
$Duf(x0,y0)=lim⁡h→0f(x0+hcos⁡θ,y0+hsin⁡θ)−f(x0,y0)hD_{\mathbf{u}}f(x_0,y_0) = \lim_{h \to 0} \frac{f(x_0 + h\cos\theta, y_0 + h\sin\theta) - f(x_0,y_0)}{h}$
通过偏导数可简化计算： $Duf=∂f∂xcos⁡θ+∂f∂ysin⁡θD_{\mathbf{u}}f = \frac{\partial f}{\partial x}\cos\theta + \frac{\partial f}{\partial y}\sin\theta$ ，这本质是偏导数与方向向量的点积。

梯度

梯度是由所有偏导数组成的向量，它指向函数值增长最快的方向，其模长表示该方向上的变化率大小。对于多元函数 $f(x_1,x_2,...,x_n)$ ，梯度定义为：
$∇f=(∂f∂x1,∂f∂x2,...,∂f∂xn)\nabla f = \left( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, ..., \frac{\partial f}{\partial x_n} \right)$
梯度具有两个关键性质：

梯度方向是函数局部增长最快的方向；
梯度与函数的等高线（或等高面）垂直。

我会先新增“微分”章节（放在导数与高阶导数之间，符合“导数→微分→高阶导数”的逻辑链），再优化“积分”章节（补充不定积分定义、计算方法及更多机器学习/工程应用），保持通俗比喻、几何意义与实用场景结合的风格。

积分

积分是导数的逆运算，它计算函数在某一区间（或区域）上的“累积效应”——可以是面积、体积、总变化量，也可以是概率、期望等抽象的累积概念，是连接“局部变化”与“全局累积”的桥梁。

不定积分是“找原函数”的过程——已知函数 $f (x)$ ，寻找所有满足 $F^{'} (x) = f (x)$ 的函数 $F (x)$ ，记作：
$∫f(x)dx=F(x)+C\int f(x)dx = F(x) + C$
其中 $C$ 是任意常数（称为积分常数），因为常数的导数为0，所以原函数不唯一，而是一个“函数族”。例如， $∫x2dx=13x3+C\int x^2dx = \frac{1}{3}x^3 + C$ ，因为 $(13x3+C)′=x2(\frac{1}{3}x^3 + C)' = x^2$ 。
定积分计算函数 $f (x)$ 在区间 $[a, b]$ 上的“净累积量”，定义为 Riemann 和的极限：
$∫abf(x)dx=lim⁡n→∞∑i=1nf(xi∗)Δx\int_a^b f(x)dx = \lim_{n \to \infty} \sum_{i=1}^n f(x_i^*) \Delta x$
其中 $Δx=b−an\Delta x = \frac{b-a}{n}$ 是区间分割的小宽度， $x_i^*$ 是每个小区间内的任意点。定积分的几何意义是：函数图像与 $x$ 轴在 $[a, b]$ 区间内围成的“净面积”—— $x$ 轴上方的面积为正，下方为负，总积分是正负面积的代数和。例如， $∫−11xdx=0\int_{-1}^1 x dx = 0$ （因为 $x$ 在 $[- 1, 0]$ 的负面积与 $[0, 1]$ 的正面积相等，相互抵消）； $∫01x2dx=13\int_0^1 x^2 dx = \frac{1}{3}$ （抛物线 $y=x^2$ 在 $[0, 1]$ 下的面积）。

下面这个定理是微积分的“灵魂”，它建立了不定积分与定积分的联系：若 $F (x)$ 是 $f (x)$ 的一个原函数（即 $F^{'} (x) = f (x)$ ），则：
$∫abf(x)dx=F(b)−F(a)\int_a^b f(x)dx = F(b) - F(a)$
例如，计算 $∫02x2dx\int_0^2 x^2 dx$ ，先找原函数 $F(x)=13x3F(x)=\frac{1}{3}x^3$ ，再代入得 $F(2)−F(0)=83−0=83F(2)-F(0)=\frac{8}{3} - 0 = \frac{8}{3}$ ，无需再计算复杂的 Riemann 和，大幅简化了定积分计算。

概率论与数理统计

数理统计以概率论为理论基础，概率论通过数理统计落地应用；两者共同构成“处理不确定性问题”的框架，也是机器学习中“建模不确定性、从数据学习规律”的核心工具。

学科	研究对象	核心逻辑	通俗理解
概率论	已知概率模型的随机现象	从“模型”推导“概率”（演绎推理）	知道骰子公平（模型），算掷出6点的概率
数理统计	未知概率模型的观测数据	从“数据”推断“模型”（归纳推理）	掷骰子100次得30次6点（数据），推断骰子是否公平

概率论

随机现象和概率模型

随机现象是指结果不可预知、但长期来看有规律的现象（比如掷骰子）。概率模型是指用数学方式描述随机现象的模型。一个标准的概率模型通常包含三部分：

样本空间 $Ω\Omega$ ：表示有可能样本的集合，比如掷骰子： $Ω={1,2,3,4,5,6}\Omega = \{1,2,3,4,5,6\}$
事件：样本空间的子集。比如“掷出偶数”就是事件 $A=\{2,4,6\}$
概率函数 $P$ ：给每个事件分配一个表示发生可能性的数值（即概率），比如 $A$ 事件的概率就是 $P (A)$

常见的概率模型如下：

古典概型（样本点有限且等可能）
$\frac{|A|}{|\Omega|}$
比如掷骰子掷出偶数： $P (A) = 3/6 = 1/2$ 。
几何概型（样本点连续且等可能）
$\frac{\text{事件区域长度/面积/体积}}{\text{样本空间总长度/面积/体积}}$

概率的分类与计算

类型	说明
先验概率	在得到任何新证据之前，某个事件发生的概率，记为 $P (A)$
条件概率	在 $B_i$ 事件发生的前提下， $A$ 事件发生的概率，记为 $\mid B_i)$
后验概率	在得到新证据 $A$ 后，事件 $B_i$ 发生的概率，记为 $P(Bi∣A)P(B_i \mid A)$

先验概率的计算

先验概率往往可以通过概率模型直接计算，且有一些通用公式：对于样本空间 $Ω\Omega$ 和概率函数 $P$ ：

$P(Ω)=1P(\Omega)=1$
$P(∅)=0P(\empty)=0$
$P(A^c)=1-P(A)$
$P(A∪B)=P(A)+P(B)−P(A∩B)P(A\cup B)=P(A)+P(B)-P(A\cap B)$
$P(A∩B)=P(A∣B)P(B)=P(B∣A)P(A)P(A\cap B)=P(A|B)P(B)=P(B|A)P(A)$
- 若 $A, B$ 互斥（不能同时发生），则 $P(A∩B)=0P(A\cap B)=0$
- 若 $A, B$ 独立（一个事件发生不会影响另一个事件发生），则 $P(A∩B)=P(A)P(B)P(A\cap B)=P(A)P(B)$

但有时直接计算比较困难，此时可以通过全概率公式进行计算：
$\sum_{i=1}^{n} P(A \mid B_i) \cdot P(B_i)$

$B_1, B_2, ..., B_n$ 是 互斥且完备事件（两两不重叠，且把所有可能情况覆盖）
$\mid B_i)$ 是 条件概率：在 $B_i$ 发生的前提下 $A$ 发生的概率

用大白话讲全概率公式就是：

把事件 $A$ 发生的情况分成多条路径（每条路径对应一个 $B_i$ ）
每条路径的概率 = “走到这条路径的概率” × “在这条路径下 $A$ 发生的概率”
最后把所有路径的概率加起来

条件概率的计算

给定事件 $B$ 已发生，事件 $A$ 在此条件下发生的概率：
$\frac{P(A \cap B)}{P(B)}, \quad P(B)>0$
如果 $\cap B) = P(A)P(B)$ ，则 $A$ 与 $B$ 独立。

后验概率的计算

后验概率可以通过贝叶斯公式计算：

$P(Bi∣A)=P(A∣Bi)⋅P(Bi)P(A)P(B_i \mid A) = \frac{P(A \mid B_i) \cdot P(B_i)}{P(A)}$

用大白话讲贝叶斯公式就是：

在知道 $A$ 发生后，倒推是哪条路径（哪个 $B_i$ ）发生的概率

随机变量和概率分布

随机变量是用于将样本空间中的样本映射到实数的函数，记作 $X$ ，对于样本空间 $Ω\Omega$ ，样本 $ωi\omega_i$ ：
$X:Ω→RX(ωi)=xiX:\Omega \to \reals \\ X(\omega_i)=x_i$
那么根据概率模型的不同，进而将随机变量划分为离散型随机变量和连续性随机变量。对于离散型随机变量，可以用 概率质量函数 (PMF) 来描述随机变量的概率分布，记作
$p(x)(p(xi)≥0,且∑ip(xi)=1)p(x)(p(x_i)\ge0,且\sum_ip(x_i)=1)$
那么：
$P(X=x_i)=p(x_i)$
对于连续型随机变量，可以用 概率密度函数 (PDF) 来描述随机变量的概率分布，记作：
$f(x)(f(xi)=0且∫−∞∞f(x)dx=1)f(x)(f(x_i)=0且\int_{-\infty}^{\infty} f(x) dx = 1)$
那么：
$\leq X \leq b) = \int_a^b f(x) dx$

概率分布就是随机变量的取值和对应概率（或概率密度）的整体描述。常用的概率分布如下：

离散型概率分布（PMF）：
1. 伯努利分布 Bernoulli§
  $\begin{cases} p, & x=1\\ 1-p, & x=0 \end{cases}, \quad 0 \le p \le 1$
2. 二项分布 Binomial(n, p)
  $\binom{n}{k} p^k (1-p)^{n-k}, \quad k=0,1,\dots,n$
3. 泊松分布 Poisson(λ)
  $\frac{e^{-\lambda} \lambda^k}{k!}, \quad k=0,1,2,\dots$
连续型概率分布（PDF）：
1. 均匀分布 Uniform(a, b)
  $\begin{cases} \frac{1}{b-a}, & a \le x \le b\\ 0, & \text{其它} \end{cases}$
2. 正态分布 Normal(μ, σ²)
  $\frac{1}{\sqrt{2\pi\sigma^2}} \exp\Big[-\frac{(x-\mu)^2}{2\sigma^2}\Big], \quad x \in \mathbb{R}$
3. 指数分布 Exponential(λ)
  $\begin{cases} \lambda e^{-\lambda x}, & x \ge 0\\ 0, & x < 0 \end{cases}$

数字特征

数字特征就是用一个或多个数值，刻画随机变量或概率分布的整体特性。

数学期望：随机变量取值的加权平均，权重为概率
- 离散型：
  $\sum_i x_i p(x_i)$
- 连续型：
  $\int_{-\infty}^{\infty} x f(x) dx$
- 意义：分布的中心位置
方差与标准差
- 方差：
  $Var(X) = E[(X - E[X])^2]$
- 离散型：
  $\sum_i (x_i - E[X])^2 p(x_i)$
- 连续型：
  $\int_{-\infty}^{\infty} (x - E[X])^2 f(x) dx$
- 标准差： $σ=Var(X)\sigma = \sqrt{Var(X)}$
- 意义：衡量数据或分布的离散程度
协方差
$Cov(X,Y)=E[(X−E[X])(Y−E[Y])]\mathrm{Cov}(X, Y) = E\big[(X - E[X])(Y - E[Y])\big]$
- 意义
  - 方向性：
    - $Cov(X,Y)>0\mathrm{Cov}(X,Y) > 0$ ： $X$ 增大时， $Y$ 往往也增大（正相关趋势）。
    - $Cov(X,Y)<0\mathrm{Cov}(X,Y) < 0$ ： $X$ 增大时， $Y$ 往往减小（负相关趋势）。
    - $Cov(X,Y)=0\mathrm{Cov}(X,Y) = 0$ ：二者线性上无关（但可能存在非线性关系）。
  - 大小问题：协方差的值依赖于变量的量纲（单位），比如身高（米）和体重（公斤），换单位结果就会变。所以协方差不方便直接比较。
相关系数
$ρX,Y=Cov(X,Y)σXσY\rho_{X,Y} = \frac{\mathrm{Cov}(X,Y)}{\sigma_X \sigma_Y}$
其中 $σX,σY\sigma_X, \sigma_Y$ 是标准差。
- 意义
  - 取值范围： $[- 1, 1]$ 。
  - $ρ=1\rho = 1$ ：完全正线性相关（点都落在一条上升直线上）。
  - $ρ=−1\rho = -1$ ：完全负线性相关。
  - $ρ=0\rho = 0$ ：无线性关系。
相关系数是无量纲的，更直观，常用于衡量两个变量之间的强弱关系。

大数定律（LLN）

设 $X1,X2,…,XnX_1, X_2, \dots, X_n$ 是独立同分布随机变量，期望为 $μ\mu$ 。那么当样本数 $\to \infty$ 时：

$X‾n=1n∑i=1nXi⟶μ\overline{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \;\;\longrightarrow\;\; \mu$

即：

样本均值趋近于总体均值。
说明通过大量采样，平均值就能逼近真实期望。

中心极限定理（CLT）

设 $X1,X2,…,XnX_1, X_2, \dots, X_n$ 是独立同分布随机变量，期望为 $μ\mu$ ，方差为 $σ2\sigma^2$ 。当 $n$ 很大时，标准化的样本均值：

$\frac{\overline{X}_n - \mu}{\sigma/\sqrt{n}}$

近似服从标准正态分布 $N (0, 1)$ 。即：

不管原始分布是什么，只要样本数够大，样本均值的分布趋近正态分布。
这是正态分布“普适性”的来源。

数理统计

样本与统计量

样本与总体
- 总体（Population）：研究对象的全体集合，通常用未知参数描述。
- 样本（Sample）：从总体中抽取的若干观测值，用于推断总体特征。
- 样本量：样本中观测值的个数，记为 $n$。
统计量
- 统计量（Statistic）：从样本计算得出的量，用于估计总体参数。
- 常见统计量：
  - 样本均值：
    $X‾=1n∑i=1nXi\overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i$
  - 样本方差：
    $S2=1n−1∑i=1n(Xi−X‾)2S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2$
  - 样本标准差：
    $\sqrt{S^2}$
  - 样本协方差：
    $Cov(X,Y)=1n−1∑i=1n(Xi−X‾)(Yi−Y‾)\mathrm{Cov}(X,Y) = \frac{1}{n-1}\sum_{i=1}^{n} (X_i - \overline{X})(Y_i - \overline{Y})$
  - 样本相关系数：
    $rXY=Cov(X,Y)SXSYr_{XY} = \frac{\mathrm{Cov}(X,Y)}{S_X S_Y}$
抽样分布
- 定义：统计量在重复抽样中形成的概率分布。
- 常用结论：
  - 若总体服从正态 $N(\mu, \sigma^2)$，则
    $X‾∼N(μ,σ2n)\overline{X} \sim N\Big(\mu, \frac{\sigma^2}{n}\Big)$
  - 小样本方差比 $\chi^2$ 分布：
    $(n−1)S2σ2∼χn−12\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}$
  - $t$ 分布：
    $\frac{\overline{X}-\mu}{S/\sqrt{n}} \sim t_{n-1}$
  - 两个方差比 $F$ 分布：
    $\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F_{n_1-1,n_2-1}$

参数估计

点估计

点估计：用样本统计量作为总体参数的估计值。
方法：

矩估计法

原理：总体矩 = 样本矩
例子：总体均值 $\mu$ 的估计

$μ^=X‾=1n∑i=1nXi\hat{\mu} = \overline{X} = \frac{1}{n}\sum_{i=1}^{n} X_i$

最大似然估计法（MLE）

定义：选择使样本观测结果出现概率最大的参数。
似然函数：

$L(θ)=∏i=1nf(Xi;θ)L(\theta) = \prod_{i=1}^{n} f(X_i; \theta)$
对数似然：

$ℓ(θ)=∑i=1nlog⁡f(Xi;θ)\ell(\theta) = \sum_{i=1}^{n} \log f(X_i;\theta)$
求解：

$∂ℓ(θ)∂θ=0\frac{\partial \ell(\theta)}{\partial \theta} = 0$
示例：正态分布 $N(\mu,\sigma^2)$ 的MLE

$μ^=X‾,σ^2=1n∑i=1n(Xi−X‾)2\hat{\mu} = \overline{X}, \quad \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (X_i-\overline{X})^2$

点估计性质

无偏性：$E[\hat{\theta}] = \theta$
一致性：$n \to \infty, \hat{\theta} \to \theta$
有效性：在所有无偏估计量中方差最小
最小方差无偏估计（MVUE）：既无偏又方差最小

区间估计

置信区间：基于样本给出总体参数的区间估计
例子：
- 正态总体均值已知方差：
  
  $μ∈[X‾−zα/2σn,X‾+zα/2σn]\mu \in \Big[\overline{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \overline{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\Big]$
- 正态总体均值未知方差：
  
  $μ∈[X‾−tα/2,n−1Sn,X‾+tα/2,n−1Sn]\mu \in \Big[\overline{X}-t_{\alpha/2,n-1}\frac{S}{\sqrt{n}}, \overline{X}+t_{\alpha/2,n-1}\frac{S}{\sqrt{n}}\Big]$

假设检验

基本概念

原假设 $H_0$：假设成立
备择假设 $H_1$：与原假设对立
显著性水平 $\alpha$：拒绝 $H_0$ 的概率
检验统计量：根据样本构造
$p$ 值：实际观测值对应统计量概率

常用检验

Z 检验：大样本均值检验
t 检验：小样本均值检验
$\chi^2$ 检验：方差检验、列联表独立性检验
F 检验：两总体方差比检验
单尾/双尾检验

检验步骤

提出 $H_0$ 与 $H_1$
选择显著性水平 $\alpha$
构造检验统计量
求 $p$ 值或临界值
作出结论
分析类型 I/II 错误与检验力

回归与相关分析

简单线性回归

模型：

$\beta_0 + \beta_1 X + \epsilon, \quad \epsilon \sim N(0, \sigma^2)$
最小二乘估计：

$β^1=∑i(Xi−X‾)(Yi−Y‾)∑i(Xi−X‾)2,β^0=Y‾−β^1X‾\hat{\beta}_1 = \frac{\sum_i (X_i-\overline{X})(Y_i-\overline{Y})}{\sum_i (X_i-\overline{X})^2}, \quad \hat{\beta}_0 = \overline{Y} - \hat{\beta}_1 \overline{X}$
回归方程解释：
- $\beta_1$：每单位 $X$ 变化引起 $Y$ 的平均变化
- $\beta_0$：$X=0$ 时 $Y$ 的估计值

多元回归

模型：

$\beta_0 + \beta_1 X_1 + \dots + \beta_p X_p + \epsilon$
矩阵形式：

$β^=(XTX)−1XTY\hat{\beta} = (X^TX)^{-1}X^T Y$

抽样分布与渐近理论

样本均值 $\overline{X}$ 的分布：
- 正态总体：精确分布
- 大样本（CLT）：渐近正态
样本方差 $(n-1)S^2/\sigma2 \sim \chi^2_{n-1}$
$t$ 分布来源：

$\frac{\overline{X}-\mu}{S/\sqrt{n}} \sim t_{n-1}$
$F$ 分布来源：

$\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F_{n_1-1,n_2-1}$
渐近正态性与大样本理论（MLE的一致性与渐近正态性）

附录

集合

什么是集合
- 集合就是一些确定的、不同的元素组成的整体。
- 元素可以是数字、字母、对象等。
- 记法：
  - 列举法： $A = \{1,2,3\}$
  - 描述法： $\{x \mid x \text{是偶数且 } x<10\}$
集合的基本概念
- 子集：若集合 $A$ 的所有元素都属于集合 $B$ ，则 $A$ 是 $B$ 的子集，记作 $\subseteq B$
- 空集：没有元素的集合，记作 $∅\emptyset$
- 全集：讨论问题时所有可能元素组成的集合
- 交集（∩）： $\cap B$ ，同时属于 $A$ 和 $B$ 的元素
- 并集（∪）： $\cup B$ ，属于 $A$ 或 $B$ 的元素
- 补集（ $^c$ ）：全集中不在 $A$ 中的元素
集合的作用
- 在概率论中，事件就是样本空间的子集。
- 交并补操作帮助我们分析事件之间的关系。
- 示例：掷骰子，事件“偶数” $A=\{2,4,6\}$ ，事件“>3” $B=\{4,5,6\}$
  - $\cap B = \{4,6\}$
  - $\cup B = \{2,4,5,6\}$
  - $A^c = \{1,3,5\}$

排列组合

排列组合是 集合中的元素计数方法，解决“从集合中选取或排列元素，有多少种可能”的问题。

计数原则
- 加法原则：不同情况下只能选一个，把可能数加起来。
  - 示例：抽一张牌，红桃或黑桃？红桃有 13 种，黑桃有 13 种 → 共 13+13=26 种
- 乘法原则：事件分步骤，每步有若干可能，把每步可能数乘起来。
  - 示例：做密码，前两位数字 0~9 → 10×10=100 种
排列
- 定义：从 n 个元素中选 r 个排成一列，顺序不同算不同。
- 公式：
  $\frac{n!}{(n-r)!}$
  - $n!$ 是 n 的阶乘，表示 n 个元素全排列的数量
- 例子：从 ${A,B,C,D\}$ 中选 2 个排成一列：
  - AB、BA、AC、CA、AD、DA、BC、CB、BD、DB、CD、DC → 共 12 种
  - 用公式 $A (4, 2) = 4 * 3 = 12$
组合
- 定义：从 n 个元素中选 r 个，不考虑顺序。
- 公式：
  $\frac{n!}{r!(n-r)!}$
- 例子：从 ${A,B,C,D\}$ 中选 2 个，不考虑顺序：
  - {A,B}, {A,C}, {A,D}, {B,C}, {B,D}, {C,D} → 共 6 种
排列与组合的关系
$\cdot r!$
- 排列比组合多了顺序的考虑，乘上 r! 就是不同顺序的排列数