当前位置: 首页 > news >正文

All in AI之二:数学体系的建立

文章目录

  • 前言
  • 数和量
  • 几何
  • 函数
    • 标量函数:标量到标量的映射
    • 向量函数:标量/向量到向量的映射
  • 线性代数
    • 线性组合
    • 范数
    • 点积
    • 线性变换与矩阵
      • 方阵与非方阵
      • 矩阵行与列的含义
    • 矩阵乘法与线性变换的组合
    • 矩阵的秩
  • 微积分
    • 极限
    • 导数
    • 微分
    • 偏导数
    • 梯度
    • 积分
  • 概率论与数理统计
    • 概率论
      • 随机现象和概率模型
      • 概率的分类与计算
        • 先验概率的计算
        • 条件概率的计算
        • 后验概率的计算
      • 随机变量和概率分布
      • 数字特征
      • 大数定律(LLN)
      • 中心极限定理(CLT)
    • 数理统计
      • 样本与统计量
      • 参数估计
        • 点估计
          • 矩估计法
          • 最大似然估计法(MLE)
        • 点估计性质
        • 区间估计
      • 假设检验
        • 基本概念
        • 常用检验
        • 检验步骤
      • 回归与相关分析
        • 简单线性回归
        • 多元回归
        • 相关系数与假设检验
      • 抽样分布与渐近理论
  • 附录
    • 集合
    • 排列组合

前言

机器学习是现代数学建模的极致形式,集成了函数、向量、微积分、概率论、统计学及其他扩展数学工具。如果你是计算机爱好者,那么机器学习是一个值得终身研究的学科,但学习机器学习的前提,必须要有一个良好的数学基础。作者已毕业三年且从未接触过机器学习,本文是作者花费了大量的事件和精力,浏览无数文本和视频总结出来的数学知识,如果你:

  • 毕业很久了
  • 想要学习机器学习
  • 技术栈是Java

那么本文将十分适合你,它会构建你的实用数学体系。

数和量

在数学里,只是“多少”的抽象,是孤立的符号;而则是“世界的属性”,它需要用数去度量。根据量的特性,可分为两类核心形式:

  • 标量:只有大小,没有方向,例如温度 36.5℃、质量 70kg。
  • 向量:既有大小又有方向,例如位移、速度、力,可以表示为:
    v⃗=(v1,v2,…,vn)\vec{v} = (v_1, v_2, \dots, v_n) v=(v1,v2,,vn)

几何

几何的核心作用是为“数与量”提供空间直观表达——通过建立“空间位置”与“数字”的对应关系,将抽象的标量、向量转化为可感知的图形,其中“坐标系”是连接二者的关键桥梁。坐标系通过设定“原点”(基准点)与“坐标轴”(基准方向),为空间中任意点或向量分配唯一的“数字标签”,实现“几何对象→数值”的转化:

  • 二维平面(如纸面):常用直角坐标系,由x轴(水平方向)、y轴(垂直方向)及原点O(0,0)构成,任意点的位置可表示为坐标(x,y)(x, y)(x,y)(x为沿x轴到原点的距离,y为沿y轴到原点的距离);
  • 三维空间(如现实空间):由x轴、y轴、z轴(垂直于平面的方向)及原点O(0,0,0)构成,任意点的位置可表示为坐标(x,y,z)(x, y, z)(x,y,z)

为简化向量的表示与运算,引入单位向量——模长为1、方向沿坐标轴正方向的向量,作为构建任意向量的“基本单元”:

  • 二维空间:x轴单位向量i^=(1,0)\hat{i}=(1,0)i^=(1,0),y轴单位向量j^=(0,1)\hat{j}=(0,1)j^=(0,1)
  • 三维空间:x轴单位向量i^=(1,0,0)\hat{i}=(1,0,0)i^=(1,0,0),y轴单位向量j^=(0,1,0)\hat{j}=(0,1,0)j^=(0,1,0),z轴单位向量k^=(0,0,1)\hat{k}=(0,0,1)k^=(0,0,1)

任意向量均可表示为单位向量的线性组合,几何意义是“沿各坐标轴方向的分量叠加”:

  • 二维向量v⃗=(v1,v2)\vec{v}=(v_1, v_2)v=(v1,v2)v⃗=v1i^+v2j^\vec{v} = v_1\hat{i} + v_2\hat{j}v=v1i^+v2j^(沿x轴i^\hat{i}i^方向叠加v1v_1v1倍,y轴j^\hat{j}j^方向叠加v2v_2v2倍);
  • 三维向量v⃗=(v1,v2,v3)\vec{v}=(v_1, v_2, v_3)v=(v1,v2,v3)v⃗=v1i^+v2j^+v3k^\vec{v} = v_1\hat{i} + v_2\hat{j} + v_3\hat{k}v=v1i^+v2j^+v3k^

函数

现实世界中,量与量之间常存在“依赖变化”的关系(如位置随时间变化、温度随高度变化),函数是描述这种依赖关系的数学工具,本质是“输入到输出的确定性映射”,记为:
y=f(x)y = f(x) y=f(x)
其中xxx为输入(自变量),yyy为输出(因变量),fff为映射规则。结合“量的类型”,函数可分为标量函数与向量函数,二者的可视化与几何意义存在显著差异。

标量函数:标量到标量的映射

标量函数的输入与输出均为标量,形式为f:R1→R1f: \mathbb{R}^1 \to \mathbb{R}^1f:R1R1(单变量)或f:Rn→R1f: \mathbb{R}^n \to \mathbb{R}^1f:RnR1(多变量),描述“一个标量量随其他标量量的变化”。

  1. 单变量标量函数(如y=f(x)y = f(x)y=f(x)

    • 映射规则:单个输入xxx(如时间ttt)对应单个输出yyy(如温度TTT),例如T=f(t)=20+5tT = f(t) = 20 + 5tT=f(t)=20+5t(表示温度随时间每增加1单位,升高5单位);
    • 几何可视化:以输入xxx为横轴、输出yyy为纵轴建立直角坐标系,函数图像为平面中的一条曲线,曲线的“斜率”反映输出随输入的变化率(如y=x2y=x^2y=x2的抛物线,斜率随xxx增大而增大,体现变化率递增);
    • 核心意义:曲线的形态直接反映函数的变化趋势(上升/下降、递增/递减、极值点等),例如y=sin⁡xy=\sin xy=sinx的正弦曲线,体现周期性变化。
  2. 多变量标量函数(如z=f(x,y)z = f(x, y)z=f(x,y)

    • 映射规则:两个输入x,yx,yx,y(如平面中的横、纵坐标)对应单个输出zzz(如高度hhh),例如h=f(x,y)=x2+y2h = f(x, y) = \sqrt{x^2 + y^2}h=f(x,y)=x2+y2(表示平面中某点到原点的高度,图像为圆锥面);
    • 几何可视化:需建立三维坐标系(xxx轴、yyy轴为输入轴,zzz轴为输出轴),函数图像为三维空间中的一个曲面,曲面的“凹凸性”反映输出随输入的变化趋势;
    • 核心意义:曲面的高度分布对应输出的大小,例如地形高度函数,曲面的峰值对应地形的最高点,谷值对应最低点。

向量函数:标量/向量到向量的映射

向量函数的输出为向量,形式为y⃗=f(x)\vec{y} = f(x)y=f(x)(标量输入)或y⃗=f(x⃗)\vec{y} = f(\vec{x})y=f(x)(向量输入),描述“向量量随其他量的变化”,几何上体现为“向量在空间中的运动或变换”。

  1. 标量输入的向量函数(如r⃗=f(t)\vec{r} = f(t)r=f(t)

    • 映射规则:单个输入ttt(如时间)对应一个向量输出r⃗\vec{r}r(如位置向量),例如平面圆周运动的位置函数r⃗(t)=(cos⁡t,sin⁡t)\vec{r}(t) = (\cos t, \sin t)r(t)=(cost,sint)ttt为时间,r⃗(t)\vec{r}(t)r(t)为平面中到原点距离为1的位置向量);
    • 几何可视化:以输入ttt为参数,向量r⃗(t)\vec{r}(t)r(t)的终点在空间中形成一条曲线(称为“参数曲线”),曲线的“切线方向”对应向量的变化方向(如圆周运动的切线方向为速度方向);
    • 核心意义:参数曲线直接反映向量的动态变化,例如r⃗(t)=(t,t2)\vec{r}(t) = (t, t^2)r(t)=(t,t2)的抛物线参数曲线,体现位置向量随时间沿抛物线轨迹运动。
  2. 向量输入的向量函数(如y⃗=f(x⃗)\vec{y} = f(\vec{x})y=f(x)

    • 映射规则:向量输入x⃗\vec{x}x(如平面中的位置向量(x,y)(x,y)(x,y))对应向量输出y⃗\vec{y}y(如速度向量v⃗\vec{v}v),例如平面向量变换v⃗=f(x,y)=(2x,y)\vec{v} = f(x,y) = (2x, y)v=f(x,y)=(2x,y)(表示将输入向量的x分量放大2倍,y分量不变);
    • 几何可视化:在同一坐标系中,将每个输入向量x⃗\vec{x}x的终点与输出向量y⃗\vec{y}y的终点相连,形成“向量场”(如电场、磁场中的向量分布),向量场的“密度”反映向量的大小分布;
    • 核心意义:向量场体现空间中向量的整体分布规律,例如v⃗=(−y,x)\vec{v} = (-y, x)v=(y,x)的旋转向量场,所有向量沿逆时针方向旋转,体现圆周运动的速度分布。

线性代数

线性代数是一门专注于研究向量及向量间线性关系的数学学科。这里的“向量”不只是几何里的“有向线段”,而是被抽象成了一种通用数学对象——只要某个东西能满足“向量加法”(比如两个向量首尾相连求和)和“标量乘法”(比如给向量放大2倍)这两条基础规则,就能用线性代数的方法分析。这种抽象性打破了二维、三维空间的限制,向量可以存在于任意维度的空间中(比如机器学习里的“特征向量”,可能包含几十甚至上百个维度)。从数学定义来看,若一个集合 VVV 满足:对任意向量 u,v∈V\mathbf{u},\mathbf{v}\in Vu,vV,以及任意标量 α,β∈F\alpha,\beta\in\mathbb{F}α,βFF\mathbb{F}F 代表数域,比如我们常用的实数域 R\mathbb{R}R、复数域 C\mathbb{C}C),都有
αu+βv∈V,\alpha\mathbf{u}+\beta\mathbf{v}\in V, αu+βvV,
那么这个集合 VVV 就被称为向量空间。简单说,向量空间就像一个“舞台”,在这里向量既能通过加法组合出新向量,也能通过标量(比如实数1.5、-2)缩放改变大小或方向,最终形成更多样的向量形式。

推荐学习资源:全球最好的线性代数教程

线性组合

线性组合是描述“如何用一组向量拼出新向量”的核心工具。比如我们有向量 v1=(1,0)\mathbf{v}_1=(1,0)v1=(1,0)v2=(0,1)\mathbf{v}_2=(0,1)v2=(0,1),给它们分别乘上标量2和3,再相加得到 v=2v1+3v2=(2,3)\mathbf{v}=2\mathbf{v}_1+3\mathbf{v}_2=(2,3)v=2v1+3v2=(2,3),这就是一次线性组合。更一般地,假设在向量空间 VVV 中有一组向量 v1,…,vn\mathbf{v}_1,\dots,\mathbf{v}_nv1,,vn,再给定一组来自数域 F\mathbb{F}F 的标量 α1,…,αn\alpha_1,\dots,\alpha_nα1,,αn(可理解为“权重”,决定每个向量在组合中的贡献大小),那么向量
v=α1v1+α2v2+⋯+αnvn\mathbf{v} = \alpha_1\mathbf{v}_1 + \alpha_2\mathbf{v}_2 + \cdots + \alpha_n\mathbf{v}_n v=α1v1+α2v2++αnvn
就称为这组向量 {v1,…,vn}\{\mathbf{v}_1,\dots,\mathbf{v}_n\}{v1,,vn} 的一个线性组合。若存在不全为零的标量 α1,…,αn\alpha_1,\dots,\alpha_nα1,,αn,使得线性组合的结果为零向量,即
0=α1v1+⋯+αnvn,\mathbf{0} = \alpha_1\mathbf{v}_1 + \cdots + \alpha_n\mathbf{v}_n, 0=α1v1++αnvn,
则称这组向量 {vi}\{\mathbf{v}_i\}{vi} 线性相关。通俗说,就是组里至少有一个向量“多余”,能被其他向量通过线性组合表示。若只有当所有 αi=0\alpha_i=0αi=0 时,上述等式才成立,则称向量组 {vi}\{\mathbf{v}_i\}{vi} 线性无关。这意味着组里每个向量都“不可替代”,无法被其他向量组合出来。如果向量空间 VVV 中的一组向量 {e1,…,en}\{\mathbf{e}_1,\dots,\mathbf{e}_n\}{e1,,en} 满足两个条件:

  1. 线性无关(无冗余,每个基准都有用);
  2. 能生成 VVV 中的任意向量(即 VVV 里所有向量都能唯一表示成这组向量的线性组合);

那么这组向量就被称为 VVV(可理解为向量空间的“基本单位”,类似直角坐标系里的x轴、y轴单位向量)。在某个基下,向量的线性组合系数 (a1,…,an)(a_1,\dots,a_n)(a1,,an) 就是这个向量的坐标——就像在直角坐标系里,点 (3,4)(3,4)(3,4) 的坐标是x轴系数3、y轴系数4。坐标通常写成列向量的形式:
v=[a1a2⋮an].\mathbf{v}= \begin{bmatrix} a_1\\a_2\\\vdots\\a_n \end{bmatrix}. v=a1a2an.

基中向量的个数 nnn 是固定的,它被称为向量空间 VVV维度,记作:
dim⁡V=n\dim V=ndimV=n
从几何角度理解维度,会更直观:

  • 维度为1的空间:一条直线(比如数轴,只有“左右”一个方向);
  • 维度为2的空间:一个平面(比如直角坐标系,有“左右”“上下”两个方向);
  • 维度为3的空间:我们生活的三维空间(有“前后”“左右”“上下”三个方向);
  • 维度≥4的空间:虽然没有直观几何图像(比如机器学习中100维的特征空间),但代数性质和低维空间一致,比如100维向量的线性组合、坐标表示,和2维向量的规则完全相同。

范数

范数是用来量化向量“大小”或“长度”的数学概念——类似几何中线段的长度,但能适应任意维度的向量。不同场景需要不同的“衡量标准”,常见的有三种范数:

  1. L2L^2L2 范数(欧几里得范数)
    这是最贴近日常认知的“长度”,对应两点之间的直线距离。对于向量 v=(v1,v2,…,vn)\mathbf{v}=(v_1,v_2,\dots,v_n)v=(v1,v2,,vn),其 L2L^2L2 范数定义为:
    ∥v∥2=∑i=1nvi2.\|\mathbf{v}\|_2 = \sqrt{\sum_{i=1}^n v_i^2}. v2=i=1nvi2.
    比如二维向量 (3,4)(3,4)(3,4)L2L^2L2 范数是 32+42=5\sqrt{3^2+4^2}=532+42=5,正好是直角三角形的斜边长度;三维向量 (1,2,2)(1,2,2)(1,2,2)L2L^2L2 范数是 12+22+22=3\sqrt{1^2+2^2+2^2}=312+22+22=3,对应空间中从原点到该点的直线距离。
  2. L1L^1L1 范数(曼哈顿范数)
    得名于“曼哈顿街道的距离”——只能沿横竖方向走,不能走斜线。它的定义是向量各分量的绝对值之和:
    ∥v∥1=∑i=1n∣vi∣.\|\mathbf{v}\|_1 = \sum_{i=1}^n |v_i|. v1=i=1nvi∣.
    比如二维向量 (3,4)(3,4)(3,4)L1L^1L1 范数是 ∣3∣+∣4∣=7|3|+|4|=7∣3∣+∣4∣=7,对应从原点到该点“横走3格、竖走4格”的总路程;在机器学习中,L1L^1L1 范数常用来让向量“稀疏化”(比如让特征向量中大部分分量为0,只保留关键特征)。
  3. L∞L^\inftyL 范数(最大范数)
    反映向量各分量中的“最大绝对值”,可以理解为“最极端的分量大小”。定义为:
    ∥v∥∞=max⁡1≤i≤n∣vi∣.\|\mathbf{v}\|_\infty = \max_{1\le i\le n} |v_i|. v=1inmaxvi∣.
    比如向量 (3,4,−5)(3,4,-5)(3,4,5)L∞L^\inftyL 范数是 max⁡{∣3∣,∣4∣,∣−5∣}=5\max\{|3|,|4|,|-5|\}=5max{∣3∣,∣4∣,5∣}=5;在异常检测中,L∞L^\inftyL 范数可用来识别“某一个特征特别极端”的数据(比如用户消费数据中,某一笔消费远高于其他消费)。

从几何上看,不同范数对应不同的“单位球”(即范数等于1的所有向量构成的图形):

  • L2L^2L2 范数的单位球:二维是圆形,三维是球体(最“圆润”的形状);
  • L1L^1L1 范数的单位球:二维是菱形,三维是菱面体(边角更尖锐);
  • L∞L^\inftyL 范数的单位球:二维是正方形,三维是立方体(边与坐标轴平行)。

点积

对于实数域 Rn\mathbb{R}^nRn 中的两个向量 u=(u1,…,un)\mathbf{u}=(u_1,\dots,u_n)u=(u1,,un)v=(v1,…,vn)\mathbf{v}=(v_1,\dots,v_n)v=(v1,,vn)点积(也叫内积)是描述它们“方向关系”的核心运算。它有两种等价的定义方式,分别对应代数和几何意义:

  1. 代数定义:分量相乘再求和
    点积的代数计算很直接,将两个向量对应分量相乘,再把所有结果相加:
    u⋅v=∑i=1nuivi.\mathbf{u}\cdot\mathbf{v} = \sum_{i=1}^n u_i v_i. uv=i=1nuivi.
    比如 u=(1,2,3)\mathbf{u}=(1,2,3)u=(1,2,3)v=(4,5,6)\mathbf{v}=(4,5,6)v=(4,5,6),它们的点积是 1×4+2×5+3×6=4+10+18=321\times4 + 2\times5 + 3\times6 = 4+10+18=321×4+2×5+3×6=4+10+18=32
  2. 几何定义:与夹角相关的“相似度”
    点积的几何意义更直观,它和两个向量的夹角直接相关:
    u⋅v=∥u∥∥v∥cos⁡θ,\mathbf{u}\cdot\mathbf{v} = \|\mathbf{u}\|\,\|\mathbf{v}\| \cos\theta, uv=uvcosθ,
    其中 θ\thetaθ 是向量 u\mathbf{u}uv\mathbf{v}v 的夹角,∥⋅∥\|\cdot\| 通常用 L2L^2L2 范数。这个公式告诉我们:点积的大小不仅和两个向量的“长度”有关,还和它们的“方向相似度”有关。

通过点积的结果,我们能快速判断两个向量的方向的相近程度:

  • u⋅v>0\mathbf{u}\cdot\mathbf{v}>0uv>0cos⁡θ>0\cos\theta>0cosθ>0,说明夹角 θ<90∘\theta<90^\circθ<90,两向量方向相近(比如 u=(1,0)\mathbf{u}=(1,0)u=(1,0)v=(1,1)\mathbf{v}=(1,1)v=(1,1),点积为1>0,方向接近);
  • u⋅v=0\mathbf{u}\cdot\mathbf{v}=0uv=0cos⁡θ=0\cos\theta=0cosθ=0,说明夹角 θ=90∘\theta=90^\circθ=90,两向量正交(即“垂直”,比如 u=(1,0)\mathbf{u}=(1,0)u=(1,0)v=(0,1)\mathbf{v}=(0,1)v=(0,1),点积为0,相互独立);
  • u⋅v<0\mathbf{u}\cdot\mathbf{v}<0uv<0cos⁡θ<0\cos\theta<0cosθ<0,说明夹角 θ>90∘\theta>90^\circθ>90,两向量方向相反(比如 u=(1,0)\mathbf{u}=(1,0)u=(1,0)v=(−1,1)\mathbf{v}=(-1,1)v=(1,1),点积为-1<0,方向相反)。

我会在“线性变换与矩阵”章节中新增“方阵与非方阵的核心区别及意义”小节,围绕维度映射关系展开,结合几何直观和机器学习应用,明确两者在变换效果、核心属性(如行列式)、可逆性上的差异,确保逻辑衔接自然。

线性变换与矩阵

向量不仅能“静止”地存在于空间中,还会发生“运动”——比如旋转(将二维向量绕原点转30°)、缩放(将向量长度放大2倍)、投影(将三维向量“压平”到二维平面)、剪切(将矩形变成平行四边形)等。这些“运动”如果满足“线性规则”(即保持向量的线性组合关系),就称为线性变换,而矩阵就是描述线性变换的“数字工具”。线性变换是一种从一个向量空间映射到另一个向量空间的规则,通常记作 T:V→WT: V\to WT:VW(表示从向量空间 VVV 映射到向量空间 WWW),它必须满足两个条件(保持线性组合):对任意 u,v∈V\mathbf{u},\mathbf{v}\in Vu,vV 和任意标量 α,β∈F\alpha,\beta\in\mathbb{F}α,βF,有
T(αu+βv)=αT(u)+βT(v).T(\alpha\mathbf{u}+\beta\mathbf{v})=\alpha T(\mathbf{u})+\beta T(\mathbf{v}). T(αu+βv)=αT(u)+βT(v).
简单说,就是“先组合向量再变换”,和“先变换向量再组合”的结果完全一致。比如先将 u\mathbf{u}u 放大2倍、v\mathbf{v}v 放大3倍再相加,再进行变换,与先分别变换 u\mathbf{u}uv\mathbf{v}v,再放大2倍、3倍相加,结果相同——这确保了线性变换不会破坏向量的线性关系。线性变换是抽象的(比如“旋转30°”是一个动作),而矩阵能将这个动作转化为具体的数字运算。要通过矩阵表示线性变换,需要先为原空间 VVV 和目标空间 WWW 选择“基”(就像给空间设定坐标系):

  • 设原空间 VVV 的基为 {e1,…,en}\{\mathbf{e}_1,\dots,\mathbf{e}_n\}{e1,,en}nnnVVV 的维度,比如二维空间的基 e1=(1,0)\mathbf{e}_1=(1,0)e1=(1,0)e2=(0,1)\mathbf{e}_2=(0,1)e2=(0,1));
  • 设目标空间 WWW 的基为 {f1,…,fm}\{\mathbf{f}_1,\dots,\mathbf{f}_m\}{f1,,fm}mmmWWW 的维度,比如三维空间的基 f1=(1,0,0)\mathbf{f}_1=(1,0,0)f1=(1,0,0)f2=(0,1,0)\mathbf{f}_2=(0,1,0)f2=(0,1,0)f3=(0,0,1)\mathbf{f}_3=(0,0,1)f3=(0,0,1))。

由于线性变换保持线性关系,原空间的每个基向量 ei\mathbf{e}_iei 经过变换后,得到的 T(ei)T(\mathbf{e}_i)T(ei) 一定能表示成目标空间基的线性组合(比如将二维基 e1=(1,0)\mathbf{e}_1=(1,0)e1=(1,0) 旋转30°后,得到的向量能表示为三维基的组合 T(e1)=cos⁡30∘⋅f1+sin⁡30∘⋅f2+0⋅f3T(\mathbf{e}_1)=\cos30^\circ\cdot\mathbf{f}_1 + \sin30^\circ\cdot\mathbf{f}_2 + 0\cdot\mathbf{f}_3T(e1)=cos30f1+sin30f2+0f3):
T(ei)=∑j=1majifj.T(\mathbf{e}_i) = \sum_{j=1}^m a_{ji}\,\mathbf{f}_j. T(ei)=j=1majifj.

我们将这些组合系数 ajia_{ji}aji 按“列”收集起来,就能得到一个 mmm 行、nnn 列的矩阵 A∈Fm×nA\in\mathbb{F}^{m\times n}AFm×n(行数对应目标空间维度,列数对应原空间维度):
A=[a11a12⋯a1na21a22⋯a2n⋮⋮⋱⋮am1am2⋯amn].A= \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots\\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{bmatrix}. A=a11a21am1a12a22am2a1na2namn.

此时,原空间 VVV 中的任意向量 v\mathbf{v}v(在基 {e1,…,en}\{\mathbf{e}_1,\dots,\mathbf{e}_n\}{e1,,en} 下表示为列向量),经过线性变换 TTT 后的结果,就等于矩阵 AAA 与向量 v\mathbf{v}v 的乘积——这就是“矩阵乘法对应线性变换”的核心逻辑:
T(v)=Av.T(\mathbf{v}) = A\mathbf{v}. T(v)=Av.

方阵与非方阵

矩阵的“行数是否等于列数”(即方阵/非方阵),直接决定了线性变换的维度映射关系,进而影响其几何效果和应用场景,这是线性代数中最关键的区分之一。

  1. 方阵(m=nm=nm=n:当矩阵的行数 mmm 等于列数 nnn 时,称为方阵(如 2×22\times22×23×33\times33×3 矩阵),对应的线性变换是 T:V→VT: V\to VT:VV——即从 nnn 维空间映射到同一维度的空间,本质是对空间进行“内部调整”,不改变空间的维度。方阵的核心作用是“在不压缩/扩展维度的前提下,调整空间内向量的位置、方向或大小”,常见几何效果包括:

    • 旋转:如二维旋转矩阵 R(θ)=[cos⁡θ−sin⁡θsin⁡θcos⁡θ]R(\theta)=\begin{bmatrix}\cos\theta & -\sin\theta \\ \sin\theta & \cos\theta\end{bmatrix}R(θ)=[cosθsinθsinθcosθ],将二维平面内所有向量绕原点旋转 θ\thetaθ 角,空间仍为二维;
    • 缩放:如三维缩放矩阵 S=[k1000k2000k3]S=\begin{bmatrix}k_1 & 0 & 0 \\ 0 & k_2 & 0 \\ 0 & 0 & k_3\end{bmatrix}S=k1000k2000k3,将向量在x轴放大 k1k_1k1 倍、y轴放大 k2k_2k2 倍、z轴放大 k3k_3k3 倍,空间仍为三维;
    • 剪切:如二维剪切矩阵 C=[1k01]C=\begin{bmatrix}1 & k \\ 0 & 1\end{bmatrix}C=[10k1],将矩形沿x轴方向“推斜”成平行四边形,空间维度不变;
    • 镜像:如二维镜像矩阵 M=[−1001]M=\begin{bmatrix}-1 & 0 \\ 0 & 1\end{bmatrix}M=[1001],将向量沿y轴翻转,空间仍为二维。

    由于方阵作用于同维度空间,存在两个非方阵没有的核心属性:

    • 行列式:描述线性变换对“空间体积”的缩放效果(二维是面积,三维是体积)。例如 2×22\times22×2 矩阵 [2003]\begin{bmatrix}2 & 0 \\ 0 & 3\end{bmatrix}[2003] 的行列式为 666,会将单位正方形(面积1)放大为 2×32\times32×3 的矩形(面积6);若行列式为负(如 [−2003]\begin{bmatrix}-2 & 0 \\ 0 & 3\end{bmatrix}[2003],行列式=-6),则会同时翻转空间方向(如二维图形左右镜像)。
    • 可逆性:若方阵的行列式 det⁡(A)≠0\det(A)\neq0det(A)=0,则存在“逆矩阵 A−1A^{-1}A1”,能还原该线性变换(即 A−1(Av)=vA^{-1}(A\mathbf{v})=\mathbf{v}A1(Av)=v)。例如旋转矩阵的逆矩阵是“反向旋转矩阵”(旋转 −θ-\thetaθ 角),可将旋转后的向量还原为原向量。
  2. 非方阵(m≠nm\neq nm=n:当矩阵的行数 mmm 不等于列数 nnn 时,称为非方阵,对应的线性变换是 T:V→WT: V\to WT:VWdim⁡V=n≠m=dim⁡W\dim V=n\neq m=\dim WdimV=n=m=dimW),本质是“在不同维度空间之间转换”,必然改变空间的维度。非方阵分为两种情况:m>nm>nm>n(高维映射)和 m<nm<nm<n(低维映射)。

    • m>nm>nm>n(如 3×23\times23×2 矩阵):低维嵌入高维,线性变换是 T:Fn→FmT: \mathbb{F}^n\to\mathbb{F}^mT:FnFmm>nm>nm>n),几何意义是将 nnn 维空间“嵌入”到 mmm 维空间的一个子空间中,新增“冗余维度”但不改变原空间的形态。
    • m<nm<nm<n(如 2×32\times32×3 矩阵):高维投影到低维
      线性变换是 T:Fn→FmT: \mathbb{F}^n\to\mathbb{F}^mT:FnFmm<nm<nm<n),几何意义是将 nnn 维空间“压缩”或“投影”到 mmm 维空间,会丢失高维空间的部分信息(丢失的维度无法还原)。

    非方阵的关键特点:无行列式、不可逆

    • 无行列式:由于维度改变,“体积缩放”的概念不再成立(如将三维体积压缩到二维面积,无法用一个数值描述缩放效果),因此非方阵没有行列式;
    • 不可逆:丢失的维度信息无法通过任何矩阵还原。例如将三维向量 (x,y,z)(x,y,z)(x,y,z) 投影为 (x,y)(x,y)(x,y) 后,无法从 (x,y)(x,y)(x,y) 反推出原向量的 zzz 值,因此非方阵不存在逆矩阵。

矩阵行与列的含义

矩阵的行和列承载着不同的几何意义,结合线性变换能更直观地理解:

  • 矩阵的每一列对应原空间基向量经过变换后的结果。以二维旋转矩阵为例:
    R(θ)=[cos⁡θ−sin⁡θsin⁡θcos⁡θ]R(\theta)= \begin{bmatrix} \cos\theta & -\sin\theta\\ \sin\theta & \cos\theta \end{bmatrix} R(θ)=[cosθsinθsinθcosθ]
    第一列 [cos⁡θsin⁡θ]\begin{bmatrix}\cos\theta \\ \sin\theta\end{bmatrix}[cosθsinθ] 是原x轴单位向量 (1,0)(1,0)(1,0) 旋转θ\thetaθ后的新方向,第二列 [−sin⁡θcos⁡θ]\begin{bmatrix}-\sin\theta \\ \cos\theta\end{bmatrix}[sinθcosθ] 是原y轴单位向量 (0,1)(0,1)(0,1) 旋转后的新方向。这意味着:矩阵的列向量定义了变换后空间的新“坐标轴”,所有向量都会跟随这些坐标轴的变化而运动。

  • 矩阵的每一行则对应目标空间中坐标的测量规则。当计算 Av=yA\mathbf{v}=\mathbf{y}Av=y 时,结果向量 y\mathbf{y}y 的第iii个分量 yiy_iyi 等于矩阵AAA的第iii行与原向量v\mathbf{v}v的点积:
    yi=∑k=1naikvk=rowi(A)⋅vy_i = \sum_{k=1}^n a_{ik}v_k = \text{row}_i(A) \cdot \mathbf{v} yi=k=1naikvk=rowi(A)v
    这相当于用行向量作为“标尺”,测量原向量在新坐标轴上的投影长度。例如,三维到二维的投影矩阵:
    P=[100010]P= \begin{bmatrix} 1 & 0 & 0\\ 0 & 1 & 0 \end{bmatrix} P=[100100]
    第一行 (1,0,0)(1,0,0)(1,0,0) 测量向量在x轴的投影,第二行 (0,1,0)(0,1,0)(0,1,0) 测量y轴投影,最终将三维向量“压平”到xy平面。

矩阵乘法与线性变换的组合

当多个线性变换依次作用时,其效果可以用矩阵乘法表示,这就是变换的复合。若先进行变换T1T_1T1(对应矩阵AAA),再进行变换T2T_2T2(对应矩阵BBB),则最终结果等价于单个变换T2(T1(v))T_2(T_1(\mathbf{v}))T2(T1(v)),对应的矩阵为B⋅AB\cdot ABA。矩阵乘法的顺序至关重要,因为线性变换的作用顺序会影响结果。例如:

  1. 先旋转90°(矩阵RRR)再缩放2倍(矩阵SSS):结果矩阵为S⋅RS\cdot RSR
  2. 先缩放2倍再旋转90°:结果矩阵为R⋅SR\cdot SRS
    这两种操作会得到不同的变换效果。数学上表现为矩阵乘法不满足交换律:A⋅B≠B⋅AA\cdot B \neq B\cdot AAB=BA

矩阵的秩

矩阵的(rank)定义为其列向量中线性无关向量的最大数量,记作rank(A)\text{rank}(A)rank(A)。它反映了线性变换后空间的“有效维度”——即变换后向量张成的空间(像空间)的维度。

  • rank(A)=n\text{rank}(A) = nrank(A)=nnnn为原空间维度),称矩阵满秩,此时线性变换不会压缩空间(如旋转、缩放);
  • rank(A)<n\text{rank}(A) < nrank(A)<n,称矩阵降秩,此时变换会将空间压缩到更低维度(如投影变换将三维压缩到二维)。

例如,矩阵A=[1224]A= \begin{bmatrix}1 & 2 \\ 2 & 4\end{bmatrix}A=[1224]的列向量线性相关(第二列是第一列的2倍),其秩为1,对应的变换会将所有二维向量压缩到一条直线上。

微积分

微积分是用来研究函数的工具。

全球最好的微积分视频

极限

微积分的所有概念都建立在极限的基础上,它描述了变量在无限逼近某个状态时的终极趋势。就像数列1/2, 1/4, 1/8…不断靠近0却永远不到达0一样,极限让我们能够精确描述"无限接近"这种抽象的动态过程。对于函数f(x)f(x)f(x),当自变量xxx无限接近aaa(但不等于aaa)时,如果函数值f(x)f(x)f(x)无限接近某个常数LLL,我们就称LLLf(x)f(x)f(x)xxx趋近于aaa时的极限,记作:
lim⁡x→af(x)=L\lim_{x \to a} f(x) = L xalimf(x)=L
这个定义包含两层含义:

  • 自变量xxx可以从aaa的左侧(x→a−x \to a^-xa)或右侧(x→a+x \to a^+xa+)趋近;
  • 无论xxx以何种方式趋近于aaa,函数值都必须稳定地逼近LLL

几何上,这相当于观察函数图像在x=ax=ax=a附近的走势。例如,函数f(x)=x2−1x−1f(x)=\frac{x^2-1}{x-1}f(x)=x1x21x=1x=1x=1处无定义,但当xxx无限接近1时,函数值无限接近2,因此lim⁡x→1f(x)=2\lim_{x \to 1} f(x)=2limx1f(x)=2

导数

导数是微积分的核心概念,它量化了函数在某一点的瞬时变化率,就像用放大镜观察函数图像在该点的"倾斜程度"。函数f(x)f(x)f(x)在点x0x_0x0处的导数定义为极限:
f′(x0)=lim⁡Δx→0f(x0+Δx)−f(x0)Δxf'(x_0) = \lim_{\Delta x \to 0} \frac{f(x_0+\Delta x) - f(x_0)}{\Delta x} f(x0)=Δx0limΔxf(x0+Δx)f(x0)
几何意义是函数图像在(x0,f(x0))(x_0, f(x_0))(x0,f(x0))处切线的斜率。当Δx\Delta xΔx趋近于0时,割线逐渐变成切线,平均变化率升级为瞬时变化率。基本求导法则:

  • 四则运算(u±v)′=u′±v′(u \pm v)' = u' \pm v'(u±v)=u±v(uv)′=u′v+uv′(uv)' = u'v + uv'(uv)=uv+uv(uv)′=u′v−uv′v2\left(\frac{u}{v}\right)' = \frac{u'v - uv'}{v^2}(vu)=v2uvuv
  • 链式法则:若y=f(g(x))y = f(g(x))y=f(g(x)),则y′=f′(g(x))⋅g′(x)y' = f'(g(x)) \cdot g'(x)y=f(g(x))g(x)(复合函数求导的核心)
  • 基本公式(xn)′=nxn−1(x^n)' = nx^{n-1}(xn)=nxn1(ex)′=ex(e^x)' = e^x(ex)=ex(sin⁡x)′=cos⁡x(\sin x)' = \cos x(sinx)=cosx(ln⁡x)′=1x(\ln x)' = \frac{1}{x}(lnx)=x1

当我们对导数再次求导,就得到高阶导数,它描述了变化率本身的变化情况。

  • 二阶导数f′′(x)f''(x)f′′(x)是导数f′(x)f'(x)f(x)的导数,表示斜率的变化率,几何上对应函数图像的曲率;
  • 三阶导数f′′′(x)f'''(x)f′′′(x)描述曲率的变化率,以此类推。

例如,物体的位置函数s(t)s(t)s(t)的一阶导数是速度v(t)=s′(t)v(t) = s'(t)v(t)=s(t),二阶导数是加速度a(t)=v′(t)=s′′(t)a(t) = v'(t) = s''(t)a(t)=v(t)=s′′(t),三阶导数是加加速度( jerk ),用于衡量运动的平滑度。

微分

微分是导数的“孪生概念”,它用“线性增量”近似函数的“实际增量”,就像用直尺测量曲线的微小片段——虽然不是完全精确,但误差足够小,能大幅简化计算。对于函数y=f(x)y=f(x)y=f(x),当自变量xxx获得微小增量Δx\Delta xΔx(记为dx=Δxdx=\Delta xdx=Δx,称为自变量的微分)时,函数增量Δy=f(x+Δx)−f(x)\Delta y=f(x+\Delta x)-f(x)Δy=f(x+Δx)f(x)线性主部称为函数的微分,记作dydydy
dy=f′(x)⋅dxdy = f'(x) \cdot dx dy=f(x)dx
这里的核心是“近似”:Δy=dy+o(Δx)\Delta y = dy + o(\Delta x)Δy=dy+o(Δx),其中o(Δx)o(\Delta x)o(Δx)是比Δx\Delta xΔx更小的“高阶无穷小”(当Δx\Delta xΔx趋近于0时,误差可以忽略)。例如,函数y=x2y=x^2y=x2的微分dy=2x⋅dxdy=2x \cdot dxdy=2xdx,当x=1x=1x=1dx=0.01dx=0.01dx=0.01时,Δy=(1.01)2−12=0.0201\Delta y=(1.01)^2-1^2=0.0201Δy=(1.01)212=0.0201,而dy=2×1×0.01=0.02dy=2 \times 1 \times 0.01=0.02dy=2×1×0.01=0.02,误差仅0.0001,几乎可以忽略。从图像上看,dydydy是函数在xxx处切线的“纵向增量”——当xxx增加dxdxdx时,切线上升(或下降)的高度就是dydydy,而Δy\Delta yΔy是曲线本身的纵向增量。微分的本质是“用切线代替曲线”,在微小范围内,这种替代的误差极小。

偏导数

在多元函数中,偏导数描述了函数在某一维度上的变化率,其他维度保持不变。这就像在三维山地地图上,只沿x轴或y轴方向测量坡度。对于二元函数f(x,y)f(x,y)f(x,y),它关于xxx的偏导数定义为:
∂f∂x=lim⁡Δx→0f(x+Δx,y)−f(x,y)Δx\frac{\partial f}{\partial x} = \lim_{\Delta x \to 0} \frac{f(x+\Delta x, y) - f(x,y)}{\Delta x} xf=Δx0limΔxf(x+Δx,y)f(x,y)
计算时只需将其他变量视为常数,按一元函数求导法则计算。偏导数∂f∂x\frac{\partial f}{\partial x}xf表示用平面y=y0y = y_0y=y0切割曲面z=f(x,y)z = f(x,y)z=f(x,y)得到的曲线在该点的切线斜率,同理∂f∂y\frac{\partial f}{\partial y}yf对应x=x0x = x_0x=x0切片的斜率。方向导数扩展了偏导数的概念,它描述函数在任意指定方向上的变化率,而非局限于坐标轴方向。函数f(x,y)f(x,y)f(x,y)在点(x0,y0)(x_0,y_0)(x0,y0)处沿单位向量u=(cos⁡θ,sin⁡θ)\mathbf{u} = (\cos\theta, \sin\theta)u=(cosθ,sinθ)方向的方向导数为:
Duf(x0,y0)=lim⁡h→0f(x0+hcos⁡θ,y0+hsin⁡θ)−f(x0,y0)hD_{\mathbf{u}}f(x_0,y_0) = \lim_{h \to 0} \frac{f(x_0 + h\cos\theta, y_0 + h\sin\theta) - f(x_0,y_0)}{h} Duf(x0,y0)=h0limhf(x0+hcosθ,y0+hsinθ)f(x0,y0)
通过偏导数可简化计算:Duf=∂f∂xcos⁡θ+∂f∂ysin⁡θD_{\mathbf{u}}f = \frac{\partial f}{\partial x}\cos\theta + \frac{\partial f}{\partial y}\sin\thetaDuf=xfcosθ+yfsinθ,这本质是偏导数与方向向量的点积。

梯度

梯度是由所有偏导数组成的向量,它指向函数值增长最快的方向,其模长表示该方向上的变化率大小。对于多元函数f(x1,x2,...,xn)f(x_1,x_2,...,x_n)f(x1,x2,...,xn),梯度定义为:
∇f=(∂f∂x1,∂f∂x2,...,∂f∂xn)\nabla f = \left( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, ..., \frac{\partial f}{\partial x_n} \right) f=(x1f,x2f,...,xnf)
梯度具有两个关键性质:

  1. 梯度方向是函数局部增长最快的方向;
  2. 梯度与函数的等高线(或等高面)垂直。

我会先新增“微分”章节(放在导数与高阶导数之间,符合“导数→微分→高阶导数”的逻辑链),再优化“积分”章节(补充不定积分定义、计算方法及更多机器学习/工程应用),保持通俗比喻、几何意义与实用场景结合的风格。

积分

积分是导数的逆运算,它计算函数在某一区间(或区域)上的“累积效应”——可以是面积、体积、总变化量,也可以是概率、期望等抽象的累积概念,是连接“局部变化”与“全局累积”的桥梁。

  1. 不定积分是“找原函数”的过程——已知函数f(x)f(x)f(x),寻找所有满足F′(x)=f(x)F'(x)=f(x)F(x)=f(x)的函数F(x)F(x)F(x),记作:
    ∫f(x)dx=F(x)+C\int f(x)dx = F(x) + C f(x)dx=F(x)+C
    其中CCC是任意常数(称为积分常数),因为常数的导数为0,所以原函数不唯一,而是一个“函数族”。例如,∫x2dx=13x3+C\int x^2dx = \frac{1}{3}x^3 + Cx2dx=31x3+C,因为(13x3+C)′=x2(\frac{1}{3}x^3 + C)' = x^2(31x3+C)=x2

  2. 定积分计算函数f(x)f(x)f(x)在区间[a,b][a,b][a,b]上的“净累积量”,定义为 Riemann 和的极限:
    ∫abf(x)dx=lim⁡n→∞∑i=1nf(xi∗)Δx\int_a^b f(x)dx = \lim_{n \to \infty} \sum_{i=1}^n f(x_i^*) \Delta x abf(x)dx=nlimi=1nf(xi)Δx
    其中Δx=b−an\Delta x = \frac{b-a}{n}Δx=nba是区间分割的小宽度,xi∗x_i^*xi是每个小区间内的任意点。定积分的几何意义是:函数图像与xxx轴在[a,b][a,b][a,b]区间内围成的“净面积”——xxx轴上方的面积为正,下方为负,总积分是正负面积的代数和。例如,∫−11xdx=0\int_{-1}^1 x dx = 011xdx=0(因为xxx[−1,0][-1,0][1,0]的负面积与[0,1][0,1][0,1]的正面积相等,相互抵消);∫01x2dx=13\int_0^1 x^2 dx = \frac{1}{3}01x2dx=31(抛物线y=x2y=x^2y=x2[0,1][0,1][0,1]下的面积)。

下面这个定理是微积分的“灵魂”,它建立了不定积分与定积分的联系:若F(x)F(x)F(x)f(x)f(x)f(x)的一个原函数(即F′(x)=f(x)F'(x)=f(x)F(x)=f(x)),则:
∫abf(x)dx=F(b)−F(a)\int_a^b f(x)dx = F(b) - F(a) abf(x)dx=F(b)F(a)
例如,计算∫02x2dx\int_0^2 x^2 dx02x2dx,先找原函数F(x)=13x3F(x)=\frac{1}{3}x^3F(x)=31x3,再代入得F(2)−F(0)=83−0=83F(2)-F(0)=\frac{8}{3} - 0 = \frac{8}{3}F(2)F(0)=380=38,无需再计算复杂的 Riemann 和,大幅简化了定积分计算。

概率论与数理统计

数理统计以概率论为理论基础,概率论通过数理统计落地应用;两者共同构成“处理不确定性问题”的框架,也是机器学习中“建模不确定性、从数据学习规律”的核心工具。

学科研究对象核心逻辑通俗理解
概率论已知概率模型的随机现象从“模型”推导“概率”(演绎推理)知道骰子公平(模型),算掷出6点的概率
数理统计未知概率模型的观测数据从“数据”推断“模型”(归纳推理)掷骰子100次得30次6点(数据),推断骰子是否公平

概率论

随机现象和概率模型

随机现象是指结果不可预知、但长期来看有规律的现象(比如掷骰子)。概率模型是指用数学方式描述随机现象的模型。一个标准的概率模型通常包含三部分:

  • 样本空间Ω\OmegaΩ:表示有可能样本的集合,比如掷骰子:Ω={1,2,3,4,5,6}\Omega = \{1,2,3,4,5,6\}Ω={1,2,3,4,5,6}
  • 事件:样本空间的子集。比如“掷出偶数”就是事件 A={2,4,6}A=\{2,4,6\}A={2,4,6}
  • 概率函数PPP:给每个事件分配一个表示发生可能性的数值(即概率),比如AAA事件的概率就是P(A)P(A)P(A)

常见的概率模型如下:

  1. 古典概型(样本点有限且等可能)
    P(A)=∣A∣∣Ω∣P(A) = \frac{|A|}{|\Omega|} P(A)=∣Ω∣A
    比如掷骰子掷出偶数:P(A)=3/6=1/2P(A)=3/6=1/2P(A)=3/6=1/2
  2. 几何概型(样本点连续且等可能)
    P(A)=事件区域长度/面积/体积样本空间总长度/面积/体积P(A) = \frac{\text{事件区域长度/面积/体积}}{\text{样本空间总长度/面积/体积}} P(A)=样本空间总长度/面积/体积事件区域长度/面积/体积

概率的分类与计算

类型说明
先验概率在得到任何新证据之前,某个事件发生的概率,记为P(A)P(A)P(A)
条件概率BiB_iBi事件发生的前提下,AAA事件发生的概率,记为P(A∣Bi)P(A \mid B_i)P(ABi)
后验概率在得到新证据 AAA 后,事件 BiB_iBi 发生的概率,记为P(Bi∣A)P(B_i \mid A)P(BiA)
先验概率的计算

先验概率往往可以通过概率模型直接计算,且有一些通用公式:对于样本空间Ω\OmegaΩ和概率函数PPP

  • P(Ω)=1P(\Omega)=1P(Ω)=1
  • P(∅)=0P(\empty)=0P()=0
  • P(Ac)=1−P(A)P(A^c)=1-P(A)P(Ac)=1P(A)
  • P(A∪B)=P(A)+P(B)−P(A∩B)P(A\cup B)=P(A)+P(B)-P(A\cap B)P(AB)=P(A)+P(B)P(AB)
  • P(A∩B)=P(A∣B)P(B)=P(B∣A)P(A)P(A\cap B)=P(A|B)P(B)=P(B|A)P(A)P(AB)=P(AB)P(B)=P(BA)P(A)
    • A,BA,BA,B互斥(不能同时发生),则P(A∩B)=0P(A\cap B)=0P(AB)=0
    • A,BA,BA,B独立(一个事件发生不会影响另一个事件发生),则P(A∩B)=P(A)P(B)P(A\cap B)=P(A)P(B)P(AB)=P(A)P(B)

但有时直接计算比较困难,此时可以通过全概率公式进行计算:
P(A)=∑i=1nP(A∣Bi)⋅P(Bi)P(A) = \sum_{i=1}^{n} P(A \mid B_i) \cdot P(B_i) P(A)=i=1nP(ABi)P(Bi)

  • B1,B2,...,BnB_1, B_2, ..., B_nB1,B2,...,Bn互斥且完备事件(两两不重叠,且把所有可能情况覆盖)
  • P(A∣Bi)P(A \mid B_i)P(ABi)条件概率:在 BiB_iBi 发生的前提下 AAA 发生的概率

用大白话讲全概率公式就是:

  • 把事件 AAA 发生的情况分成多条路径(每条路径对应一个 BiB_iBi
  • 每条路径的概率 = “走到这条路径的概率” × “在这条路径下 AAA 发生的概率”
  • 最后把所有路径的概率加起来
条件概率的计算

给定事件 BBB 已发生,事件AAA在此条件下 发生的概率:
P(A∣B)=P(A∩B)P(B),P(B)>0P(A|B) = \frac{P(A \cap B)}{P(B)}, \quad P(B)>0 P(AB)=P(B)P(AB),P(B)>0
如果 P(A∩B)=P(A)P(B)P(A \cap B) = P(A)P(B)P(AB)=P(A)P(B),则 AAABBB 独立。

后验概率的计算

后验概率可以通过贝叶斯公式计算:

P(Bi∣A)=P(A∣Bi)⋅P(Bi)P(A)P(B_i \mid A) = \frac{P(A \mid B_i) \cdot P(B_i)}{P(A)} P(BiA)=P(A)P(ABi)P(Bi)

用大白话讲贝叶斯公式就是:

  • 在知道 AAA 发生后,倒推是哪条路径(哪个 BiB_iBi)发生的概率

随机变量和概率分布

随机变量是用于将样本空间中的样本映射到实数的函数,记作XXX,对于样本空间Ω\OmegaΩ,样本ωi\omega_iωi
X:Ω→RX(ωi)=xiX:\Omega \to \reals \\ X(\omega_i)=x_i X:ΩRX(ωi)=xi
那么根据概率模型的不同,进而将随机变量划分为离散型随机变量连续性随机变量。对于离散型随机变量,可以用 概率质量函数 (PMF) 来描述随机变量的概率分布,记作
p(x)(p(xi)≥0,且∑ip(xi)=1)p(x)(p(x_i)\ge0,且\sum_ip(x_i)=1) p(x)(p(xi)0,ip(xi)=1)
那么:
P(X=xi)=p(xi)P(X=x_i)=p(x_i) P(X=xi)=p(xi)
对于连续型随机变量,可以用 概率密度函数 (PDF) 来描述随机变量的概率分布,记作:
f(x)(f(xi)=0且∫−∞∞f(x)dx=1)f(x)(f(x_i)=0且\int_{-\infty}^{\infty} f(x) dx = 1) f(x)(f(xi)=0f(x)dx=1)
那么:
P(a≤X≤b)=∫abf(x)dxP(a \leq X \leq b) = \int_a^b f(x) dx P(aXb)=abf(x)dx

概率分布就是随机变量的取值和对应概率(或概率密度)的整体描述。常用的概率分布如下:

  • 离散型概率分布(PMF):
    1. 伯努利分布 Bernoulli§
      P(X=x)={p,x=11−p,x=0,0≤p≤1P(X = x) = \begin{cases} p, & x=1\\ 1-p, & x=0 \end{cases}, \quad 0 \le p \le 1 P(X=x)={p,1p,x=1x=0,0p1
    2. 二项分布 Binomial(n, p)
      P(X=k)=(nk)pk(1−p)n−k,k=0,1,…,nP(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k=0,1,\dots,n P(X=k)=(kn)pk(1p)nk,k=0,1,,n
    3. 泊松分布 Poisson(λ)
      P(X=k)=e−λλkk!,k=0,1,2,…P(X = k) = \frac{e^{-\lambda} \lambda^k}{k!}, \quad k=0,1,2,\dots P(X=k)=k!eλλk,k=0,1,2,
  • 连续型概率分布(PDF):
    1. 均匀分布 Uniform(a, b)
      f(x)={1b−a,a≤x≤b0,其它f(x) = \begin{cases} \frac{1}{b-a}, & a \le x \le b\\ 0, & \text{其它} \end{cases} f(x)={ba1,0,axb其它
    2. 正态分布 Normal(μ, σ²)
      f(x)=12πσ2exp⁡[−(x−μ)22σ2],x∈Rf(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\Big[-\frac{(x-\mu)^2}{2\sigma^2}\Big], \quad x \in \mathbb{R} f(x)=2πσ21exp[2σ2(xμ)2],xR
    3. 指数分布 Exponential(λ)
      f(x)={λe−λx,x≥00,x<0f(x) = \begin{cases} \lambda e^{-\lambda x}, & x \ge 0\\ 0, & x < 0 \end{cases} f(x)={λeλx,0,x0x<0

数字特征

数字特征就是用一个或多个数值,刻画随机变量或概率分布的整体特性

  1. 数学期望:随机变量取值的加权平均,权重为概率

    • 离散型
      E[X]=∑ixip(xi)E[X] = \sum_i x_i p(x_i) E[X]=ixip(xi)
    • 连续型
      E[X]=∫−∞∞xf(x)dxE[X] = \int_{-\infty}^{\infty} x f(x) dx E[X]=xf(x)dx
    • 意义:分布的中心位置
  2. 方差与标准差

    • 方差
      Var(X)=E[(X−E[X])2]Var(X) = E[(X - E[X])^2] Var(X)=E[(XE[X])2]
    • 离散型
      Var(X)=∑i(xi−E[X])2p(xi)Var(X) = \sum_i (x_i - E[X])^2 p(x_i) Var(X)=i(xiE[X])2p(xi)
    • 连续型
      Var(X)=∫−∞∞(x−E[X])2f(x)dxVar(X) = \int_{-\infty}^{\infty} (x - E[X])^2 f(x) dx Var(X)=(xE[X])2f(x)dx
    • 标准差σ=Var(X)\sigma = \sqrt{Var(X)}σ=Var(X)
    • 意义:衡量数据或分布的离散程度
  3. 协方差
    Cov(X,Y)=E[(X−E[X])(Y−E[Y])]\mathrm{Cov}(X, Y) = E\big[(X - E[X])(Y - E[Y])\big] Cov(X,Y)=E[(XE[X])(YE[Y])]

    • 意义
      • 方向性
        • Cov(X,Y)>0\mathrm{Cov}(X,Y) > 0Cov(X,Y)>0XXX 增大时,YYY 往往也增大(正相关趋势)。
        • Cov(X,Y)<0\mathrm{Cov}(X,Y) < 0Cov(X,Y)<0XXX 增大时,YYY 往往减小(负相关趋势)。
        • Cov(X,Y)=0\mathrm{Cov}(X,Y) = 0Cov(X,Y)=0:二者线性上无关(但可能存在非线性关系)。
      • 大小问题:协方差的值依赖于变量的量纲(单位),比如身高(米)和体重(公斤),换单位结果就会变。所以协方差不方便直接比较。
  4. 相关系数
    ρX,Y=Cov(X,Y)σXσY\rho_{X,Y} = \frac{\mathrm{Cov}(X,Y)}{\sigma_X \sigma_Y} ρX,Y=σXσYCov(X,Y)
    其中 σX,σY\sigma_X, \sigma_YσX,σY 是标准差。

    • 意义
      • 取值范围:[−1,1][-1, 1][1,1]
      • ρ=1\rho = 1ρ=1:完全正线性相关(点都落在一条上升直线上)。
      • ρ=−1\rho = -1ρ=1:完全负线性相关。
      • ρ=0\rho = 0ρ=0:无线性关系。

    相关系数是无量纲的,更直观,常用于衡量两个变量之间的强弱关系。

大数定律(LLN)

X1,X2,…,XnX_1, X_2, \dots, X_nX1,X2,,Xn 是独立同分布随机变量,期望为 μ\muμ。那么当样本数 n→∞n \to \inftyn 时:

X‾n=1n∑i=1nXi⟶μ\overline{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \;\;\longrightarrow\;\; \mu Xn=n1i=1nXiμ

即:

  • 样本均值趋近于总体均值
  • 说明通过大量采样,平均值就能逼近真实期望。

中心极限定理(CLT)

X1,X2,…,XnX_1, X_2, \dots, X_nX1,X2,,Xn 是独立同分布随机变量,期望为 μ\muμ,方差为 σ2\sigma^2σ2。当 nnn 很大时,标准化的样本均值:

Z=X‾n−μσ/nZ = \frac{\overline{X}_n - \mu}{\sigma/\sqrt{n}} Z=σ/nXnμ

近似服从标准正态分布 N(0,1)N(0,1)N(0,1)。即:

  • 不管原始分布是什么,只要样本数够大,样本均值的分布趋近正态分布
  • 这是正态分布“普适性”的来源。

数理统计

样本与统计量

  1. 样本与总体

    • 总体(Population):研究对象的全体集合,通常用未知参数描述。
    • 样本(Sample):从总体中抽取的若干观测值,用于推断总体特征。
    • 样本量:样本中观测值的个数,记为 $n$。
  2. 统计量

    • 统计量(Statistic):从样本计算得出的量,用于估计总体参数。
    • 常见统计量:
      • 样本均值:
        X‾=1n∑i=1nXi\overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i X=n1i=1nXi
      • 样本方差:
        S2=1n−1∑i=1n(Xi−X‾)2S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2 S2=n11i=1n(XiX)2
      • 样本标准差:
        S=S2S = \sqrt{S^2} S=S2
      • 样本协方差:
        Cov(X,Y)=1n−1∑i=1n(Xi−X‾)(Yi−Y‾)\mathrm{Cov}(X,Y) = \frac{1}{n-1}\sum_{i=1}^{n} (X_i - \overline{X})(Y_i - \overline{Y}) Cov(X,Y)=n11i=1n(XiX)(YiY)
      • 样本相关系数:
        rXY=Cov(X,Y)SXSYr_{XY} = \frac{\mathrm{Cov}(X,Y)}{S_X S_Y} rXY=SXSYCov(X,Y)
  3. 抽样分布

    • 定义:统计量在重复抽样中形成的概率分布。
    • 常用结论:
      • 若总体服从正态 $N(\mu, \sigma^2)$,则
        X‾∼N(μ,σ2n)\overline{X} \sim N\Big(\mu, \frac{\sigma^2}{n}\Big) XN(μ,nσ2)
      • 小样本方差比 $\chi^2$ 分布:
        (n−1)S2σ2∼χn−12\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1} σ2(n1)S2χn12
      • $t$ 分布:
        T=X‾−μS/n∼tn−1T = \frac{\overline{X}-\mu}{S/\sqrt{n}} \sim t_{n-1} T=S/nXμtn1
      • 两个方差比 $F$ 分布:
        F=S12/σ12S22/σ22∼Fn1−1,n2−1F = \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F_{n_1-1,n_2-1} F=S22/σ22S12/σ12Fn11,n21

参数估计

点估计
  • 点估计:用样本统计量作为总体参数的估计值。
  • 方法
矩估计法
  • 原理:总体矩 = 样本矩

  • 例子:总体均值 $\mu$ 的估计

    μ^=X‾=1n∑i=1nXi\hat{\mu} = \overline{X} = \frac{1}{n}\sum_{i=1}^{n} X_i μ^=X=n1i=1nXi

最大似然估计法(MLE)
  • 定义:选择使样本观测结果出现概率最大的参数。

  • 似然函数

    L(θ)=∏i=1nf(Xi;θ)L(\theta) = \prod_{i=1}^{n} f(X_i; \theta) L(θ)=i=1nf(Xi;θ)

  • 对数似然

    ℓ(θ)=∑i=1nlog⁡f(Xi;θ)\ell(\theta) = \sum_{i=1}^{n} \log f(X_i;\theta) (θ)=i=1nlogf(Xi;θ)

  • 求解

    ∂ℓ(θ)∂θ=0\frac{\partial \ell(\theta)}{\partial \theta} = 0 θ(θ)=0

  • 示例:正态分布 $N(\mu,\sigma^2)$ 的MLE

    μ^=X‾,σ^2=1n∑i=1n(Xi−X‾)2\hat{\mu} = \overline{X}, \quad \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (X_i-\overline{X})^2 μ^=X,σ^2=n1i=1n(XiX)2

点估计性质
  • 无偏性:$E[\hat{\theta}] = \theta$
  • 一致性:$n \to \infty, \hat{\theta} \to \theta$
  • 有效性:在所有无偏估计量中方差最小
  • 最小方差无偏估计(MVUE):既无偏又方差最小
区间估计
  • 置信区间:基于样本给出总体参数的区间估计

  • 例子

    • 正态总体均值已知方差:

      μ∈[X‾−zα/2σn,X‾+zα/2σn]\mu \in \Big[\overline{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \overline{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\Big] μ[Xzα/2nσ,X+zα/2nσ]

    • 正态总体均值未知方差:

      μ∈[X‾−tα/2,n−1Sn,X‾+tα/2,n−1Sn]\mu \in \Big[\overline{X}-t_{\alpha/2,n-1}\frac{S}{\sqrt{n}}, \overline{X}+t_{\alpha/2,n-1}\frac{S}{\sqrt{n}}\Big] μ[Xtα/2,n1nS,X+tα/2,n1nS]


假设检验

基本概念
  • 原假设 $H_0$:假设成立
  • 备择假设 $H_1$:与原假设对立
  • 显著性水平 $\alpha$:拒绝 $H_0$ 的概率
  • 检验统计量:根据样本构造
  • $p$ 值:实际观测值对应统计量概率
常用检验
  • Z 检验:大样本均值检验
  • t 检验:小样本均值检验
  • $\chi^2$ 检验:方差检验、列联表独立性检验
  • F 检验:两总体方差比检验
  • 单尾/双尾检验
检验步骤
  1. 提出 $H_0$ 与 $H_1$
  2. 选择显著性水平 $\alpha$
  3. 构造检验统计量
  4. 求 $p$ 值或临界值
  5. 作出结论
  6. 分析类型 I/II 错误与检验力

回归与相关分析

简单线性回归
  • 模型:

    Y=β0+β1X+ϵ,ϵ∼N(0,σ2)Y = \beta_0 + \beta_1 X + \epsilon, \quad \epsilon \sim N(0, \sigma^2) Y=β0+β1X+ϵ,ϵN(0,σ2)

  • 最小二乘估计:

    β^1=∑i(Xi−X‾)(Yi−Y‾)∑i(Xi−X‾)2,β^0=Y‾−β^1X‾\hat{\beta}_1 = \frac{\sum_i (X_i-\overline{X})(Y_i-\overline{Y})}{\sum_i (X_i-\overline{X})^2}, \quad \hat{\beta}_0 = \overline{Y} - \hat{\beta}_1 \overline{X} β^1=i(XiX)2i(XiX)(YiY),β^0=Yβ^1X

  • 回归方程解释:

    • $\beta_1$:每单位 $X$ 变化引起 $Y$ 的平均变化
    • $\beta_0$:$X=0$ 时 $Y$ 的估计值
多元回归
  • 模型:

    Y=β0+β1X1+⋯+βpXp+ϵY = \beta_0 + \beta_1 X_1 + \dots + \beta_p X_p + \epsilon Y=β0+β1X1++βpXp+ϵ

  • 矩阵形式:

    β^=(XTX)−1XTY\hat{\beta} = (X^TX)^{-1}X^T Y β^=(XTX)1XTY

相关系数与假设检验
  • Pearson 相关系数:

    r=∑i(Xi−X‾)(Yi−Y‾)∑i(Xi−X‾)2∑i(Yi−Y‾)2r = \frac{\sum_i (X_i-\overline{X})(Y_i-\overline{Y})}{\sqrt{\sum_i (X_i-\overline{X})^2 \sum_i (Y_i-\overline{Y})^2}} r=i(XiX)2i(YiY)2i(XiX)(YiY)

  • 检验 $H_0: \rho=0$ 可用 $t$ 检验:

    t=rn−21−r2∼tn−2t = r \sqrt{\frac{n-2}{1-r^2}} \sim t_{n-2} t=r1r2n2tn2

抽样分布与渐近理论

  • 样本均值 $\overline{X}$ 的分布:

    • 正态总体:精确分布
    • 大样本(CLT):渐近正态
  • 样本方差 $(n-1)S2/\sigma2 \sim \chi^2_{n-1}$

  • $t$ 分布来源:

    T=X‾−μS/n∼tn−1T = \frac{\overline{X}-\mu}{S/\sqrt{n}} \sim t_{n-1} T=S/nXμtn1

  • $F$ 分布来源:

    F=S12/σ12S22/σ22∼Fn1−1,n2−1F = \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F_{n_1-1,n_2-1} F=S22/σ22S12/σ12Fn11,n21

  • 渐近正态性与大样本理论(MLE的一致性与渐近正态性)

附录

集合

  1. 什么是集合

    • 集合就是一些确定的、不同的元素组成的整体。

    • 元素可以是数字、字母、对象等。

    • 记法:

      • 列举法:A={1,2,3}A = \{1,2,3\}A={1,2,3}
      • 描述法:B={x∣x是偶数且 x<10}B = \{x \mid x \text{是偶数且 } x<10\}B={xx是偶数且 x<10}
  2. 集合的基本概念

    • 子集:若集合 AAA 的所有元素都属于集合 BBB,则 AAABBB 的子集,记作 A⊆BA \subseteq BAB
    • 空集:没有元素的集合,记作 ∅\emptyset
    • 全集:讨论问题时所有可能元素组成的集合
    • 交集(∩):A∩BA \cap BAB,同时属于 AAABBB 的元素
    • 并集(∪):A∪BA \cup BAB,属于 AAABBB 的元素
    • 补集c^cc):全集中不在 AAA 中的元素
  3. 集合的作用

    • 在概率论中,事件就是样本空间的子集。

    • 交并补操作帮助我们分析事件之间的关系。

    • 示例:掷骰子,事件“偶数” A={2,4,6}A=\{2,4,6\}A={2,4,6},事件“>3” B={4,5,6}B=\{4,5,6\}B={4,5,6}

      • A∩B={4,6}A \cap B = \{4,6\}AB={4,6}
      • A∪B={2,4,5,6}A \cup B = \{2,4,5,6\}AB={2,4,5,6}
      • Ac={1,3,5}A^c = \{1,3,5\}Ac={1,3,5}

排列组合

排列组合是 集合中的元素计数方法,解决“从集合中选取或排列元素,有多少种可能”的问题。

  1. 计数原则

    • 加法原则:不同情况下只能选一个,把可能数加起来。
      • 示例:抽一张牌,红桃或黑桃?红桃有 13 种,黑桃有 13 种 → 共 13+13=26 种
    • 乘法原则:事件分步骤,每步有若干可能,把每步可能数乘起来。
      • 示例:做密码,前两位数字 0~9 → 10×10=100 种
  2. 排列

    • 定义:从 n 个元素中选 r 个排成一列,顺序不同算不同。
    • 公式
      A(n,r)=n!(n−r)!A(n,r) = \frac{n!}{(n-r)!} A(n,r)=(nr)!n!
      • n!n!n! 是 n 的阶乘,表示 n 个元素全排列的数量
    • 例子:从 {A,B,C,D}\{A,B,C,D\}{A,B,C,D} 中选 2 个排成一列:
      • AB、BA、AC、CA、AD、DA、BC、CB、BD、DB、CD、DC → 共 12 种
      • 用公式 A(4,2)=4∗3=12A(4,2)=4*3=12A(4,2)=43=12
  3. 组合

    • 定义:从 n 个元素中选 r 个,不考虑顺序。
    • 公式
      C(n,r)=n!r!(n−r)!C(n,r) = \frac{n!}{r!(n-r)!} C(n,r)=r!(nr)!n!
    • 例子:从 {A,B,C,D}\{A,B,C,D\}{A,B,C,D} 中选 2 个,不考虑顺序:
      • {A,B}, {A,C}, {A,D}, {B,C}, {B,D}, {C,D} → 共 6 种
  4. 排列与组合的关系
    A(n,r)=C(n,r)⋅r!A(n,r) = C(n,r) \cdot r! A(n,r)=C(n,r)r!

    • 排列比组合多了顺序的考虑,乘上 r! 就是不同顺序的排列数

文章转载自:

http://x2Phm0dJ.sgbsr.cn
http://FLZChxC1.sgbsr.cn
http://NahU037V.sgbsr.cn
http://chrwusE9.sgbsr.cn
http://AcBWyLxM.sgbsr.cn
http://wbV96Pte.sgbsr.cn
http://qt5Vr8LR.sgbsr.cn
http://UEr7Uleu.sgbsr.cn
http://HKj5KsKy.sgbsr.cn
http://NvH2v9QE.sgbsr.cn
http://QyjwOZim.sgbsr.cn
http://8bC5MX8H.sgbsr.cn
http://dyK1dvTx.sgbsr.cn
http://H6Mg2pN2.sgbsr.cn
http://DUxh2MMN.sgbsr.cn
http://xe2KxTdx.sgbsr.cn
http://9Cy9NJT4.sgbsr.cn
http://o86PrVHt.sgbsr.cn
http://LGrWRyqn.sgbsr.cn
http://zRW4mx4n.sgbsr.cn
http://pxbzzGb0.sgbsr.cn
http://I1v4yZ6X.sgbsr.cn
http://O2IIZBQt.sgbsr.cn
http://SIFW7ytP.sgbsr.cn
http://1mfCLolG.sgbsr.cn
http://V03hXEdZ.sgbsr.cn
http://VwcFqqZo.sgbsr.cn
http://YnaxVncx.sgbsr.cn
http://6e6BJjUo.sgbsr.cn
http://bD7tEROs.sgbsr.cn
http://www.dtcms.com/a/375199.html

相关文章:

  • 【Python】S1 基础篇 P5 字典模块指南
  • MySQL底层架构设计原理详细介绍
  • 《ServiceMesh落地避坑指南:从智慧园区故障看Envoy配置治理》
  • 【ARMv7-M】复位向量与启动过程
  • SQL面试题及详细答案150道(136-150) --- 性能优化与数据库设计篇
  • CMake Qt程序打包与添加图标详细教程
  • 【MySQL】mysql-connector-cpp使用
  • Oracle RAC认证矩阵:规避风险的关键指南
  • CTF-Web手的百宝箱
  • Django高效查询:values_list实战详解
  • Redis核心数据结构
  • 海外代理IP平台Top3评测:LoongProxy、神龙动态IP、IPIPGO哪家更适合你?
  • 开发避坑指南(43):idea2025.1.3版本启动springboot服务输入jvm参数解决办法
  • Vue3入门到实战,最新版vue3+TypeScript前端开发教程,笔记03
  • 四元数 (Quaternion)与李群SE(3)知识点(1)
  • 【Java】NIO 简单介绍
  • Qt从小白到进阶:完整学习路线与资源指南(补充)
  • 结合大数据知识体系对仓库建模方法总结
  • AI 辅助文档生成:从接口注释到自动化 API 文档上线
  • Day 18: 多模态大模型专项 - 理论深度与面试精通之路
  • Flink Checkpoint失败问题分析与解决方案
  • Flyway:一款免费开源的数据库变更管理工具
  • 如何开发一个教育性质的多线程密码猜测演示器
  • 基于MATLAB的线性判别分析(LDA)人脸识别实现
  • iOS现有项目采用混合工程方式集成RN0.77.3版本
  • 软件设置linux时区,Linux设置和修改时间与时区
  • 系统架构设计师备考第18天——信息安全基础知识
  • 嵌入式系统学习Day36(简单的网页制作)
  • 【人工智能99问】GPT4与QWen3的对比(39/99)
  • 计组中央处理器刷题