当前位置：首页 > news >正文

10-机器学习与大模型开发数学教程-第1章 1-2 O(n) 表示法与时间复杂度

news 2025/10/16 6:17:06

在机器学习和大模型开发中，很多时候我们会写出一个训练算法或者推理过程。代码能运行是第一步，但更重要的问题是：

这些问题的答案，往往隐藏在一个核心概念里——算法复杂度（Complexity）。

复杂度不是用来吓唬人的公式，而是告诉我们：随着输入规模变大，程序的执行时间和资源消耗会怎么变化。

我们常见的时间复杂度有：

数学上，**O 表示法（大 O 记号）**描述了函数在输入规模趋近无穷大时的增长趋势。
形式定义是：如果存在常数 $C > 0$ ，以及 $n_0 > 0$ ，当 $n > n_0$ 时，有

$\leq C \cdot g(n),$

那么我们就记作：

$f (n) = O (g (n)) .$

这里：

复杂度的意义就是：当顾客越来越多（数据规模越来越大）时，等待时间会怎么增长。

在本章的主题“微分”里，函数的增长率是一个核心。复杂度分析其实就是在问：

图示说明：输入规模 $n$ 决定运行时间 $T (n)$ ，而大 O 表示法就是用一个更简单的函数 $g (n)$ 来描述它的“增长速度”。

线性回归
- 训练时需要计算矩阵乘法（维度 $\times d$ ，其中 $n$ 是样本数， $d$ 是特征数）。
- 矩阵乘法的复杂度约为 $O(nd^2)$ 或 $O(d^3)$ （取决于实现）。
- 当数据量非常大时，优化矩阵运算库（BLAS、CUDA）就变得至关重要。
神经网络前向传播
- 单层神经网络计算：输入向量长 $d$ ，权重矩阵大小 $\times h$ ，输出维度 $h$ 。
- 时间复杂度约为 $O (d h)$ 。
- 如果层数是 $L$ ，那么总复杂度是 $O (L d h)$ 。
Transformer 注意力机制
- 经典自注意力（Self-Attention）要计算所有序列位置的两两相似度。
- 序列长度为 $n$ 时，复杂度为 $O(n^2)$ 。
- 这也是为什么 长文本处理 成为大模型的重要挑战。很多论文都在研究如何把 $O(n^2)$ 降到 $\log n)$ 或更低。

在算法复杂度里，我们常常会用到极限的思想：

$lim⁡n→∞f(n)g(n)\lim_{n \to \infty} \frac{f(n)}{g(n)}$

如果这个极限是有限值，那么我们说 $f (n) = O (g (n))$ 。
所以，复杂度分析其实就是在用极限比较函数的增长率。

这也说明：即使 O(n) 表示法看似是“算法”的概念，但它的数学根基依然来自微积分。

大 O 表示法 用来描述算法在输入规模很大时的增长趋势。
它和微积分的联系在于：都关注“函数在无穷大时的增长速度”。
在机器学习和大模型中：
- 线性回归矩阵运算 → $O(nd^2)$
- 神经网络前向传播 → $O (L d h)$
- Transformer 自注意力 → $O(n^2)$
理解复杂度，能帮助我们从“代码能跑”提升到“代码能高效跑”。