当前位置：首页 > news >正文

开始理解大型语言模型（LLM）所需的数学基础

news 2025/9/9 5:30:34

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

要提出像GPT这类大型语言模型的概念，并从事严肃的人工智能研究，确实需要扎实的数学功底。然而好消息是，如果只是想理解这些模型的工作原理，所需的数学并不复杂。只要曾经在1960年代以后接受过高中数学教育，就已经掌握了基本的知识，比如向量、矩阵等内容。

需要注意的是，本文讲解的是理解“推理”过程所需的数学知识——也就是如何使用一个已经训练好的人工智能模型，而不是关于如何训练它的过程。虽然训练所需的数学也并不复杂，但那部分内容将留待后续文章介绍。

明确这一点后，正式开始深入讲解。

向量与高维空间

博主使用了“向量”一词，基本等同于软件工程师所说的“数字数组”。但在数学意义上，一个长度为 n 的向量不仅是一个数组，它还表示一个 n 维空间中的方向和距离，或者等价地，可以看作是从原点出发，沿着这个向量到达某个点。

在二维空间中，向量 (2, -3) 意味着“向右两单位，下移三单位”，也就是从原点出发移动后所处的位置。三维空间中的向量 (5, 1, -7) 则意味着“向右五单位、上移一单位、远离观察者七单位”（某些情况下可能表示向观察者移动七单位）。当维度更高时，人类无法直观想象，但概念上是一致的。

在LLM中，向量用于表达各种含义。例如，模型输出的logits向量（见上一篇）代表了对下一个token的不同可能性的预测。在这种情形下，可以将logits看作存在于一个高维空间中，这个空间表示了“意义”的分布。

词汇空间（Vocab Space）

每个token对应的logits值是一组数字，每个数字表示该token在当前上下文中作为下一个token的可能性。在书中分析的GPT-2模型中，其tokenizer包含50,257个token，因此每个logits向量的长度也是50,257。比如，token ID为464的是“The”，那么logits向量中第464位的数值表示“The”作为下一个token的相对概率。

可以将每一个logits向量视为一个存在于50,257维空间中的点。这个空间的每一个位置都代表了对下一token的各种可能性组合。本文将这个空间称为“词汇空间”。

不过，这是一个“混乱”的词汇空间。假设一个简化的LLM，其词汇表中只有三个token，那么两个logits向量 (1, 2, 3) 和 (-9, -8, -7) 虽然数值不同，但表达的是相同的排序：第一个token最不可能，第二个次之，第三个最可能。

为了整理这种冗余，可以将logits向量传入softmax函数，从而得到一组真实的概率分布。这组概率数值介于0到1之间，总和为1。这样，所有表达相同排序的logits向量将映射为同一个概率向量。例如，(1, 2, 3) 和 (-9, -8, -7) 都会被softmax映射为大约 (0.09, 0.24, 0.66)。

需要指出的是，其他向量也可能表达相同的排序，但概率分布不同。例如，(1, 2, 5) 虽然仍是“第三个token最可能”的排序，但其softmax结果会是类似 (0.02, 0.05, 0.94) 的分布，显示出第三个token的优势更加明显。

因此，可以将词汇空间分为两类：一种是“混乱”的、未经归一化的向量空间；另一种是经过softmax函数后得到的、表示真实概率分布的“整洁”空间。

还有一种特殊情况是所谓的“one-hot向量”，其中只有一个数值为1，其余均为0，表示某个token的概率为100%。这种向量在下一篇文章中将发挥关键作用。

嵌入空间（Embedding Space）

嵌入空间是另一种高维空间，向量在此代表“意义”。如果将这些向量视为点，那么在语义上相近的词汇会在空间中聚集在一起。

“意义”的定义因任务而异。比如，在一个为动物学家设计的嵌入空间中，“家猫”、“狮子”和“老虎”可能聚集成一个簇，而“狗”、“狼”和“郊狼”则形成另一个簇。这种分类体现了对猫科动物和犬科动物的区分。

而在日常应用中，可能更希望看到“家猫”和“狗”聚在一起，远离“狮子”或“狼”等野生动物。这种嵌入空间更适合用于普通文本的处理和分析。

嵌入空间的维度和定义方式是灵活多样的，可以从表达复杂概念的“丰富空间”，一直到仅根据词性（如动词、名词、形容词）来聚类的“简单空间”。

一个可能令人困惑的事实是，在嵌入空间中，向量的长度往往并不重要。比如，(1, 2) 和 (8, 16) 方向一致，因此可视为表达相同的意义。

矩阵乘法实现空间投影

复习一下：矩阵本质上是多个向量的集合。例如，将两个二维向量 (2, -3) 和 (5, 1) 并排组合成矩阵：