大模型面试题:请讲一下生成式语言模型的工作机理

1. 核心思想:概率预测的链式反应
生成式语言模型最根本的思想,可以概括为一句话:根据上文,预测下一个最可能的词元(Token),并通过循环此过程来生成连贯的文本。
- 基础假设: 自然语言可以被看作一个词序列,而这个序列的出现遵循某种概率分布。
- 核心目标: 模型的目标是学习到一个概率函数
P,使得对于任意一个句子(w1, w2, ..., wn),它能计算出这个句子存在的可能性P(w1, w2, ..., wn),或者更实用地,能计算出给定前文(w1, w2, ..., w_{i-1})时,下一个词w_i出现的条件概率P(w_i | w1, w2, ..., w_{i-1})。
一个简单的比喻: 这就像一个拥有海量阅读经验的“超级智能输入法”。当你输入“今天天气很”时,它会基于学到的知识,计算出“好”、“热”、“糟糕”等词出现的概率,并选择概率最高的那个作为补全。
2. 核心组件与工作流程
现代生成式语言模型(如GPT系列)的工作机理可以分解为以下
