LLM 在预测下一个词的时候是怎么计算向量的,说明详细过程
LLM 在预测下一个词的时候是怎么计算向量的,说明详细过程
实质是通过原来的自然语言向量矩阵计算最后一向量,原来的编码向量保持不变

在大语言模型(LLM)中,预测下一个词的过程涉及复杂的矩阵运算和向量变换。下面以GPT系列模型为例,从自然语言输入开始,逐步细化到矩阵运算说明这一过程。
在大语言模型(LLM)中,给定输入维度 embed_dim=768 和 seq_len=8,输出会根据不同阶段和组件而变化。以下是完整的流程和输出维度说明:
1. 输入嵌入(Input Embedding)
- 输入:Token ID序列,形状为
[seq_len](示例中为8) - 输出:嵌入矩阵,形状为
[seq_len, embed_dim]=[8, 768]
