Stability AI技术浅析(三):Stable LM模型
Stability AI 的 Stable LM 系列是基于 Transformer 架构的开源大语言模型(LLM),其设计目标是高效、可扩展且适合下游任务微调。
一、基本原理
Stable LM 的核心是自回归语言模型,通过预测下一个词的概率分布来生成文本。其基础是概率链式法则:
模型通过最大化训练数据的似然函数来学习参数。
二、模型架构详解
Stable LM 基于 Transformer Decoder-only 结构,主要组件如下:
1. 输入表示(Embedding)
-
Token Embedding:将词映射到高维向量,维度为
d_model
(如 4096)。 -
位置编码(Positional Encoding):采用旋转位置编码(RoPE),公式为: