LLaMA 学习笔记
目录
LLaMA模型结构:
模型微调手册:
LLaMA
优化技术
RMSNorm
SwiGLU 激活函数
旋转位置编码(RoPE)
LLaMA模型结构:
llama3 结构详解-CSDN博客
模型微调手册:
大模型微调 LLaMA详细指南(准备环境、数据、配置微调参数+微调过程)_llama 微调-CSDN博客
LLaMA
LLaMA(Large Language Model Meta AI)的拼写误差,这是 Meta(原 Facebook)公司开发的开源大语言模型系列。以下是关于 **LLaMA 架构** 的详细解析:
**1. LLaMA 简介**
- **全称**:Large Language Model Meta AI
- **开发方**:Meta AI(Facebook)
- **特点**:开源、高效、覆盖多种参数量级(7B~70B),专为研究社区设计,性能对标 GPT-3 等商用模型。
**2. LLaMA 核心架构**
LLaMA 基于 **Transformer 解码器**(类似 GPT),但通过优化提升了效率和性能,关键改进包括:
**(1)基础结构**
- **自回归模型**:仅使用 Transformer 解码器堆叠,通过掩码注意力实现单向预测。
- **预训练目标**:基于大规模文本的生成任务(预测下一个词)。
优化技术
RMSNorm
替换 Layer Normalization,减少计算量。
SwiGLU 激活函数
替代 ReLU,提升模型表达能力。
旋转位置编码(RoPE)
动态处理序列位置信息,支持更长的上下文窗口。
- **分组查询注意力(GQA)**:在 LLaMA-2 中引入,平衡计算效率与效果。
**(3)模型规模**
| 版本 | 参数量 | 上下文长度 | 亮点 |
|------------|--------|------------|--------------------------|
| LLaMA-1 | 7B~65B | 2