当前位置: 首页 > news >正文

LLaMA 学习笔记

目录

LLaMA模型结构:

模型微调手册:

LLaMA

优化技术

RMSNorm

SwiGLU 激活函数

旋转位置编码(RoPE)


LLaMA模型结构:

llama3 结构详解-CSDN博客

模型微调手册:

大模型微调 LLaMA详细指南(准备环境、数据、配置微调参数+微调过程)_llama 微调-CSDN博客

LLaMA

LLaMA(Large Language Model Meta AI)的拼写误差,这是 Meta(原 Facebook)公司开发的开源大语言模型系列。以下是关于 **LLaMA 架构** 的详细解析:

 **1. LLaMA 简介**
- **全称**:Large Language Model Meta AI  
- **开发方**:Meta AI(Facebook)  
- **特点**:开源、高效、覆盖多种参数量级(7B~70B),专为研究社区设计,性能对标 GPT-3 等商用模型。

 **2. LLaMA 核心架构**
LLaMA 基于 **Transformer 解码器**(类似 GPT),但通过优化提升了效率和性能,关键改进包括:

 **(1)基础结构**
- **自回归模型**:仅使用 Transformer 解码器堆叠,通过掩码注意力实现单向预测。
- **预训练目标**:基于大规模文本的生成任务(预测下一个词)。

优化技术

RMSNorm

替换 Layer Normalization,减少计算量。

SwiGLU 激活函数

替代 ReLU,提升模型表达能力。


旋转位置编码(RoPE)

动态处理序列位置信息,支持更长的上下文窗口。
- **分组查询注意力(GQA)**:在 LLaMA-2 中引入,平衡计算效率与效果。

 **(3)模型规模**
| 版本       | 参数量  | 上下文长度 | 亮点                     |
|------------|--------|------------|--------------------------|
| LLaMA-1    | 7B~65B | 2

http://www.dtcms.com/a/271703.html

相关文章:

  • Java 多态详解:从原理到实战,深入理解面向对象编程的核心特性
  • C#基础篇(09)结构体(struct)与类(class)的详细区别
  • Vue响应式原理三:响应式依赖收集-类
  • 大模型的下半场:从工具到智能体的产业变革与2025突围之路
  • AI大模型:(二)4.2 文生图训练实践-真人写实生成
  • 8.2 文档预处理模块(二)
  • 学习笔记(31):matplotlib绘制简单图表-直方图
  • UNet改进(19):基于残差注意力模块Residual Attention的高效分割网络设计
  • 编译安装的Mysql5.7报“Couldn‘t find MySQL server (mysqld_safe)“的原因 笔记250709
  • 主流大模型Agent框架 AutoGPT详解
  • 软件互联网产品发版检查清单
  • WIndows 编程辅助技能:格式工厂的使用
  • Dify教程更改文件上传数量限制和大小限制
  • JVM 调优
  • 双指针-15.三数之和-力扣(LeetCode)
  • AI技术如何重塑你的工作与行业?——实战案例解析与效率提升路径
  • gdb调试工具
  • Lingo软件学习(一)好学爱学
  • DPDK graph图节点处理框架:模块化数据流计算的设计与实现
  • dify配置邮箱,密码重置以及邮箱邀请加入
  • 【Java】【字节面试】字符串中 出现次数最多的字符和 对应次数
  • HTML应用指南:利用GET请求获取全国山姆门店位置信息
  • 跨服务sqlplus连接oracle数据库
  • 如何卸载本机的node.js
  • 源码角度解析 --- HashMap 的 get 和 put 流程
  • 前端使用fetch-event-source实现AI对话
  • AI Agent:我的第一个Agent项目
  • 爬虫-数据解析
  • [C语言初阶]操作符
  • ZeroMQ 代理架构实现(Python 服务端 + C++ 代理 + C++ 客户端)