当前位置: 首页 > news >正文

模型系列(篇三)-Llama

参考文档

  • 【独家】万字长文带你梳理Llama开源家族:从Llama-1到Llama-3

  • 大模型升级与设计之道:ChatGLM、LLAMA、Baichuan及LLM结构解析

  • 强推!伯克利AI博士详解Llama 2的技术细节

Llama1

分词:BPE,用sentencepiece实现

词表大小:32k

模型大小:7B、13B、30B、65B

模型上下文长度:2k

模型结构:

  • 采用基于解码器的结构

  • 采用前置的RMSNorm作为层归一化方法

  • 采用SwiGLU作为激活函数

  • 采用RoPE作为位置编码

模型训练:

  • 使用AdamW优化器

  • 使用xformers库中的causal multi-head attention的高效实现,减少了内存占用和计算时间,显示了在处理大量数据时对效率的关注

补充说明:

  • 2023年2月发布,各版本模型均在1T token上训练

  • 训练数据:开源无标注数据集

  • 不可商用

  • 只是预训练模型,没有进行微调

Llama2

分词:和Llama1一样

词表大小:和Llama1一样

模型大小:7B、13B、34B(没有开源)、70B

模型上下文长度:4k

模型结构: 对比Llama1,在34B、70B中引入了分组查询注意力机制(GQA) 

模型训练:

  • 进行了微调:基于Llama2,通过SFT、RLHF(拒绝采样、近端策略优化,产出两个奖励模型:有用、安全这两个),产出Llama2-Chat模型

补充说明(对比Llama1):

  • 2023年7月发布,各版本模型均在2T token上训练

  • 训练数据:开源无标注数据集、开源指令数据集、超过一百万个新的人类标注示例

  • 可以商用

  • 基于Llama2,2023年8月发布Code-Llama,有7B、13B、34B(没有开源)、70B这4个版本

Llama3

分词:采用了一种效率更高的tokenizer-tiktoken(和GPT4保持一致,tiktoken是OpenAI开发的一个用于文本处理的python库)

词表大小:128k

模型大小:8B、70B、400B(还在训练中)

模型上下文长度:8k

模型结构:

  • 对比Llama2,在所有类型模型大小的模型上引入GQA

模型训练:

  • 采用并行处理:数据并行、张量并行、模型并行

  • 相比Llama2,在为下游基准测试制定一系列扩展法则(scaling laws)

  • 相比Llama2,在PPO基础上增加了直接策略优化(DPO)

补充说明:

  • 有两个模型:预训练Llama3、微调模型Llama3-instruct

模型对比:

  • 8B:性能略优于Mistral 7B和Gemma 7B;70B:性能介于ChatGPT 3.5和GPT 4之间;400B:一个多模态、多语言版本的模型,性能与GPT 4或GPT 4V相当

  • 2024年7月发布,各版本模型均在15T token上训练

  • 训练数据:增加了多语言训练语料,代码数据扩充了4倍;开发了一个包含1800个提示的高质量人类评估集

结尾

亲爱的读者朋友:感谢您在繁忙中驻足阅读本期内容!您的到来是对我们最大的支持❤️

正如古语所言:"当局者迷,旁观者清"。您独到的见解与客观评价,恰似一盏明灯💡,能帮助我们照亮内容盲区,让未来的创作更加贴近您的需求。

若此文给您带来启发或收获,不妨通过以下方式为彼此搭建一座桥梁: ✨ 点击右上角【点赞】图标,让好内容被更多人看见 ✨ 滑动屏幕【收藏】本篇,便于随时查阅回味 ✨ 在评论区留下您的真知灼见,让我们共同碰撞思维的火花

我始终秉持匠心精神,以键盘为犁铧深耕知识沃土💻,用每一次敲击传递专业价值,不断优化内容呈现形式,力求为您打造沉浸式的阅读盛宴📚。

有任何疑问或建议?评论区就是我们的连心桥!您的每一条留言我都将认真研读,并在24小时内回复解答📝。

愿我们携手同行,在知识的雨林中茁壮成长🌳,共享思想绽放的甘甜果实。下期相遇时,期待看到您智慧的评论与闪亮的点赞身影✨!


自我介绍:一线互联网大厂资深算法研发(工作6年+),4年以上招聘面试官经验(一二面面试官,面试候选人400+),深谙岗位专业知识、技能雷达图,已累计辅导15+求职者顺利入职大中型互联网公司。熟练掌握大模型、NLP、搜索、推荐、数据挖掘算法和优化,提供面试辅导、专业知识入门到进阶辅导等定制化需求等服务,助力您顺利完成学习和求职之旅(有需要者可私信联系) 

友友们,自己的知乎账号为“快乐星球”,定期更新技术文章,敬请关注!   

http://www.dtcms.com/a/359496.html

相关文章:

  • 分布式事务相关
  • 【MYSQL】从混乱到清晰:联合查询帮你打通数据孤岛
  • Python 实战:内网渗透中的信息收集自动化脚本(6)
  • React前端开发_Day11
  • Pytest+Selenium4 Web自动化测试框架(三日速通)
  • 数据中心网络实现梳理
  • 变频器实习总结14 电子元件中的内部参考电压 Type-c口对于BMS开发的优点
  • Caffeine TimerWheel时间轮 深度解析:O(1)复杂度增删和触发时间事件
  • 2025.8.31基于UDP的网络聊天室项目
  • 数值分析——非线性方程与方程组的数值解法之迭代法
  • Nginx虚拟主机配置
  • 从RNN到BERT
  • 北斗导航 | GNSS定位模式技术总结:原理、分类与应用实践
  • OpenCV 图像轮廓检测
  • Python爬虫实战:研究Subplots,构建电商平台数据采集和分析系统
  • Spark内存管理
  • C++ 登录状态机项目知识笔记
  • GitHub Spark深度体验:是革命前夜,还是又一个“大厂玩具”?
  • LVGL移植(STM32)
  • 【开题答辩全过程】以 付费自习室系统小程序为例,包含答辩的问题和答案
  • 鸿蒙Next文本组件全解析:输入框、富文本与属性字符串开发指南
  • 智能合约安全全解析:常见漏洞、真实案例与防范实践
  • Sequelize ORM - 从入门到进阶
  • LabVIEW电力系统自动化仿真实验教学系统
  • 鸿蒙Next媒体展示组件实战:Video与动态布局全解析
  • Java全栈开发面试实录:从基础到微服务的实战解析
  • VideoPoet:Google发布的用于视频生成的大语言模型
  • Python 开发 Web 应用“最高效”的框架有哪些?
  • 赵玉平《向诸葛亮借智慧》读书笔记
  • LangChain实战(六):Document Transformers - 文本分割与处理