当前位置: 首页 > news >正文

LLM论文笔记 6: Training Compute-Optimal Large Language Models

  • Arxiv日期:2022.3.29
  • 机构:Google DeepMind

关键词

  • scaling law
  • power law
  • 参数量
  • FLOPS
  • tokes

核心结论

1. 当前大多数大语言模型(如 GPT-3 和 Gopher)在计算预算分配上存在问题,模型参数过大而训练数据不足

2. 计算预算计算方式(非首次提出,DeepSeek report 中被改进) FLOPS = 6ND

3. 模型参数与训练数据的比例

  • 训练资源 k \times,模型参数 \sqrt{k} \times,训练token数 \sqrt{k} \times

  • 模型参数和训练数据呈相同倍率增长

4. 不认可(Kaplan et al. 2020)提出的 a = 0.73, b = 0.27

5. 进一步提高语言模型性能的关键在于获取更多高质量的训练数据,而不是盲目增加模型参数

6. 数据质量比数据规模更重要,应对训练数据进行高标准的筛选和去重,以避免数据泄漏和测试集重叠

主要方法

提出三种研究方法:

1. 固定模型大小,改变训练数据量

  • 在固定的模型大小 N 下,通过调整训练数据量(即训练的 token 数 D ),研究损失随计算预算 C 的变化趋势(估计给定 FLOPs 预算下的最优模型大小和所需的训练数据量)

  • 模型大小和训练数据量应随计算预算等比例增长

2. 固定 FLOPs,调整模型大小

  • 在固定计算预算(FLOPs) C 下,通过调整模型大小 N 和对应的训练 token 数 D ,研究损失的最小值随模型大小的变化趋势(直接研究了在特定计算预算下,最优的模型大小是多少)

  • 不同计算预算下的最优模型大小和训练数据量均与 FLOPs 呈近似线性关系

3. 拟合参数化损失函数

  • 构建一个基于模型大小 N 和训练数据量 D 的损失函数 L(N, D) ,并通过实验数据拟合其参数,推导出理论上的最优模型大小和训练数据量分配

  • 通过优化算法(L-BFGS)拟合参数 A, B, E, \alpha, \beta ,使得拟合损失函数与实验数据最为接近 / 使用 Huber 损失来提高对异常点的鲁棒性

  • 结合 FLOPs 约束 C = 6ND ,通过拉格朗日乘数法

三种方法总结:

 

补充

DeepSeek 技术报告 中对 FLOPS=6ND 的计算方式进行了改进

参考 DeepSeek LLM Scaling Open-Source Language Models with Longtermism

提出 C = MD

使用参数 M 替代模型参数 N(认为模型参数不代表真实的计算量)

同时研究了超参数的 scaling law:超参数(batch size / lr)具有较宽的选择范围:

M / D关于C的缩放结论:

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文

相关文章:

  • nvm下载安装教程(node.js 下载安装教程)
  • 【自学笔记】人工智能基础知识点总览-持续更新
  • 云轴科技ZStack+神州鲲泰,全面支持企业私有化部署DeepSeek模型
  • IPC通信
  • Redis 数据类型 Zset 有序集合
  • 【第4章:循环神经网络(RNN)与长短时记忆网络(LSTM)——4.1 RNN的基本结构与工作原理】
  • AJAX 与 ASP 的深入探讨
  • 树莓集团与宜宾“双轮驱动“共启新程 数字经济集群落子川南
  • 使用Cline+deepseek实现VsCode自动化编程
  • Java NIO基础与实战:如何提升IO操作性能
  • 「vue3-element-admin」Vue3 + TypeScript 项目整合 Animate.css 动画效果实战指南
  • Renesas RH850 EEL库的优点
  • 基础算法 高精度运算 #大数加法
  • python面试题
  • HTML 链接
  • 什么是服务的雪崩、熔断、降级的解释以及Hystrix和Sentinel服务熔断器的解释、比较
  • 【从0做项目】Java搜索引擎(1)
  • 核货宝多语言订货系统对比其他订货系统的优势
  • MySQL和SQL server的区别
  • WordPress自助建站全攻略
  • 从马蒂斯家的小盆栽说起:天竺葵的艺术与哲学漫步
  • 小满:一庭栀子香
  • 全国治安管理工作视频会召开
  • 中国需加强自主创新和国际合作,提升产业链供应链韧性
  • 视频|黎明:年轻人已经不相信爱情了吗?
  • 中国首次当选联合国教科文组织1970年《公约》缔约国大会主席国