当前位置: 首页 > news >正文

大语言模型预训练数据——数据采样方法介绍以GPT3为例

大语言模型预训练数据——数据采样方法介绍以GPT3为例

      • 一、数据采样核心逻辑
      • 二、各列数据含义

一、数据采样核心逻辑

这是 GPT - 3 训练时的数据集配置,核心是非等比例采样——不按数据集原始大小分配训练占比,而是人工设定不同数据集在训练中被抽取的概率(Weight in training mix ),让小数据集也能被多次学习,大数据集适当降低重复度,平衡模型学习广度与深度。

GPT-3

二、各列数据含义

  1. Dataset:训练 GPT - 3 用到的数据集,像 Common Crawl 是网页抓取数据,Wikipedia 是维基百科内容,Books1/2 是书籍文本等,覆盖不同来源、不同类型的语料。
  2. Quantity (tokens):每个数据集的token总量 ,比如 Common Crawl (filtered) 有 4100 亿 token,代表该数据集文本转成模型可处理的 token 后,总数量是这么多。
  3. Weight in training mix:训练时,从该数据集抽取样本的概率占比 。比如 Common Crawl 占 60%,意味着每一轮训练选样本,60%的概率从它这里选,和数据集本身大小无严格比例关系,是人为调的“采样权重”。
  4. Epochs elapsed when training for 300B tokens:当整体训练到 3000 亿 token 时,该数据集被“完整过几遍(Epoch )”。计算逻辑是:
    • 先算训练 3000 亿 token 时,从该数据集实际用了多少 token:3000 亿 × 该数据集权重
    • 再用“实际用的 token 量 ÷ 该数据集总 token 量”,得到被训练的轮次(Epoch )。
    • 举个例子,以 Wikipedia 为例:
      • 按权重,训练 3000 亿 token 时,用了 3000 亿×3% = 90 亿 token
      • Wikipedia 总 token 是 30 亿,所以 Epoch = 90 亿÷30 亿 = 3.4 ,即被完整学习约 3.4 遍;同理,Common Crawl 是 3000 亿×60% = 1800 亿 token ,除以 4100 亿总 token,得到约 0.44 轮。

简单说,就是通过“自定义采样权重”打破数据集大小限制,让不同数据按需被模型学习多轮,最终“Epochs”体现的是:在 3000 亿总训练量下,单个数据集被重复学习的次数 ,背后是“权重×总训练量÷数据集自身大小”的计算逻辑。

http://www.dtcms.com/a/266254.html

相关文章:

  • 银河麒麟V10服务器版 + openGuass + JDK +Tomcat
  • 基于FPGA的一维序列三次样条插值算法verilog实现,包含testbench
  • 类图+案例+代码详解:软件设计模式----原型模式
  • 【网络与系统安全】域类实施模型DTE
  • 【AI总结】Git vs GitHub vs GitLab:深度解析三者联系与核心区别
  • 篇二 OSI七层模型,TCP/IP四层模型,路由器与交换机原理
  • 花尖墨 Web3 水果品牌白皮书
  • 【牛客算法】小苯的数字权值
  • Apache组件遭大规模攻击:Tomcat与Camel高危RCE漏洞引发数千次利用尝试
  • 基于Simulink的二关节机器人独立PD控制仿真
  • Java泛型笔记
  • 【Unity 编辑器工具开发:GUILayout 与 EditorGUILayout 对比分析】
  • 【阿里巴巴JAVA开发手册】IDE的text file encoding设置为UTF-8; IDE中文件的换行符使用Unix格式,不要使用Windows格式。
  • React Native响应式布局实战:告别媒体查询,拥抱跨屏适配新时代
  • 【银行测试】手机银行APP专项项目+测试点汇总(一)
  • D3 面试题100道之(1-20)
  • Java SE线程的创建
  • 医养照护与管理实训室建设方案:培育医养结合领域复合型人才
  • ZKmall模块商城批发电商平台搭建方案,多商户支持 + 订单管理功能全覆盖
  • 基于微信小程序的校园二手交易平台、微信小程序校园二手商城源代码+数据库+使用说明,layui+微信小程序+Spring Boot
  • 如何保障MySQL客户端连接数据库安全更安全
  • Adobe Illustrator设置的颜色和显示的颜色不对应问题
  • Java 中的锁机制详解
  • 【HarmonyOS Next之旅】DevEco Studio使用指南(四十) -> 灵活定制编译选项
  • Kotlin 安装使用教程
  • 深度剖析:如何解决Node.js中mysqld_stmt_execute参数错误
  • JVM类加载系统详解:深入理解Java类的生命周期
  • 数字资产革命中的信任之锚:RWA法律架构的隐形密码
  • 基于Linux的Spark本地模式环境搭建实验指南
  • 白色氧化铈:“白”光之下的科技之美