当前位置: 首页 > news >正文

论文略读:RegMix: Data Mixture as Regression for Language Model Pre-training

iclr 2025 688

大型语言模型(LLM)的预训练数据混合比例对模型性能有显著影响,但如何确定一个有效的数据混合策略仍不清楚。为此,我们提出了 RegMix,一种将数据混合选择建模为回归任务、用于自动识别高性能数据混合比例的方法。

RegMix 首先在多种数据混合上训练大量小模型,通过回归模型预测未见数据混合的性能,最后将预测效果最好的混合比例应用于大规模模型的训练,以此实现计算资源的大规模放大利用。

在实证验证中,我们训练了 512 个拥有 100 万参数的小模型,每个模型在 10 亿 tokens 上训练,用于拟合回归模型并预测最佳混合策略。随后,我们使用该预测的最佳混合比例训练了一个 10 亿参数模型,训练数据为 250 亿 tokens(即模型大小扩大 1000 倍,训练数据量扩大 25 倍)。实验证明,该模型在 64 个候选混合策略中表现最佳

更进一步,RegMix 在最多 70 亿参数、训练量达 1000 亿 tokens 的实验中,始终优于人类选择的数据混合方案,并在仅使用 10% 计算资源的情况下匹敌或超过 DoReMi

我们的实验还揭示了以下关键发现:

  1. 数据混合比例对模型性能具有重大影响

  2. 与常见认知相反,网页数据集相比于高质量数据(如 Wikipedia)对下游性能有更强正相关性

  3. 不同领域之间的交互十分复杂,常识性直觉经常无效,因此需要 RegMix 这样的自动方法;

  4. 数据混合效应超越了传统的 scaling laws(扩展规律)

代码开源地址:https://github.com/sail-sg/regmix。

相关文章:

  • 杉山将(Sugiyama Masa)《图解机器学习》
  • 2023蓝桥杯C/C++ B组国赛
  • swagger通过配置将enum自动添加到字段说明中
  • Neo4j批量数据导入完全指南:高效处理大规模数据
  • Java多线程实现之同步方法详解
  • 创客匠人助力家庭教育IP破局:从0到1打造创始人个人品牌全攻略
  • Windows11下搭建Black Magic Probe (BMP) 编译环境
  • ESP32-s3 的I2C可以同时接LCD显示屏、IP5356M吗
  • c++ std::invoke
  • Docker Compose完整教程
  • 【Chipyard】 conda 环境安装与使用
  • 黑马python(四)
  • 正则表达式:开启文本处理的魔法之门
  • Git不能更新以及提交代码,提示链接超时,本地凭证无问题
  • Binder
  • ONLYOFFICE 协作空间 企业版使用秘籍-1.如何使用外部存储
  • 达梦数据库部署veri数据对比工具
  • 3.3.2 纠错编码(海明校验码)
  • 板凳-------Mysql cookbook学习 (十--5)
  • 鸿蒙Next仓颉语言开发实战教程:订单列表
  • php网站开发百度云/新闻头条免费下载安装
  • 网站建设便宜不可信/零售客户电商网站
  • wordpress 表情符号/湖南有实力seo优化
  • 如何设计网站的首页/seo石家庄
  • 自己架设网站服务器/2021年新闻摘抄
  • 怎么使用腾讯云做网站/个人网页制作