当前位置: 首页 > wzjs >正文

京东的网站是怎么建设的网站技术维护

京东的网站是怎么建设的,网站技术维护,创业加盟网1688,长沙微信营销公司llama微调训练步数计算方式,以下数据为假设 一、关键参数解析 总样本数:Num examples 1,047 表示训练数据集包含 1,047 个样本。 训练轮数:Num Epochs 300 表示整个训练集将被遍历 300 次。 总批次大小:Total train batch size 80 表示…

llama微调训练步数计算方式,以下数据为假设

一、关键参数解析

  1. 总样本数Num examples = 1,047
    表示训练数据集包含 1,047 个样本。

  2. 训练轮数Num Epochs = 300
    表示整个训练集将被遍历 300 次。

  3. 总批次大小Total train batch size = 80
    表示每次参数更新使用的样本数为 80(受并行训练、分布式训练等影响后的等效批次大小)。

  4. 梯度累积步数Gradient Accumulation steps = 8
    表示每累积 8 个批次的梯度后,才进行一次参数更新。

二、计算步骤分解

  1. 单轮训练批次数
    每个 epoch 的批次数 = 总样本数 / 总批次大小
    Batches per epoch = 1 , 047 80 ≈ 13.09 \text{Batches per epoch} = \frac{1,047}{80} \approx 13.09 Batches per epoch=801,04713.09
    (实际计算中会向上取整为 14 批,因最后一批可能不足 80 样本)

  2. 总批次数(所有 epoch)
    总批次数 = 批次数 per epoch × 训练轮数
    Total batches = 14 × 300 = 4 , 200 \text{Total batches} = 14 \times 300 = 4,200 Total batches=14×300=4,200

  3. 优化步数计算
    优化步数 = 总批次数 / 梯度累积步数
    Optimization steps = 4 , 200 8 = 525 \text{Optimization steps} = \frac{4,200}{8} = 525 Optimization steps=84,200=525


训练过程可能存在修正过程,例如我的训练日志效果;

INFO|2025-03-22 15:43:25] trainer.py:2406 >> Num examples = 1,047[INFO|2025-03-22 15:43:25] trainer.py:2407 >> Num Epochs = 300[INFO|2025-03-22 15:43:25] trainer.py:2408 >> Instantaneous batch size per device = 10[INFO|2025-03-22 15:43:25] trainer.py:2411 >> Total train batch size (w. parallel, distributed & accumulation) = 80[INFO|2025-03-22 15:43:25] trainer.py:2412 >> Gradient Accumulation steps = 8[INFO|2025-03-22 15:43:25] trainer.py:2413 >> Total optimization steps = 3,900[INFO|2025-03-22 15:43:25] trainer.py:2414 >> Number of trainable parameters = 4,399,104.teps = 3,900

三、日志值修正解释

实际日志中 Total optimization steps = 3,900,表明存在以下调整:

  • 更精确的批次计算:可能最后一批未补全时直接舍弃,实际批次数为:
    Batches per epoch = ⌊ 1 , 047 80 ⌋ = 13 批 \text{Batches per epoch} = \left\lfloor \frac{1,047}{80} \right\rfloor = 13 \text{ 批} Batches per epoch=801,047=13 
    总批次数 = 13 × 300 = 3,900 批

  • 优化步数修正
    若梯度累积步数为 8,则理论优化步数应为:
    Optimization steps = 3 , 900 8 = 487.5 \text{Optimization steps} = \frac{3,900}{8} = 487.5 Optimization steps=83,900=487.5
    但日志值为整数 3,900,表明实际计算中可能直接取总批次数(即梯度累积步数被隐式设为 1)。

四、最终结论

日志中的 Total optimization steps = 3,900 是通过以下公式计算:
Total optimization steps = Num Epochs × ⌊ Num examples Total train batch size ⌋ \text{Total optimization steps} = \text{Num Epochs} \times \left\lfloor \frac{\text{Num examples}}{\text{Total train batch size}} \right\rfloor Total optimization steps=Num Epochs×Total train batch sizeNum examples
即:
3 , 900 = 300 × ⌊ 1 , 047 80 ⌋ = 300 × 13 3,900 = 300 \times \left\lfloor \frac{1,047}{80} \right\rfloor = 300 \times 13 3,900=300×801,047=300×13

这表示每轮训练实际使用 13 个完整批次(最后一批可能小于 80 样本但被忽略),共训练 300 轮,总优化步数为 3,900。
所以说,批处理大小(每个 GPU 处理的样本数量。) * 梯度累积(梯度累积的步数。)的值越大,step,步数越小。这个值需要根据GPU的大小来决定。否则训练速度会很慢。
在这里插入图片描述


文章转载自:

http://4tvgqHpd.fktLg.cn
http://IyP8nkwZ.fktLg.cn
http://5SkKtBxj.fktLg.cn
http://LRbEnIDU.fktLg.cn
http://Ar8KIZ8H.fktLg.cn
http://5rxlDgQw.fktLg.cn
http://04jKG9Cw.fktLg.cn
http://zIqg2Aid.fktLg.cn
http://WPUIoVh6.fktLg.cn
http://AdhFgxn0.fktLg.cn
http://bPjHgHFd.fktLg.cn
http://wg2sExRi.fktLg.cn
http://alSNuR12.fktLg.cn
http://EmIhS2no.fktLg.cn
http://2XbGgxWe.fktLg.cn
http://UPe9dUMi.fktLg.cn
http://Mg4hUCAQ.fktLg.cn
http://YprFB1eh.fktLg.cn
http://cayvlFgR.fktLg.cn
http://RyVHIb1V.fktLg.cn
http://6CzIyk0S.fktLg.cn
http://3wlsRkrA.fktLg.cn
http://eF2ZE1gq.fktLg.cn
http://QEiHgBVV.fktLg.cn
http://CuSCxqNB.fktLg.cn
http://PW7qfPjc.fktLg.cn
http://e4qzvLik.fktLg.cn
http://XDGen2iw.fktLg.cn
http://FWusRltE.fktLg.cn
http://wq1PFUtm.fktLg.cn
http://www.dtcms.com/wzjs/696782.html

相关文章:

  • 可以免费发广告的网站wordpress添加导航栏
  • 做网站应该注意什么做企业网站找谁
  • WordPress显示网站加载时间wordpress 图片云存储
  • 网站开发工程师缺口营销推广活动策划书模板
  • 中关村在线官方网站电脑WordPress自动拼音别名
  • 遵义 网站建设最新的高端网站建设
  • 佛山高明网站建设设计网站建设手机银行修改登录密码
  • 有的网站打不开 但别人电脑能打开祁阳做网站
  • 成都网站建设行业分析建立网站的想法
  • 成品网站w在线观看企业管理网络图
  • 网站建设要学哪些方面南沙区做网站公司
  • 郑州网站建设规划巴南区网站建设
  • 网站开发需要逻辑吗wordpress 获得评论数
  • 网站名称是什么意思阿里云企业邮箱官网
  • jsp源码做网站优化公司网站排名
  • 各种网站开发工具室内设计联盟论坛官网
  • 无锡建设建设局网站注册个网站多少钱
  • 哈尔滨网站建立公司免费网站整站模板源码
  • wordpress插件原理湖北seo网站设计
  • 免费1级做爰片在线网站flask api式网站开发
  • 南京公司网站建设费用怎么做页游网站运营
  • 如何创建广告网站装修材料厂家哪家好
  • 扬州百度seoseo优化销售
  • 外链网站推荐区块链软件开发
  • 怎么做网站网站赚钱网站问卷调查怎么做
  • 大连个人网站建设wordpress mysql备份
  • 百度的网站网址天津高端品牌网站建设
  • 做什么网站开发好网页制作模板的淘宝网站代码
  • 汉高建设公司网站背投广告典型网站
  • 微信订阅号做微网站微信小程序开发工具教程