当前位置: 首页 > news >正文

模型训练速度慢排查

一、nvidia-smi

查看 GPU 的利用率与显存。若 GPU 利用率低或波动,说明 CPU 处理数据的速度跟不上 GPU 计算的速度,需要检查数据传输并调整 num_workers;若 GPU 显存充足,可以逐步增加 batch_size_per_card 直至显存占满(如 90%),避免浪费。

二、检查日志

avg_reader_cost: 7.05323 s, avg_batch_cost: 7.72311 s, avg_samples: 32.0, ips: 4.14341 samples/s, eta: 18:09:25, max_mem_reserved: 22226 MB, max_mem_allocated: 21161 MB

三、发现问题

L20-24Q 服务器的 avg_reader_cost 明显过长,检查后发现该服务器的磁盘虚拟化策略是 HDD,需要调整

http://www.dtcms.com/a/308940.html

相关文章:

  • C++法则22:运算符 ::* 和 ->* 和 ::* 是独特的整体运算符,是不可分的。
  • 从关键词到用户意图:2025年Google Trends的语义化SEO实战手册
  • 化学结构式解读指南:从基础认知到InDraw智能识别
  • 大小端字节序详解
  • LCGL使用简介
  • Kubernetes架构概览
  • 2025虚幻5光明之魂开发思考1——借鉴软件工程
  • Dify 从入门到精通(第 6/100 篇):配置你的第一个 LLM:OpenAI、Claude 和 Ollama
  • kafka使用kraft
  • QT 动态属性和静态属性
  • Spring框架与AutoCAD结合应用
  • 2025年6月人工智能领域研究热点扫描|人工智能顶级期刊TPAMI
  • vue3 v-html绑定数据,点击sub实现popover效果
  • kamailio uac_req_send()
  • 项目中如何定义项目范围
  • 【Kiro Code 从入门到精通】重要的功能
  • 删除无效索引:提升写入性能的维护技巧
  • Linux日志管理与时间同步
  • 05 GWAS表型数据处理原理
  • Protobuf动态解析
  • 蓝牙耳机充不进去电怎么办?以换代修更简单!
  • 八股训练--Spring
  • Spring Batch参数校验失败问题分析:JobParametersValidator校验了两次JobParametersIncrementer的参数
  • 详解Vite 配置中的代理功能
  • JavaScript内存管理完全指南:从入门到精通
  • 智能化问题分析(Cherry Stdio+ MCP)
  • VS2022将.net4.8工程升级到.net6.0
  • 蚂蚁财富招Java高级研发
  • 基于deepseek的文本解析 - 超长文本的md结构化
  • AD域设计与管理-域策略-进阶