当前位置：首页 > news >正文

模型训练速度慢排查

news 2025/8/2 16:51:32

一、nvidia-smi

查看 GPU 的利用率与显存。若 GPU 利用率低或波动，说明 CPU 处理数据的速度跟不上 GPU 计算的速度，需要检查数据传输并调整 num_workers；若 GPU 显存充足，可以逐步增加 batch_size_per_card 直至显存占满（如 90%），避免浪费。

二、检查日志

avg_reader_cost: 7.05323 s, avg_batch_cost: 7.72311 s, avg_samples: 32.0, ips: 4.14341 samples/s, eta: 18:09:25, max_mem_reserved: 22226 MB, max_mem_allocated: 21161 MB

三、发现问题

L20-24Q 服务器的 avg_reader_cost 明显过长，检查后发现该服务器的磁盘虚拟化策略是 HDD，需要调整

查看全文

http://www.dtcms.com/a/308940.html

C++法则22：运算符 ::* 和 -＞* 和 ::* 是独特的整体运算符，是不可分的。

从关键词到用户意图：2025年Google Trends的语义化SEO实战手册

化学结构式解读指南：从基础认知到InDraw智能识别

大小端字节序详解

LCGL使用简介

Kubernetes架构概览

2025虚幻5光明之魂开发思考1——借鉴软件工程

Dify 从入门到精通（第 6/100 篇）：配置你的第一个 LLM：OpenAI、Claude 和 Ollama

kafka使用kraft

QT 动态属性和静态属性

Spring框架与AutoCAD结合应用

2025年6月人工智能领域研究热点扫描｜人工智能顶级期刊TPAMI

vue3 v-html绑定数据，点击sub实现popover效果

kamailio uac_req_send()

项目中如何定义项目范围

【Kiro Code 从入门到精通】重要的功能

删除无效索引：提升写入性能的维护技巧

Linux日志管理与时间同步

05 GWAS表型数据处理原理

Protobuf动态解析

蓝牙耳机充不进去电怎么办？以换代修更简单！

八股训练--Spring

Spring Batch参数校验失败问题分析：JobParametersValidator校验了两次JobParametersIncrementer的参数

详解Vite 配置中的代理功能

JavaScript内存管理完全指南：从入门到精通

智能化问题分析（Cherry Stdio+ MCP）

VS2022将.net4.8工程升级到.net6.0

蚂蚁财富招Java高级研发

基于deepseek的文本解析 - 超长文本的md结构化

AD域设计与管理-域策略-进阶

一、nvidia-smi

二、检查日志

三、发现问题

相关文章：