模型训练速度慢排查
一、nvidia-smi
查看 GPU 的利用率与显存。若 GPU 利用率低或波动,说明 CPU 处理数据的速度跟不上 GPU 计算的速度,需要检查数据传输并调整 num_workers;若 GPU 显存充足,可以逐步增加 batch_size_per_card 直至显存占满(如 90%),避免浪费。
二、检查日志
avg_reader_cost: 7.05323 s, avg_batch_cost: 7.72311 s, avg_samples: 32.0, ips: 4.14341 samples/s, eta: 18:09:25, max_mem_reserved: 22226 MB, max_mem_allocated: 21161 MB
三、发现问题
L20-24Q 服务器的 avg_reader_cost 明显过长,检查后发现该服务器的磁盘虚拟化策略是 HDD,需要调整