当前位置：首页 > news >正文

Pytorch性能调优简单总结

news 2025/11/15 11:34:44

前言

本文为我最近一段时间以来对pytorch一些底层原理的使用和认识，着重在"这技术怎样提高我们的训练效率"，有以下几个方向

超参数调优
.cuda传递数据
混合精度计算

本文目标是针对和我一样刚入门的读者，方便比较快的上手，然后我后续也会慢慢深入理解

超参数调优

有几个参数是我们需要注意的，

DataLoader方面：

batch_size,这里我们需要针对我们GPU的显存进行调整，对于我们拷贝的不同项目，我们尤其要注意这里的大小，调整它来适应我们自己的硬件环境

意义就是，batch_size越大，则我们迭代的次数越少，越快执行完，但是可能导致GPU显存溢出

比如我个人的电脑是：rtx4060,具体显存如下

然后我拷贝了一个github项目，发现它超参数的设定是这样：

  crop:type: centersize: [224, 224] # crop image with HxW sizebatch_size: 4n_sup: 183noise_std: 0.1workers: 16mean: [123.675, 116.28, 103.53]std: [58.395, 57.12, 57.375]ignore_label: 255

那我根据我个人显存的大小，我就要对其batch_size进行调整，否则会OOM错误(显存溢出)

num_worker：这参数重点是针对CPU的，参考这一篇博文

Pytorch dataloader中的num_workers (选择最合适的num_workers值)_dataloader的numworkers-CSDN博客

总结一下，num_worker是任务运行中，专门创建用来加载数据的子进程数目，将原来一个进程做的任务专门分出加载数据这一个任务，交给一个新的进程做，有点类似内外存交换中的DMA操作，这里主进程类似DMA中的CPU，子进程类似DMA中的DMA控制器。

按照上一篇博文，我在个人电脑运行博文中提到的脚本，可以看出

我个人num_workers的极限是16

ping_memory，参考这篇博文

Pytorch DataLoader pin_memory 理解 - 知乎

总结一下，ping_memory是将内存中的一部分页面专门用来和GPU进行交换数据，因此设置为True可以显著增加速度

cuda传递数据

使用方法:

.to(device)

参考下面几篇博文

PyTorch 中的数据与模型迁移：理解 .to(device) 的使用 - Jeremy Feng's Blog

pytorch：to()、device()、cuda()将Tensor或模型移动到指定的设备上_to(device)-CSDN博客

然后从AI问答中，还得到了一些关键信息

CPU→GPU/GPU→CPU 的拷贝是同步操作（会阻塞主线程），且涉及 PCIe 总线传输，耗时比设备内计算高一个数量级；
优化建议：批量迁移数据（而非单样本）、尽量减少跨设备拷贝（如训练时全程在 GPU，仅推理结果拷贝回 CPU）。

但是，转移到目标设备，仅仅只是最基础的操作，远远达不到我们充分发挥GPU性能的要求，但这也算最基本的，因此我们也必须了解

混合精度

参考下面博文

PyTorch的自动混合精度（AMP） - 知乎

我的总结是:python数据类型有fp16,fp32,int8,int16，我们可以知道，对于浮点数和整型的数据，CPU的计算难度不可同日而语，浮点数计算过程往往比整型耗时更多，而浮点数精度越高，往往耗时更多

而混合精度，就是在pytorch计算时选择性的使用高精度的浮点数，这样减少计算量

下面是我使用混合精度前的一个批次计算耗时：

使用混合精度后的计算耗时

可以看出，提升是非常大的，但是有个不足，因为不同的任务对数据精度要求不一样，因此如果低精度可能会影响我们部分任务的预测结果！！但混合精度带来的提升是很明显的

查看全文

http://www.dtcms.com/a/610871.html

探索回文诗歌的艺术：从Python视角理解语言的对称性

【工具变量】全国质量强市示范城市DID数据（2000-2025年）

网站优化与seo的区别内部优惠券网站怎么做

开发网站软件重庆找工作最新招聘信息

C语言--详解--冒泡排序（Bubble Sort）

网站图标icowordpress报表工具

7-2 实验2-2（循环队列）

怎么在境外做网站外贸网站建设哪里实惠

4.29.3五种波形发生器8086波形发生器，锯齿波脉冲波正弦波三角波直流信号含调试视频➕18页5000字原创报告软件流程图proteus8.9近期原创的，

安卓网站开发wordpress文章中图片并排

别等设备坏了才维修，工业无线监测与预测性维护提前发现隐患，避免停产损失

【C++进阶】智能指针

推荐几个的网站WordPress百度MIP手机主题

MYSQL结构操作DDL指令2.表操作

做网站尽在美橙互联合肥关键词排名提升

将sqlite3的表转成excel表

商城网站框架南京网站设计个人

除了Joomla用什么做网站好wordpress中调整图片尺寸

二手车做网站的目的姑苏营销型网站建设电话

3. Qt深入线程安全函数与可重入函数

做打鱼网站犯法不商城系统的基本

广州网站开发哪家公司好ui设计与网站建设

硅基计划6.0 柒 JavaEE 浅谈JVMGC垃圾回收

Springboot集成OnlyOffice

海口市做网站的公司郑州官方发布最新消息

VS2012能编译C语言吗 | 深入解析Visual Studio 2012对C语言的支持

安顺网站开发网站建设兼职劳务协议书

LTE/NR上行控制信道PUCCH与UCI介绍

有啥可以自己做网站的软件视频网站程序

开源项目分享 : Gitee热榜项目 2025-11-14 日榜

前言

超参数调优

DataLoader方面：

cuda传递数据

混合精度

相关文章：