当前位置: 首页 > news >正文

pytorch 一些常用语法

主页 - PyTorch中文文档

torch.cat() 张量连接

torch.cat(inputs, dimension=0) → Tensor

在给定维度上对输入的张量序列seq 进行连接操作。
参数:

  • inputs (sequence of Tensors) – 可以是任意相同Tensor 类型的python 序列
  • dimension (intoptional) – 沿着此维连接张量序列。
    • 沿行方向拼接(dim=0)​
    • 沿列方向拼接(dim=1)​

例子:

>>> x = torch.randn(2, 3)
>>> x0.5983 -0.0341  2.49181.5981 -0.5265 -0.8735
[torch.FloatTensor of size 2x3]>>> torch.cat((x, x, x), 0)0.5983 -0.0341  2.49181.5981 -0.5265 -0.87350.5983 -0.0341  2.49181.5981 -0.5265 -0.87350.5983 -0.0341  2.49181.5981 -0.5265 -0.8735
[torch.FloatTensor of size 6x3]>>> torch.cat((x, x, x), 1)0.5983 -0.0341  2.4918  0.5983 -0.0341  2.4918  0.5983 -0.0341  2.49181.5981 -0.5265 -0.8735  1.5981 -0.5265 -0.8735  1.5981 -0.5265 -0.8735
[torch.FloatTensor of size 2x9]

tensor 转化为标量

​场景​​推荐方法​
单元素张量 → Python值tensor.item()
零维标量张量tensor.item()
多元素张量 → Python列表tensor.tolist()
import torch  a = torch.tensor([5])  # 单元素张量(形状为 [1])  
b = torch.tensor(3.14) # 零维张量(标量张量)  
c = torch.tensor([3, 5])  # 多元素张量  
d = torch.tensor([[5, 3],[3, 7]])  print(a.item())  # 输出: 5(Python int)  
print(b.item())  # 输出: 3.140000104904175(Python float)  
print(c.tolist())  # 输出: [3, 5](Python list)  
print(d.tolist())  # 输出: [[5, 3], [3, 7]](Python list) # 以下操作会报错!  
# c.item()  # ValueError: only one element tensors can be converted to Python scalars

next(iter(DataLoader))

  • 首先,iter(data_iter) 将 DataLoader 对象转换为一个迭代器
  • 然后,next() 函数会从迭代器中获取下一个元素,第一次使用next()就是获取第一个批次

trainer.zero_grad()

trainer.zero_grad() 是 PyTorch 中的一个重要方法,用于清除模型中所有参数的梯度。以下是它的重要性:

  1. 在 PyTorch 中,梯度是默认累积的。这意味着如果不清除梯度,每次反向传播都会将新的梯度添加到现有梯度上。

  2. 在计算下一批数据的梯度之前,需要将前一批数据的梯度清零。否则:

    • 梯度会不正确地累积
    • 你会在当前更新中使用到之前批次的梯度
  3. PyTorch 中典型的训练循环模式是:

optimizer.zero_grad()    
# 清除现有梯度 
loss = loss_function()  
# 前向传播 
loss.backward()          
# 反向传播 
optimizer.step()
http://www.dtcms.com/a/163189.html

相关文章:

  • Weiss Robotics的WPG与WSG系列紧凑型机器人夹爪,精准、灵活、高效
  • Springboot2.X 读取多层嵌套的配置结构
  • AtCoder Beginner Contest 403(题解ABCDEF)
  • 【计算机网络】面试常考——GET 和 POST 的区别
  • 洛谷P2142高精度减法题解
  • 浅析localhost、127.0.0.1 和 0.0.0.0的区别
  • 在spark里通过jps命令,看到的进程
  • 如何防止丝杆支撑座锈蚀?
  • XSS靶场实战(工作wuwuwu)
  • Python 重构“策略”模式:用函数简化设计模式的实践
  • 【图片识别改名】批量读取图片区域文字识别后批量改名,基于Python和腾讯云的实现方案
  • 1.5 点云数据获取方式——双目立体相机
  • Uniapp:设置页面下拉刷新
  • 服务器远程超出最大连接数的解决方案是什么?
  • 基于C++的IOT网关和平台1:github项目ctGateway
  • 基于DrissionPage的实习信息爬虫改造与解析
  • nginx配置集群服务器中的tcp负载均衡器
  • 中国飞机迎来历史性窗口,航空装备研制不断突破,智能化升级成为核心驱动力
  • nginx核心功能
  • 微服务开发中的应用生命周期管理
  • Javscript 字符串的常用方法有哪些?
  • k8s 学习记录 (六)_Pod 污点和容忍性详解
  • 20250429 垂直地表发射激光测量偏转可以验证相对性原理吗
  • Lua 第14部分 数据结构
  • 【论文阅读】PEEKABOO: Interactive Video Generation via Masked-Diffusion
  • Educational Codeforces Round 178 (Rated for Div. 2)
  • 在yolo中Ultralytics是什么意思呢?超越分析的智能
  • 【专题五】位运算(1):常见位运算操作总结
  • 【Java学习】Java的CGLIB动态代理:通俗解释与使用指南
  • 短视频矩阵批量剪辑与场景剪辑功能 OEM 定制开发