当前位置: 首页 > news >正文

Pytorch强化学习demo

训练模型, 让它的输出更接近0.8。当离0.8越大, reward越小, 甚至为负, 那就代表着奖励更少, 惩罚更多。比如现在模型输出是0.5, 那么就会有对应的reward值, 代表正奖惩力度。那么当loss向前传导, step()
更新权重时, 它知道0.5会有惩罚, 但它怎么知道要大于0.5的方向调整, 还是小于0.5的方向调整呢。它其实会对reward = 1.0 - diff * 5这个式子求导处理。因此它知道这个0.5小了。如果输出的时0.9,它会知道大了。
它会根据reward = 1.0 - diff * 5知道调整的方向. 就像调节声音一样,当你向左拧按钮,有人告诉你声音小了。往右拧,告诉你大了。多次调整就能调整到一个合适的值了。

一个值x输入model, 经过神经网络fc, 得到输出, 然后输出再经过与标注的值计算loss, 或者强化学习, 设置reward和loss策略, 从loss到x都是张量, 全都被计算图连接着。因此loss.backward()会向前传导所有计算图里的张量, optimizer.step()会根据梯度的方向来改变网络中的权重参数。

import torch
import torch.nn as nn
import torch.optim as optim# --- 模型:输入1,输出一个数(0~1之间)
class SimpleModel(nn.Module):def __init__(self):super().__init__()#    #根据fc.weight.grad和fc.bias.grad来去更新fc.bias和fc.weight的值对么self.fc = nn.Linear(1, 1)   #     self.fc = nn.Linear(1, 1)  # 输入是一个固定的常数1 y=x×w+b   w 就是 weight,b 就是 bias。  在这个小例子里,唯一在学习的,就是这个 Linear 层的 weight 和 bias。self.sigmoid = nn.Sigmoid()  # 输出限制在 [0,1]  Sigmoid()是一个激活函数, 把任何输入映射成[0, 1]之间def forward(self, x):return self.sigmoid(self.fc(x))model = SimpleModel()
optimizer = optim.Adam(model.parameters(), lr=0.1)target_value = 0.8  # 我们希望模型的输出接近这个值# --- 训练循环 ---
for step in range(50):x = torch.ones(1,1)                 # 输入随便,就给常数1output = model(x)                   # 模型输出一个值,范围[0,1]# 奖励函数:越接近 target_value 越好diff = abs(output.item() - target_value)reward = 1.0 - diff * 5  # k=5,距离越大惩罚越大# 损失函数:-reward * log(output)logp = torch.log(output)loss = -reward * logpoptimizer.zero_grad()loss.backward()optimizer.step()print(f"Step {step}: output={output.item():.3f}, reward={reward:.3f}, loss={loss.item():.3f}")# loss.backward()   # 计算出梯度,存到 fc.weight.grad 和 fc.bias.grad
# optimizer.step()  # 用梯度更新 fc.weight 和 fc.bias 的值# optimizer.step()
# 作用:根据梯度更新参数
# 例如用 SGD 的话,大概是:
# w:=w−η⋅gradw​
# b:=b−η⋅gradb​
# 其中 η 就是学习率 (lr)。
# 用 Adam 的话,更新更复杂,但核心思想一样:用 .grad 来更新 weight 和 bias
http://www.dtcms.com/a/428031.html

相关文章:

  • Python连接MinIO的参数详解
  • theano.scan 起什么作用
  • 聚合广告联盟宁波本地抖音seo推广
  • 网站代码语法免费响应式网站
  • 打开上次浏览的网站wordpress 图片并列
  • Guava Cache
  • 用 go-commons 打造更优雅的字符串处理工具
  • x86虚拟机中的时钟
  • Genome Med|RAG-HPO做表型注释:学习一下大语言模型怎么作为发文思路
  • 阳江网站建设推广迅雷2t免费空间活动
  • Python 之可变参数作为默认值的坑
  • 高数第一问:极限定义
  • Vue 3 —— L / 11-Vue3全家桶
  • 建设网站审批手续如何编辑 wordpress 主题
  • SLF4J 日志学习
  • 外贸网站推广中山网站手机模板源码下载
  • 网站后台管理模板免费下载网站建设 人性的弱点
  • nodejs动态创建sql server表
  • 做平面设计什么素材网站好使张家港网站建设优化
  • Java 进阶--函数式编程
  • 《道德经》第九章
  • 网站首页怎么做ps中国营销传播网
  • 镇江网友之家百度上如何做优化网站
  • 网站分辨率自适应代码模板网站定制网站
  • 建设网站的网站安全建设银行网站怎么修改手机号码吗
  • 网站后台可以做两个管理系统么wordpress wpenqueuestyle
  • 两种常见的ACM风格笔试题
  • 图神经网络分享系列-transe(Translating Embeddings for Modeling Multi-relational Data) (一)
  • ENVI系列教程(十九)——目标探测与识别
  • 校园超市网站开发整站优seo排名点击