当前位置: 首页 > wzjs >正文

绍兴市建设银行网站购买建立网站费怎么做会计凭证

绍兴市建设银行网站,购买建立网站费怎么做会计凭证,深圳龙岗网络,一站式网站手机端怎么做以下是一个使用Python结合stable-baselines3库(包含PPO和TD3算法)以及gym库来实现分层强化学习的示例代码。该代码将环境中的动作元组分别提供给高层处理器PPO和低层处理器TD3进行训练,并实现单独训练和共同训练的功能。 代码实现 import g…

以下是一个使用Python结合stable-baselines3库(包含PPO和TD3算法)以及gym库来实现分层强化学习的示例代码。该代码将环境中的动作元组分别提供给高层处理器PPO和低层处理器TD3进行训练,并实现单独训练和共同训练的功能。

代码实现

import gym
from stable_baselines3 import PPO, TD3
from stable_baselines3.common.vec_env import DummyVecEnv# 定义一个简单的示例环境
class SimpleEnv(gym.Env):def __init__(self):self.action_space = gym.spaces.Box(low=-1, high=1, shape=(2,), dtype=float)self.observation_space = gym.spaces.Box(low=-1, high=1, shape=(4,), dtype=float)self.state = self.observation_space.sample()def step(self, action):# 简单的状态转移和奖励计算self.state = self.state + action * 0.1reward = -((self.state ** 2).sum())done = Falseinfo = {}return self.state, reward, done, infodef reset(self):self.state = self.observation_space.sample()return self.statedef render(self, mode='human'):pass# 单独训练PPO
def train_ppo(env, total_timesteps=10000):model = PPO('MlpPolicy', env, verbose=1)model.learn(total_timesteps=total_timesteps)return model# 单独训练TD3
def train_td3(env, total_timesteps=10000):model = TD3('MlpPolicy', env, verbose=1)model.learn(total_timesteps=total_timesteps)return model# 共同训练
def co_train(env, ppo_total_timesteps=10000, td3_total_timesteps=10000):ppo_env = DummyVecEnv([lambda: env])td3_env = DummyVecEnv([lambda: env])ppo_model = PPO('MlpPolicy', ppo_env, verbose=1)td3_model = TD3('MlpPolicy', td3_env, verbose=1)ppo_model.learn(total_timesteps=ppo_total_timesteps)td3_model.learn(total_timesteps=td3_total_timesteps)return ppo_model, td3_modelif __name__ == "__main__":env = SimpleEnv()# 单独训练PPOprint("单独训练PPO...")ppo_model = train_ppo(env)# 单独训练TD3print("单独训练TD3...")td3_model = train_td3(env)# 共同训练print("共同训练PPO和TD3...")ppo_co_model, td3_co_model = co_train(env)

代码解释

  1. 环境定义SimpleEnv是一个简单的自定义环境,包含动作空间和观测空间的定义,以及stepresetrender方法。
  2. 单独训练函数
    • train_ppo:使用PPO算法对环境进行训练。
    • train_td3:使用TD3算法对环境进行训练。
  3. 共同训练函数co_train函数分别使用PPO和TD3算法对环境进行训练。
  4. 主程序:创建一个简单的环境实例,并分别调用单独训练和共同训练函数。

注意事项

  • 该示例中的环境是一个简单的自定义环境,你可以根据实际需求替换为其他gym环境。
  • stable-baselines3库提供了方便的接口来实现PPO和TD3算法,你可以根据需要调整训练参数。
  • 分层强化学习的实现通常需要更复杂的架构和逻辑,该示例仅为一个简单的演示。

文章转载自:

http://ezlkry85.jpqmq.cn
http://XkhVYp4P.jpqmq.cn
http://WoJMM7YC.jpqmq.cn
http://anyCKmvy.jpqmq.cn
http://ZQJhOcha.jpqmq.cn
http://wUXa2Zpt.jpqmq.cn
http://Ls2SQaI7.jpqmq.cn
http://oQKxyaT9.jpqmq.cn
http://j6KBtXMW.jpqmq.cn
http://R9M8QHSu.jpqmq.cn
http://MEFmOCiQ.jpqmq.cn
http://OLmLeNec.jpqmq.cn
http://l7Rd4iPO.jpqmq.cn
http://bIlkll49.jpqmq.cn
http://OoxIh6pq.jpqmq.cn
http://vCZhv9VA.jpqmq.cn
http://ULN1GgBe.jpqmq.cn
http://rPBXSE7O.jpqmq.cn
http://kAOHyEoO.jpqmq.cn
http://mWkTZabP.jpqmq.cn
http://xKn0Hism.jpqmq.cn
http://oYmqyxEJ.jpqmq.cn
http://cADLeSiE.jpqmq.cn
http://GWoCJvQ9.jpqmq.cn
http://9G59DrrW.jpqmq.cn
http://surKrvFq.jpqmq.cn
http://1cn8HQFZ.jpqmq.cn
http://Xva5L5iO.jpqmq.cn
http://IR8lyHYc.jpqmq.cn
http://JbnP9di6.jpqmq.cn
http://www.dtcms.com/wzjs/724679.html

相关文章:

  • wordpress 站长统计wordpress 封面图像
  • 青岛网站公司网站建设优化服务精英
  • 网站开发推广方案策划书白云区网站建设公司
  • 吴江区城乡建设管理局网站高德导航怎么看街景地图
  • 兰州网站搜索优化网站建设公开招标
  • 建站工具指北wordpress支持视频
  • ac域名的网站有啥不同电脑做的本地网站手机看
  • 网站建设公司 待遇企业平台网站建设
  • 公司网站申请网站建设需要ui吗
  • 雄安做网站要多少钱wordpress函数
  • 鞍山做网站或视频剪辑培训
  • 怎样做加入购物车的网站深圳网站策划
  • 杭州哪里做网站wordpress询价管理
  • 做网站 做手机app要学什么软件邢台开发区建设小学官方网站
  • 黄埔做网站的公国企央企招聘2022年
  • 网站备案号 英文昆明网站服务
  • 四川省和城乡建设厅网站深圳seo博客
  • 潍坊哪里做网站好化工厂网站建设
  • 蓬莱做网站案例seo发外链工具
  • dede 网站目录精通网站建设
  • 网站怎样做自适应分辨率大小网站开发花费
  • 从化手机网站建设网站建设制作心得团队
  • 知识网站有哪些html个人网页代码模板
  • 上海网站设计优刻用ih5做微网站
  • 网站制作完工验收单网页制作技巧有哪些
  • 番禺制作网站技术室内设计师个人简介
  • 谷歌官方网站首页成都广告牌制作厂家
  • 网站备案的意思网站域名注册网站
  • 成立网站建设公司要求正邦设计招聘
  • 产品设计网站官网php网站开发实际教程答案