当前位置：首页 > news >正文

多智能体强化学习（MARL）简介：从独立Q学习到MADDPG

news 2025/9/20 12:55:49

点击 “AladdinEdu，同学们用得起的【H卡】算力平台”，注册即送-H卡级别算力，沉浸式云原生的集成开发环境，80G大显存多卡并行，按量弹性计费，教育用户更享超低价。

引言：从单智能体到多智能体的演进

强化学习（Reinforcement Learning, RL）近年来取得了令人瞩目的成就，从在围棋中击败世界冠军的AlphaGo，到在复杂视频游戏中达到超人水平的智能体。然而，这些成功案例大多集中在单智能体环境，即只有一个智能体与环境进行交互。现实世界中的许多问题本质上是多智能体的，涉及多个决策者之间的交互、合作与竞争。

多智能体强化学习（Multi-Agent Reinforcement Learning, MARL）将传统的RL扩展到多个智能体同时学习和决策的场景。这一扩展带来了全新的挑战和机遇，包括智能体间的协调、通信、竞争以及环境非平稳性等问题。

本文将深入探讨MARL的核心挑战，特别是非平稳性问题，并系统介绍从最简单的独立Q学习到最先进的MADDPG算法。我们将通过理论分析、算法框架和代码实现，全面解析多智能体强化学习的发展脉络和技术细节。

一、多智能体环境中的核心挑战

1.1 非平稳性（Non-stationarity）问题

在多智能体环境中，最突出的挑战是环境非平稳性。在单智能体RL中，环境动态是稳定的，即状态转移概率P(s’|s,a)和奖励函数R(s,a)是固定的。但在MARL中，其他智能体的策略也在不断学习更新，从单个智能体的视角来看，环境动态一直在变化。

数学表达：
对于智能体i，环境动态可以表示为：
P(s’|s, aᵢ, a₋ᵢ) 和 Rᵢ(s, aᵢ, a₋ᵢ)

其中a₋ᵢ表示其他所有智能体的动作。随着其他智能体策略π₋ᵢ的学习更新，从智能体i的角度看，环境动态似乎在不断变化，这违背了传统RL算法依赖的环境平稳性假设。

1.2 信用分配（Credit Assignment）问题

在多智能体环境中，当团队获得集体奖励时，如何将 credit 合理分配给每个智能体是一个重要挑战。特别是在延迟奖励的情况下，很难确定哪个智能体的哪个动作对最终结果产生了贡献。

1.3 协调（Coordination）与通信（Communication）问题

在多智能体合作任务中，智能体之间需要协调各自的行为以实现共同目标。这涉及到何时通信、通信什么内容以及如何理解他人通信信息等一系列复杂问题。

1.4 可扩展性（Scalability）问题

随着智能体数量的增加，联合状态和动作空间呈指数级增长，这被称为"维度灾难"。如何设计可扩展的算法来处理大量智能体是一个实际挑战。

二、多智能体强化学习分类框架

2.1 基于学习范式的分类

MARL算法可以根据智能体间的交互方式分为以下几类：

完全合作型：所有智能体共享一个奖励函数，目标是最大化集体回报
完全竞争型：智能体间利益完全对立，如零和博弈
混合型：既包含合作元素也包含竞争元素，大多数现实世界问题属于此类

2.2 基于架构的分类

从系统架构角度，MARL算法可以分为：

集中式（Centralized）：有一个中央控制器收集所有信息并做出决策
分布式（Decentralized）：每个智能体基于本地信息独立决策
集中式训练分布式执行（CTDE）：训练时使用全局信息，执行时每个智能体基于本地信息决策

三、独立Q学习（IQL）

3.1 算法原理

独立Q学习（Independent Q-Learning, IQL）是最简单的MARL方法，每个智能体将自己的Q学习算法独立地应用于多智能体环境，忽略其他智能体的存在。

每个智能体i维护自己的Q函数Qᵢ(s, aᵢ)，并按照标准Q学习更新：
Qᵢ(s, aᵢ) ← Qᵢ(s, aᵢ) + α[rᵢ + γmaxₐᵢ’ Qᵢ(s’, aᵢ’) - Qᵢ(s, aᵢ)]

3.2 优点与局限性

优点：

实现简单，直接重用单智能体算法
不需要智能体间的通信
可扩展性好

局限性：

忽略环境非平稳性，可能收敛困难
无法处理智能体间的显式协调
在需要紧密合作的任务中性能有限

3.3 代码实现

下面是独立Q学习在多智能体环境中的Python实现：

import numpy as np
import random
from collections import defaultdictclass IQLAgent:def __init__(self, agent_id, action_space, learning_rate=0.1, discount_factor=0.95, epsilon=0.1):self.agent_id = agent_idself.action_space = action_spaceself.learning_rate = learning_rateself.discount_factor = discount_factorself.epsilon = epsilonself.q_table = defaultdict(lambda: np.zeros(len(action_space)))def choose_action(self, state):"""ε-greedy策略选择动作"""if np.random.random() < self.epsilon:return random.choice(self.action_space)else:state = self._state_to_key(state)return self.action_space[np.argmax(self.q_table[state])]def learn(self, state, action, reward, next_state, done):"""Q学习更新"""state_key = self._state_to_key(state)next_state_key = self._state_to_key(next_state)current_q = self.q_table[state_key][self.action_space.index(action)]if done:target = rewardelse:max_next_q = np.max(self.q_table[next_state_key])target = reward + self.discount_factor * max_next_q# 更新Q值self.q_table[state_key][self.action_space.index(action)] += \self.learning_rate * (target - current_q)def _state_to_key(self, state):"""将状态转换为可哈希的键"""if isinstance(state, (list, np.ndarray)):return tuple(state)return state# 多智能体环境模拟
class MultiAgentEnv:def __init__(self, n_agents=2, grid_size=5):self.n_agents = n_agentsself.grid_size = grid_sizeself.agents_pos = Noneself.target_pos = Noneself.actions = ['up', 'down', 'left', 'right']self.reset()def reset(self):"""重置环境"""self.agents_pos = [np.random.randint(0, self.grid_size, size=2) for _ in range(self.n_agents)]self.target_pos = np.random.randint(0, self.grid_size, size=2)while any(np.array_equal(self.target_pos, pos) for pos in self.agents_pos):self.target_pos = np.random.randint(0, self.grid_size, size=2)return self._get_state()def _get_state(self):"""获取联合状态"""# 简化的状态表示：每个智能体相对于目标的位置state = []for pos in self.agents_pos:relative_pos = pos - self.target_posstate.extend(relative_pos)return statedef step(self, actions):"""执行动作"""rewards = [0] * self.n_agentsdone = False# 移动智能体for i, (action, pos) in enumerate(zip(actions, self.agents_pos)):if action == 'up' and pos[0] > 0:self.agents_pos[i][0] -= 1elif action == 'down' and pos[0] < self.grid_size - 1:self.agents_pos[i][0] += 1elif action == 'left' and pos[1] > 0:self.agents_pos[i][1] -= 1elif action == 'right' and pos[1] < self.grid_size - 1:self.agents_pos[i][1] += 1# 检查是否到达目标for i, pos in enumerate(self.agents_pos):if np.array_equal(pos, self.target_pos):rewards[i] = 10done = True# 小惩罚鼓励尽快到达目标if not done:for i in range(self.n_agents):rewards[i] = -0.1return self._get_state(), rewards, done# 训练IQL智能体
def train_iql(env, agents, episodes=1000):rewards_history = []for episode in range(episodes):state = env.reset()total_rewards = [0] * env.n_agentsdone = Falsewhile not done:actions = [agent.choose_action(state) for agent in agents]next_state, rewards, done = env.step(actions)for i, agent in enumerate(agents):agent.learn(state, actions[i], rewards[i], next_state, done)total_rewards[i] += rewards[i]state = next_staterewards_history.append(total_rewards)if (episode + 1) % 100 == 0:print(f"Episode {episode + 1}, Average Reward: {np.mean(total_rewards):.2f}")return rewards_history# 创建环境和智能体
env = MultiAgentEnv(n_agents=2)
agents = [IQLAgent(i, env.actions) for i in range(env.n_agents)]# 训练
rewards_history = train_iql(env, agents, episodes=1000)

四、联合行动学习器（JAQL）

4.1 算法原理

联合行动学习器（Joint Action Q-Learning, JAQL）通过将其他智能体的动作纳入状态表示来显式处理多智能体交互。每个智能体学习一个Q函数Qᵢ(s, aᵢ, a₋ᵢ)，其中a₋ᵢ表示其他智能体的联合动作。

更新规则为：
Qᵢ(s, aᵢ, a₋ᵢ) ← Qᵢ(s, aᵢ, a₋ᵢ) + α[rᵢ + γmaxₐᵢ’ Qᵢ(s’, aᵢ’, a₋ᵢ’) - Qᵢ(s, aᵢ, a₋ᵢ)]

4.2 优点与局限性

优点：

显式建模其他智能体的动作
理论上能更好处理多智能体协调

局限性：

联合动作空间随智能体数量指数增长
需要观察或其他智能体的动作信息
在实际中难以扩展到大量智能体

五、纳什Q学习

5.1 算法原理

纳什Q学习将博弈论中的纳什均衡概念引入Q学习。每个智能体学习一个Q函数Qᵢ(s, a)，其中a是所有智能体的联合动作。更新时不是取最大值，而是计算纳什均衡值。

Qᵢ(s, a) ← Qᵢ(s, a) + α[rᵢ + γNashQᵢ(s’) - Qᵢ(s, a)]

其中NashQᵢ(s’)是在状态s’的纳什均衡值。

5.2 优点与局限性

优点：

理论基础坚实，基于博弈论
能够收敛到纳什均衡策略

局限性：

计算纳什均衡计算复杂度高
需要知道所有智能体的奖励函数
在实际问题中难以应用

六、值分解网络（VDN）

6.1 算法原理

值分解网络（Value Decomposition Networks, VDN）是CTDE框架下的算法，核心思想是将联合Q函数分解为单个智能体Q函数的和：

Qₜₒₜ(s, a) = ∑ᵢ Qᵢ(sᵢ, aᵢ)

其中Qᵢ(sᵢ, aᵢ)是每个智能体的个体Q函数，Qₜₒₜ(s, a)是联合Q函数。

6.2 优点与局限性

优点：

遵循CTDE框架，结合了集中式和分布式优点
通过值分解简化学习问题
在合作任务中表现良好

局限性：

加性分解假设可能过于简单
无法表示某些类型的团队协调

七、QMIX算法

7.1 算法原理

QMIX是对VDN的改进，它使用一个混合网络来将个体Q值组合成联合Q值，而不是简单相加。混合网络的结构确保：

∂Qₜₒₜ/∂Qᵢ ≥ 0 for all i

这一单调性约束保证了个体策略与联合策略的一致性。

7.2 网络结构

QMIX包含三个主要组件：

个体Q网络：每个智能体有自己的DRQN（Deep Recurrent Q-Network）
混合网络：将个体Q值组合成联合Q值
超网络：为混合网络生成权重和偏置

7.3 优点与局限性

优点：

比VDN更灵活的值分解方式
保持了单调性约束
在 StarCraft II 等复杂环境中表现优异

局限性：

网络结构较为复杂
训练需要更多计算资源

八、MADDPG算法

8.1 算法原理

MADDPG（Multi-Agent Deep Deterministic Policy Gradient）是DDPG算法在多智能体环境下的扩展，采用CTDE框架。每个智能体有自己的Actor和Critic，但Critic在训练时可以使用其他智能体的信息。

核心思想：

集中式Critic：每个智能体的Critic网络接收所有智能体的状态和动作作为输入
分布式Actor：每个智能体的Actor网络只基于本地观察输出动作

8.2 算法细节

对于每个智能体i，我们维护：

Actor网络 μᵢ(oᵢ|θᵢ) 基于本地观察oᵢ输出动作
Critic网络 Qᵢ(x, a₁, a₂, …, aₙ|ϕᵢ) 接收全局信息x和所有动作

Critic的损失函数：
L(ϕᵢ) = E[(yᵢ - Qᵢ(x, a₁, a₂, …, aₙ|ϕᵢ))²]
其中 yᵢ = rᵢ + γQᵢ’(x’, a₁’, a₂’, …, aₙ’|ϕᵢ’)|ₐₖ’=μₖ’(oₖ)

Actor的梯度：
∇θᵢJ(μᵢ) = E[∇θᵢμᵢ(oᵢ)∇ₐᵢQᵢ(x, a₁, a₂, …, aₙ|ϕᵢ)|ₐᵢ=μᵢ(oᵢ)]

8.3 代码实现

下面是MADDPG算法的简化实现：

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
from collections import deque, namedtuple
import random# 定义经验回放缓冲区
Experience = namedtuple('Experience', ['state', 'action', 'reward', 'next_state', 'done'])class ReplayBuffer:def __init__(self, capacity):self.buffer = deque(maxlen=capacity)def push(self, *args):self.buffer.append(Experience(*args))def sample(self, batch_size):return random.sample(self.buffer, batch_size)def __len__(self):return len(self.buffer)# 定义Actor网络
class Actor(nn.Module):def __init__(self, state_dim, action_dim, hidden_dim=64):super(Actor, self).__init__()self.net = nn.Sequential(nn.Linear(state_dim, hidden_dim),nn.ReLU(),nn.Linear(hidden_dim, hidden_dim),nn.ReLU(),nn.Linear(hidden_dim, action_dim),nn.Tanh())def forward(self, state):return self.net(state)# 定义Critic网络
class Critic(nn.Module):def __init__(self, state_dim, action_dim, n_agents, hidden_dim=64):super(Critic, self).__init__()self.n_agents = n_agentsinput_dim = state_dim + action_dim * n_agentsself.net = nn.Sequential(nn.Linear(input_dim, hidden_dim),nn.ReLU(),nn.Linear(hidden_dim, hidden_dim),nn.ReLU(),nn.Linear(hidden_dim, 1))def forward(self, state, actions):# 拼接所有状态和动作x = torch.cat([state] + [actions[:, i, :] for i in range(self.n_agents)], dim=-1)return self.net(x)# MADDPG智能体
class MADDPGAgent:def __init__(self, agent_id, state_dim, action_dim, n_agents, lr_actor=0.001, lr_critic=0.001, gamma=0.95, tau=0.01):self.agent_id = agent_idself.state_dim = state_dimself.action_dim = action_dimself.n_agents = n_agentsself.gamma = gammaself.tau = tau# Actor网络self.actor = Actor(state_dim, action_dim)self.actor_target = Actor(state_dim, action_dim)self.actor_optimizer = optim.Adam(self.actor.parameters(), lr=lr_actor)# Critic网络self.critic = Critic(state_dim * n_agents, action_dim, n_agents)self.critic_target = Critic(state_dim * n_agents, action_dim, n_agents)self.critic_optimizer = optim.Adam(self.critic.parameters(), lr=lr_critic)# 初始化目标网络权重self.hard_update(self.actor_target, self.actor)self.hard_update(self.critic_target, self.critic)def hard_update(self, target, source):for target_param, param in zip(target.parameters(), source.parameters()):target_param.data.copy_(param.data)def soft_update(self, target, source):for target_param, param in zip(target.parameters(), source.parameters()):target_param.data.copy_(self.tau * param.data + (1 - self.tau) * target_param.data)def get_action(self, state, noise_scale=0.1):state = torch.FloatTensor(state).unsqueeze(0)action = self.actor(state).squeeze(0).detach().numpy()# 添加探索噪声noise = noise_scale * np.random.randn(self.action_dim)action = np.clip(action + noise, -1.0, 1.0)return actiondef update(self, batch, agents):states, actions, rewards, next_states, dones = batch# 转换为Tensorstates = torch.FloatTensor(states)actions = torch.FloatTensor(actions)rewards = torch.FloatTensor(rewards)next_states = torch.FloatTensor(next_states)dones = torch.FloatTensor(dones)agent_id = self.agent_id# 更新Criticnext_actions = torch.zeros(actions.shape)for i, agent in enumerate(agents):next_actions[:, i, :] = agent.actor_target(next_states[:, i, :])q_next = self.critic_target(next_states.view(-1, self.state_dim * self.n_agents), next_actions.view(-1, self.action_dim * self.n_agents))q_target = rewards[:, agent_id].unsqueeze(1) + self.gamma * (1 - dones[:, agent_id].unsqueeze(1)) * q_nextq_value = self.critic(states.view(-1, self.state_dim * self.n_agents), actions.view(-1, self.action_dim * self.n_agents))critic_loss = nn.MSELoss()(q_value, q_target.detach())self.critic_optimizer.zero_grad()critic_loss.backward()self.critic_optimizer.step()# 更新Actorcurrent_actions = actions.clone()current_actions[:, agent_id, :] = self.actor(states[:, agent_id, :])actor_loss = -self.critic(states.view(-1, self.state_dim * self.n_agents), current_actions.view(-1, self.action_dim * self.n_agents)).mean()self.actor_optimizer.zero_grad()actor_loss.backward()self.actor_optimizer.step()# 更新目标网络self.soft_update(self.actor_target, self.actor)self.soft_update(self.critic_target, self.critic)return critic_loss.item(), actor_loss.item()# 多智能体环境
class MultiAgentEnv:def __init__(self, n_agents=2, state_dim=4, action_dim=2):self.n_agents = n_agentsself.state_dim = state_dimself.action_dim = action_dimdef reset(self):# 随机初始化状态return np.random.randn(self.n_agents, self.state_dim)def step(self, actions):# 简化环境动态next_states = np.random.randn(self.n_agents, self.state_dim)rewards = np.random.randn(self.n_agents)dones = np.random.rand(self.n_agents) > 0.9  # 10%概率结束return next_states, rewards, dones# 训练MADDPG
def train_maddpg(env, agents, episodes=1000, batch_size=32):buffer = ReplayBuffer(10000)rewards_history = []for episode in range(episodes):states = env.reset()episode_rewards = np.zeros(env.n_agents)while True:# 选择动作actions = []for i, agent in enumerate(agents):action = agent.get_action(states[i])actions.append(action)# 执行动作next_states, rewards, dones = env.step(actions)# 存储经验buffer.push(states, actions, rewards, next_states, dones)# 更新状态和奖励states = next_statesepisode_rewards += rewards# 如果所有智能体都完成或缓冲区有足够样本，开始训练if np.any(dones) or len(buffer) >= batch_size:if len(buffer) >= batch_size:batch = buffer.sample(batch_size)# 转换batch格式states_b = np.array([exp.state for exp in batch])actions_b = np.array([exp.action for exp in batch])rewards_b = np.array([exp.reward for exp in batch])next_states_b = np.array([exp.next_state for exp in batch])dones_b = np.array([exp.done for exp in batch])# 更新每个智能体for i, agent in enumerate(agents):agent.update((states_b, actions_b, rewards_b, next_states_b, dones_b), agents)if np.any(dones):breakrewards_history.append(episode_rewards)if (episode + 1) % 100 == 0:avg_reward = np.mean([np.sum(r) for r in rewards_history[-100:]])print(f"Episode {episode + 1}, Average Reward: {avg_reward:.2f}")return rewards_history# 创建环境和智能体
env = MultiAgentEnv(n_agents=2, state_dim=4, action_dim=2)
agents = [MADDPGAgent(i, 4, 2, 2) for i in range(2)]# 训练
rewards_history = train_maddpg(env, agents, episodes=1000)

九、算法比较与应用场景

9.1 算法对比分析

算法	适用场景	通信需求	可扩展性	收敛性
IQL	简单任务，智能体间交互少	无	好	可能不收敛
JAQL	需要显式建模交互的任务	需要动作信息	差	较好
纳什Q学习	竞争或混合动机环境	需要全局信息	差	收敛到纳什均衡
VDN	完全合作任务	训练时集中	中等	较好
QMIX	复杂合作任务	训练时集中	中等	好
MADDPG	连续动作空间，混合动机	训练时集中	中等	好

9.2 典型应用场景

多机器人协调：多机器人搬运、搜索救援等任务
自动驾驶：多车辆协同行驶和交通优化
游戏AI：团队竞技游戏中的智能体协作
资源分配：多智能体系统中的资源优化分配
网络路由：分布式网络中的路由优化

十、未来发展方向

10.1 算法改进方向

更高效的值分解方法：开发更灵活且理论保证的值分解方法
注意力机制应用：使用注意力机制处理可变数量的智能体
分层强化学习：结合分层RL处理多时间尺度的决策问题
元学习：使智能体能够快速适应新任务或新队友

10.2 理论挑战

收敛性分析：在更一般情况下分析MARL算法的收敛性
样本复杂度：降低学习所需的环境交互次数
泛化能力：提高学得策略对新情况和新队友的泛化能力

10.3 实际应用挑战

通信约束：在带宽有限的现实环境中实现有效通信
异构智能体：处理能力、目标和观察空间不同的智能体
安全与伦理：确保多智能体系统的决策安全且符合伦理规范

总结

多智能体强化学习是一个充满挑战且快速发展的领域。从最简单的独立Q学习到复杂的MADDPG算法，研究人员提出了各种方法来应对多智能体环境中的非平稳性、信用分配和协调问题。

CTDE框架已成为MARL的主流范式，通过在训练时利用全局信息来解决信用分配问题，同时在执行时保持分布式决策的实用性。值分解方法如VDN和QMIX在合作任务中表现出色，而MADDPG则适用于连续动作空间和混合动机环境。

尽管已取得显著进展，MARL仍然面临许多开放性问题，包括算法的可扩展性、收敛性保证以及在实际系统中的应用。随着计算能力的提升和新算法的发展，我们期待MARL在更多复杂现实问题中发挥重要作用。

通过本文的介绍，希望读者能够对多智能体强化学习有一个全面的了解，并为在这一领域的进一步研究和应用奠定基础。无论是学术研究还是工业应用，MARL都提供了一个丰富而有挑战性的研究方向，有望在未来人工智能发展中发挥关键作用。

点击 “AladdinEdu，同学们用得起的【H卡】算力平台”，注册即送-H卡级别算力，沉浸式云原生的集成开发环境，80G大显存多卡并行，按量弹性计费，教育用户更享超低价。

查看全文

http://www.dtcms.com/a/391746.html

【数控系统】第八章七段式加减速算法

知识蒸馏（KD）详解三：基于BERT的知识蒸馏代码实战

数字化手术室品牌厂家——珠海全视通

Linux 冯诺依曼体系结构与进程理解

Git GitHub 个人账户创建及链接本地项目教程

Leetcode 20

第五章：离家出走

RabbitMQ配置项

用html5写一个时区时间查询器

deepseek认为明天CSP-J/S初赛的重点

基于Vue的场景解决

浅谈 Sui 的区块链隐私解决方案

ETF期权交易的基础知识是什么？

连接管理模块的实现

AI 的耳朵在哪里？—— 语音识别

微博舆情大数据实战项目 Python爬虫+SnowNLP情感+Vue可视化全栈开发大数据项目机器学习✅

Dify笔记

高精度维文OCR系统：基于深度学习驱动的实现路径、技术优势与挑战

使用Python＋Selenium做自动化测试

GESP C++ 三级 2025年6月真题解析

Linux系统多线程的互斥问题

Python 之监控服务器服务

el-select 多选增加全部选项

Day24 窗口操作

5. Linux 文件系统基本管理

【MySQL】GROUP BY详解与优化

深度学习：DenseNet 稠密连接 -- 缓解梯度消失

Linux DNS 子域授权实践

团体程序设计天梯赛-练习集 L1-041 寻找250

mellanox网卡（ConnectX-7）开启SACK

点击 “AladdinEdu，同学们用得起的【H卡】算力平台”，注册即送-H卡级别算力，沉浸式云原生的集成开发环境，80G大显存多卡并行，按量弹性计费，教育用户更享超低价。

引言：从单智能体到多智能体的演进

一、多智能体环境中的核心挑战

1.1 非平稳性（Non-stationarity）问题

1.2 信用分配（Credit Assignment）问题

1.3 协调（Coordination）与通信（Communication）问题

1.4 可扩展性（Scalability）问题

二、多智能体强化学习分类框架

2.1 基于学习范式的分类

2.2 基于架构的分类

三、独立Q学习（IQL）

3.1 算法原理

3.2 优点与局限性

3.3 代码实现

四、联合行动学习器（JAQL）

4.1 算法原理

4.2 优点与局限性

五、纳什Q学习

5.1 算法原理

5.2 优点与局限性

六、值分解网络（VDN）

6.1 算法原理

6.2 优点与局限性

七、QMIX算法

7.1 算法原理

7.2 网络结构

7.3 优点与局限性

八、MADDPG算法

8.1 算法原理

8.2 算法细节

8.3 代码实现

九、算法比较与应用场景

9.1 算法对比分析

9.2 典型应用场景

十、未来发展方向

10.1 算法改进方向

10.2 理论挑战

10.3 实际应用挑战

总结

点击 “AladdinEdu，同学们用得起的【H卡】算力平台”，注册即送-H卡级别算力，沉浸式云原生的集成开发环境，80G大显存多卡并行，按量弹性计费，教育用户更享超低价。

相关文章：