当前位置：首页 > news >正文

Docker 容器中运行昇腾（Ascend）AI 环境

news 2025/10/2 21:23:31

这条命令用于在 Docker 容器中运行昇腾（Ascend）AI 环境，并通过**目录挂载（Volume Mount）**使容器能访问宿主机的昇腾驱动和相关配置。以下是详细解析：

命令结构

docker run \-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \  # 挂载驱动目录-v /etc/ascend_install.info:/etc/ascend_install.info \  # 挂载驱动配置文件-it \                                                  # 交互式终端your_image                                             # 容器镜像名称

1. 关键参数详解

`-v /usr/local/Ascend/driver:/usr/local/Ascend/driver`

作用：将宿主机的昇腾驱动目录挂载到容器内相同路径。
必要性：
- CANN Toolkit（如 CANN-runtime 或 CANN-compiler）依赖昇腾驱动（如 Ascend-driver）。
- 容器本身无法直接访问宿主机的硬件驱动，必须通过挂载共享。
路径说明：
- 宿主机路径：/usr/local/Ascend/driver（默认驱动安装位置）。
- 容器路径：必须与宿主机一致（因驱动硬编码路径）。

`-v /etc/ascend_install.info:/etc/ascend_install.info`

作用：挂载驱动安装信息文件。
必要性：
- ascend_install.info 记录了驱动的安装版本、芯片类型等关键信息。
- CANN 工具链会检查此文件以确认驱动是否有效。

`-it`

作用：以交互模式启动容器（分配伪终端并保持 STDIN 打开）。
适用场景：需要手动输入命令或调试时使用。

`your_image`

替换为你的容器镜像名称（如 image:all_port 或自定义镜像）。

2. 完整使用示例

假设镜像名为 ascend-cann:8.0，启动命令如下：

docker run -it \-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \-v /etc/ascend_install.info:/etc/ascend_install.info \--device=/dev/davinci0 \              # 挂载昇腾设备（可选，物理机需指定）--name ascend-container \ascend-cann:8.0

3. 注意事项

(1) 宿主机必须已安装昇腾驱动

检查驱动是否安装：

ls /usr/local/Ascend/driver  # 确认驱动文件存在
cat /etc/ascend_install.info # 确认驱动信息正确

若未安装，需先运行驱动安装包（如 Ascend-driver-*.run）。

(2) 容器内权限问题

如果容器内无法访问设备，尝试添加 --privileged：
```
docker run --privileged -it ...
```

或精确授权设备（推荐）：

docker run --device=/dev/davinci0 --device=/dev/davinci_manager ...

(3) 多卡环境

若宿主机有多个昇腾芯片（如 davinci0、davinci1），需挂载所有设备：
```
--device=/dev/davinci0 --device=/dev/davinci1 ...
```

(4) 文件权限一致性

确保宿主机和容器内的用户/组权限一致（尤其非 root 用户场景）。

4. 验证容器内驱动是否生效

进入容器后执行：

# 检查驱动版本
cat /etc/ascend_install.info# 查看芯片状态
npu-smi info

如果报错 npu-smi: command not found，说明驱动未正确挂载或镜像内未安装 npu-smi 工具。

5. 常见问题

Q1：容器内提示 `No Ascend device found`

可能原因：
- 驱动未挂载（检查 -v 参数路径）。
- 设备未挂载（检查 --device 参数）。
- 宿主机的驱动未正确安装。

Q2：`ascend_install.info` 文件不存在

解决：
- 在宿主机重新安装驱动。
- 或手动创建文件（需包含正确的驱动版本信息）。

Q3：性能下降

建议：
- 使用 --cap-add=SYS_NICE 提升容器调度优先级。
- 避免在容器内运行高负载任务时限制 CPU/内存（如 --cpus 或 -m）。

总结

此命令的核心是通过挂载 驱动目录 和 配置文件，让容器内的 CANN 工具链能访问宿主机的昇腾硬件资源。确保宿主机环境正确，并根据实际需求调整设备挂载和权限参数。

你列出的两个文件是 华为昇腾（Ascend）CANN 软件栈 的安装包，分别针对不同用途和组件。以下是它们的详细区别和用途说明：

1. 文件功能对比

文件名	用途	适用场景	依赖关系
`Ascend-cann-toolkit_8.0.RC3.alpha001_linux-aarch64.run`	CANN 工具包（Toolkit）包含模型训练/推理的全套工具（如编译器 `atc`、运行时库等）。	- 开发环境（需编译模型） - 支持昇腾芯片（如 910B/310）的完整 AI 开发生态。	需先安装昇腾驱动（如 `Ascend-driver-*.run`）。
`Ascend-cann-kernels-910b_8.0.RC3.alpha001_linux.run`	Kernel 插件包（Kernels）提供针对昇腾 910B 芯片优化的深度学习算子内核。	- 专为 910B 芯片的模型训练/推理优化 - 需与 CANN Toolkit 配合使用。	必须已安装 CANN Toolkit 或 Runtime。

2. 安装顺序与逻辑

前提条件：
- 宿主机已安装昇腾驱动（如 Ascend-driver-*.run）。
- 若在 Docker 中运行，需挂载驱动路径（参考前文 docker run -v 方式）。

安装步骤：

# 1. 安装 CANN Toolkit（基础工具链）
./Ascend-cann-toolkit_8.0.RC3.alpha001_linux-aarch64.run --install# 2. 安装 910B 专用 Kernel 插件（可选，仅需针对 910B 优化时）
./Ascend-cann-kernels-910b_8.0.RC3.alpha001_linux.run --install

3. 关键区别

维度	Toolkit	Kernels-910b
核心功能	编译器、运行时、调试工具等全栈支持。	仅优化 910B 芯片的算子性能。
是否必装	是（基础环境）	否（按需安装，提升 910B 性能）。
硬件兼容性	支持多款昇腾芯片（310/910 等）。	仅针对 910B 芯片。

4. 典型使用场景

(1) 仅推理场景（无需训练）

只需安装 Toolkit + Runtime（无需 Kernel 插件）。

示例命令（容器内）：

atc --model=resnet50.onnx --framework=5 --output=resnet50_om --soc_version=Ascend310

(2) 910B 训练场景

需完整安装 Toolkit + Kernels-910b。

示例代码（使用 MindSpore）：

import mindspore as ms
ms.set_context(device_target="Ascend", device_id=0)  # 调用 910B 算力

5. 安装验证

检查 Toolkit 安装：

/usr/local/Ascend/ascend-toolkit/latest/arm64-linux/compiler/bin/atc --version

检查 Kernel 插件：

ls /usr/local/Ascend/ascend-toolkit/latest/arm64-linux/kernels  # 查看 910B 优化算子

6. 注意事项

版本匹配：
Toolkit 和 Kernels 必须为同一版本（如均为 8.0.RC3.alpha001）。
Docker 部署：
若在容器内安装，需确保挂载驱动目录（参考前文 docker run -v 命令）。
卸载旧版本：
安装前建议卸载历史版本：
```
./Ascend-cann-toolkit_*.run --uninstall
```

常见问题

Q1: Kernel 插件能否单独安装？

不能！必须先安装 CANN Toolkit，Kernel 插件是其补充组件。

Q2: 安装后提示 `libascend.so not found`？

原因：驱动未正确挂载或环境变量未配置。

解决：

export LD_LIBRARY_PATH=/usr/local/Ascend/driver/lib64:$LD_LIBRARY_PATH

Q3: 如何选择 `soc_version`？

根据芯片型号填写：
- 昇腾 310 → Ascend310
- 昇腾 910B → Ascend910B

如有其他问题，建议查阅华为昇腾官方文档。
在 Docker 容器内使用 昇腾 910B 进行 Python 推理，需要正确安装 CANN 组件并配置容器挂载。以下是关键步骤和注意事项：

1. 所需安装的组件

(1) 必须安装

Ascend-cann-toolkit_*.run
- 包含推理所需的运行时（Runtime）、编译器（ATC）、Python 接口（ascend_ops 等）。
- 提供 mindspore、torch_npu 等框架的昇腾后端支持。

(2) 按需安装

Ascend-cann-kernels-910b_*.run
- 仅当需要 910B 专用算子优化时安装（如自定义模型或高性能训练）。
- 纯推理场景（如使用预编译 OM 模型）可能不需要。

2. Docker 内挂载配置

(1) 必须挂载的目录

docker run -it \-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \      # 驱动库文件-v /etc/ascend_install.info:/etc/ascend_install.info \      # 驱动版本信息--device=/dev/davinci0 \                                   # 挂载 NPU 设备--device=/dev/davinci_manager \                            # 管理接口--device=/dev/devmm_svm \                                  # 内存管理--cap-add=SYS_PTRACE \                                     # 调试权限your_image

(2) 可选挂载

模型和数据目录：

-v /host/models:/container/models \
-v /host/data:/container/data

Ascend 日志目录（调试时需挂载）：
```
-v /var/log/npu/:/var/log/npu/
```

3. Python 推理代码示例

(1) 使用 MindSpore 调用 910B

import mindspore as ms
from mindspore import Tensor
import numpy as np# 设置昇腾设备
ms.set_context(device_target="Ascend", device_id=0)# 示例：运行简单计算
input_data = Tensor(np.random.randn(2, 3).astype(np.float32))
output = ms.ops.abs(input_data)
print(output)

(2) 使用 ATC 编译模型后推理

# 容器内编译 ONNX 模型
atc --model=model.onnx --framework=5 --output=model_om --soc_version=Ascend910B

# Python 调用 OM 模型（需安装 CANN 的推理接口）
from ais_bench.infer.interface import InferSessionsession = InferSession(device_id=0, model_path="model_om.om")
inputs = [np.random.randn(1, 3, 224, 224).astype(np.float32)]
outputs = session.infer(inputs)

4. 验证环境是否正常

进入容器后执行：

# 检查驱动和工具链
npu-smi info
atc --version# 检查 Python 依赖
python3 -c "import mindspore; print(mindspore.__version__)"

5. 常见问题解决

(1) 报错 `Device not found`

原因：设备未挂载或驱动未生效。

解决：

# 检查设备节点是否存在
ls /dev/davinci*
# 确认容器内驱动版本
cat /etc/ascend_install.info

(2) 报错 `libascend.so not found`

原因：环境变量未配置。

解决：

export LD_LIBRARY_PATH=/usr/local/Ascend/driver/lib64:/usr/local/Ascend/ascend-toolkit/latest/lib64:$LD_LIBRARY_PATH

(3) 性能低下

可能原因：未安装 kernels-910b 或未启用 910B 优化。
解决：重新安装 Kernel 插件并检查 soc_version。

总结

最小安装：仅 Toolkit 即可支持基础推理。
完整优化：Toolkit + Kernels-910b + 正确挂载设备。
关键命令：确保 docker run 挂载驱动、设备节点和配置文件。

如需更复杂的训练场景，需额外安装 MindSpore 或 PyTorch NPU 适配版本。

以下是针对 昇腾910B 使用 ACL（Ascend Computing Language） 进行推理的完整流程解析和优化建议，结合您的代码实现：

1. 关键代码解析与优化

(1) 模型初始化 (`init`)

def __init__(self, model_path):self.device_id = 0ret = acl.init()  # 初始化ACL环境ret = acl.rt.set_device(self.device_id)  # 绑定设备# 加载模型（需为昇腾离线模型*.om）self.model_id, ret = acl.mdl.load_from_file(model_path)self.model_desc = acl.mdl.create_desc()ret = acl.mdl.get_desc(self.model_desc, self.model_id)# 创建输入/输出数据集self.input_dataset, self.input_data = self.prepare_dataset('input')self.output_dataset, self.output_data = self.prepare_dataset('output')

注意：model_path 需为 .om 格式模型（通过 atc 工具转换得到）。
优化建议：
- 添加错误检查：assert ret == 0, f"ACL init failed: {ret}"。
- 支持多设备：通过环境变量动态设置 device_id。

(2) 数据预处理 (`transfer_pic`)

def transfer_pic(input_path):img = Image.open(input_path).resize((224, 224))img = np.array(img).astype(np.float32)img -= [123.675, 116.28, 103.53]  # ImageNet均值img /= [58.395, 57.12, 57.375]    # ImageNet方差img = img[:, :, ::-1].transpose((2, 0, 1))  # RGB→BGR→CHWreturn np.array([img])  # 添加batch维度

问题：若模型输入非ImageNet标准，需调整归一化参数。

优化建议：

使用OpenCV替代PIL（更快）：

img = cv2.imread(input_path)
img = cv2.resize(img, (224, 224)).astype(np.float32)

(3) 推理执行 (`forward`)

def forward(self, inputs):# 拷贝输入数据到Devicefor i in range(len(inputs)):bytes_data = inputs[i].tobytes()bytes_ptr = acl.util.bytes_to_ptr(bytes_data)ret = acl.rt.memcpy(self.input_data[i]["buffer"], self.input_data[i]["size"],bytes_ptr, len(bytes_data), ACL_MEMCPY_HOST_TO_DEVICE)# 执行推理ret = acl.mdl.execute(self.model_id, self.input_dataset, self.output_dataset)# 将输出数据拷回Hostinference_result = []for i, item in enumerate(self.output_data):buffer_host, ret = acl.rt.malloc_host(item["size"])ret = acl.rt.memcpy(buffer_host, item["size"], item["buffer"], item["size"], ACL_MEMCPY_DEVICE_TO_HOST)bytes_out = acl.util.ptr_to_bytes(buffer_host, item["size"])data = np.frombuffer(bytes_out, dtype=np.float32)inference_result.append(data)return np.array(inference_result).flatten()

关键点：
- acl.rt.memcpy 是同步操作，可能成为性能瓶颈。
- 输出数据需按模型实际结构解析（如目标检测需后处理）。

2. Docker 环境配置

(1) 启动容器命令

docker run -it \-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \  # 挂载驱动-v /etc/ascend_install.info:/etc/ascend_install.info \  # 挂载驱动信息--device=/dev/davinci0 \                                # 挂载NPU设备--device=/dev/davinci_manager \--device=/dev/devmm_svm \--cap-add=SYS_PTRACE \                                  # 调试权限-v $(pwd)/models:/models \                             # 挂载模型目录-v $(pwd)/data:/data \                                 # 挂载数据目录your_image

(2) 容器内验证

# 检查设备是否识别
npu-smi info# 检查ACL环境
python3 -c "import acl; print(acl.__version__)"

3. 完整推理流程示例

# 初始化模型
model = net("/models/resnet50.om")# 处理输入数据
input_data = transfer_pic("/data/test.jpg")# 执行推理
output = model.forward(input_data)# 解析输出（示例：分类任务）
top5_idx = np.argsort(output)[-5:][::-1]
print("Top5 classes:", top5_idx)

4. 性能优化建议

异步推理：
- 使用 acl.mdl.execute_async 非阻塞接口。
- 配合回调函数处理结果。
批处理支持：
- 修改 prepare_dataset 支持多batch输入。
内存池化：
- 复用 acl.rt.malloc 分配的内存减少开销。
日志监控：
- 启用ACL日志调试：
```
export ASCEND_GLOBAL_LOG_LEVEL=1
```

5. 常见问题解决

Q1: 报错 `acl.mdl.load_from_file failed`

原因：模型路径错误或格式非 .om。

解决：

atc --model=model.onnx --framework=5 --output=model.om --soc_version=Ascend910B

Q2: 推理结果异常

检查：
- 输入数据归一化是否与训练一致。
- 模型输入/输出维度是否匹配：
```
print(acl.mdl.get_input_dims(model_desc, 0))
```

Q3: 性能低于预期

优化方向：
- 使用 npu-smi 监控算力利用率。
- 启用910B专用算子（安装 kernels-910b 包）。

总结

您的代码已实现ACL基础推理流程，重点需确保：

Docker正确挂载驱动和设备。
输入数据预处理与训练一致。
模型为昇腾优化的 .om 格式。

进一步优化可参考华为ACL官方文档。

查看全文

http://www.dtcms.com/a/323279.html

Vitalik谈以太坊：ETH财库储备策略“有益且有价值”

SELinux 入门指南

vue+flask大模型写诗诗词推荐与可视化系统

代理人工智能的隐藏威胁

【渲染流水线】[几何阶段]-[图元装配]以UnityURP为例

Pandas 分层索引

AI 大模型企业级应用落地挑战与解决方案

机器翻译：需要了解的数学基础详解

BPMN编辑器技术实现总结AI时代的工作流编辑器

Ubuntu系统忘记密码怎么办？

【机器学习深度学习】模型选型：如何根据现有设备选择合适的训练模型

安全合规3--防火墙

知识蒸馏 - 大语言模型知识蒸馏LLM-KD-Trainer 源码分析 KnowledgeDistillationTrainer类

【动态数据源】⭐️@DS注解实现项目中多数据源的配置

【QT】常⽤控件详解(六）多元素控件 QListWidget Table Widget Tree Widget

【Avalonia】无开发者账号使用iOS真机调试跨平台应用

C++四种类型转换

Tiger任务管理系统-12

SpringBoot学习日记（二）

Day38 Dataset和Dataloader类

Git 核心概念与操作全指南（含工作区、暂存区、版本库详解）

VisionMoE本地部署的创新设计：从架构演进到高效实现

python的format易混淆的细节

Java 实现企业级服务器资源监控系统（含 SSH 执行 + 邮件通知 + Excel 报表）

欧拉公式的意义

202506 电子学会青少年等级考试机器人六级器人理论真题

通用AGI到来，记忆仍需要一点旧颜色

【狂飙AGI】2025年上半年中文大模型综合性测评

[已解决]VSCode右键菜单消失恢复

用户需求调研后的信息如何整理

命令结构

1. 关键参数详解

-v /usr/local/Ascend/driver:/usr/local/Ascend/driver

-v /etc/ascend_install.info:/etc/ascend_install.info

-it

your_image

2. 完整使用示例

3. 注意事项

(1) 宿主机必须已安装昇腾驱动

(2) 容器内权限问题

(3) 多卡环境

(4) 文件权限一致性

4. 验证容器内驱动是否生效

5. 常见问题

Q1：容器内提示 No Ascend device found

Q2：ascend_install.info 文件不存在

Q3：性能下降

总结

1. 文件功能对比

2. 安装顺序与逻辑

3. 关键区别

4. 典型使用场景

(1) 仅推理场景（无需训练）

(2) 910B 训练场景

5. 安装验证

6. 注意事项

常见问题

Q1: Kernel 插件能否单独安装？

Q2: 安装后提示 libascend.so not found？

Q3: 如何选择 soc_version？

1. 所需安装的组件

(1) 必须安装

(2) 按需安装

2. Docker 内挂载配置

(1) 必须挂载的目录

(2) 可选挂载

3. Python 推理代码示例

(1) 使用 MindSpore 调用 910B

(2) 使用 ATC 编译模型后推理

4. 验证环境是否正常

5. 常见问题解决

(1) 报错 Device not found

(2) 报错 libascend.so not found

(3) 性能低下

总结

1. 关键代码解析与优化

(1) 模型初始化 (__init__)

(2) 数据预处理 (transfer_pic)

(3) 推理执行 (forward)

2. Docker 环境配置

(1) 启动容器命令

(2) 容器内验证

3. 完整推理流程示例

4. 性能优化建议

5. 常见问题解决

Q1: 报错 acl.mdl.load_from_file failed

Q2: 推理结果异常

Q3: 性能低于预期

总结

相关文章：

`-v /usr/local/Ascend/driver:/usr/local/Ascend/driver`

`-v /etc/ascend_install.info:/etc/ascend_install.info`

`-it`

`your_image`

Q1：容器内提示 `No Ascend device found`

Q2：`ascend_install.info` 文件不存在

Q2: 安装后提示 `libascend.so not found`？

Q3: 如何选择 `soc_version`？

(1) 报错 `Device not found`

(2) 报错 `libascend.so not found`

(1) 模型初始化 (`init`)

(2) 数据预处理 (`transfer_pic`)

(3) 推理执行 (`forward`)

Q1: 报错 `acl.mdl.load_from_file failed`