当前位置: 首页 > news >正文

华为910B服务器(搭载昇腾Ascend 910B AI 芯片的AI服务器查看服务器终端信息

在华为 910B 服务器(通常指搭载 昇腾 Ascend 910B AI 芯片 的 AI 服务器)上,若你想查看服务器终端信息(如设备状态、NPU 信息、驱动版本、算力使用情况等),可通过以下命令和工具进行操作。这些操作通常在 Linux 系统终端(如 Ubuntu/CentOS) 中执行。

✅ 1. 确认是否安装 CANN(昇腾计算架构)

昇腾 910B 依赖华为 CANN(Compute Architecture for Neural Networks) 软件栈。首先确认是否已安装:

npu-smi info

如果提示 command not found,说明 CANN 未安装或环境变量未配置。需先安装 CANN(参考华为官方文档)。

✅ 2. 查看 NPU(Ascend 910B)设备信息

使用 npu-smi 工具(类似 nvidia-smi):

npu-smi info

输出示例:

root@suidao:/home/ubuntu# | npu-smi 25.0.rc1.1               Version: 25.0.rc1.1                                                       |
+---------------------------+---------------+---------------------------------------------------+
| NPU   Name                | Health        | Power(W)    Temp(C)           Huge  pages-Usage(page)|
| Chip                      | Bus-Id        | AICore(%)   Memory-Usage(MB)  HBM- Usage(MB)        |
+===========================+===============+====================================================+
| 12    910B2C              | Warning       | 90.4        48                0    / 0             |
| 0                         | 0000:00:09.0  | 0           0    / 0          3197     / 65536         |
+===========================+===============+====================================================+
| 15    910B2C              | Warning       | 90.3        44                0    / 0             |
| 0                         | 0000:00:08.0  | 0           0    / 0          3200     / 65536         |
+===========================+===============+====================================================+
+---------------------------+---------------+----------------------------------------------------+
| NPU     Chip              | Process id    | Process name             | Process             memory(MB)      |

该命令可显示:

  • NPU 芯片型号(910B)
  • 健康状态(OK / Warning / Critical)
  • 驱动版本(Driver Version)
  • CANN 版本
  • 温度、功耗、利用率

✅ 3. 查看某一张 NPU 卡的使用情况(例如 Card ID = 12)

npu-smi info -t usages -i 12  # 查看 NPU 0 的使用情况

✅ 4. 查看 NPU 卡(逻辑卡 ID 为 0)的主板/板级信息的

npu-smi info -t firmware

在这里插入图片描述
在这里插入图片描述

✅ 4. **查看健康状态详情(关键!)

npu-smi info -t health -i 12

该命令会返回每块 NPU 的详细健康状态,包括:

是否存在 ECC 错误
温度/电压是否超限
PCIe 链路是否降速
固件是否异常等

在这里插入图片描述

✅ 5. 查看系统日志中的 NPU 信息

dmesg | grep -i ascend

dmesg | grep -i npu

可确认内核是否成功加载 Ascend 驱动。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

从你提供的信息来看,Ascend(昇腾)驱动和软件栈很可能没有完全安装成功,或者存在初始化失败的问题。以下是关键证据和判断依据:

🔍 核心问题证据

1. dmesg 报错:UDA 初始化超时
[  168.203490] [ascend] [uda] [ERROR] [uda_wait_all_phy_startup 1340] <npu-exporter:861:911:13> Wait timeout. (dev_num=0; uda_detected_dev_num=2)
  • 含义:系统检测到 2 个物理 NPU 设备uda_detected_dev_num=2),但 0 个设备成功完成初始化dev_num=0)。
  • 后果:NPU 虽被识别,但无法正常工作,npu-smi 显示 Health = Warning,且无法用于计算。
2. 虚拟机环境(QEMU/VMware)

你的 dmesg 输出包含:

QEMU QEMU USB Tablet
VirtualPS/2 VMware VMMouse

→ 说明你运行在 虚拟机中

⚠️ 昇腾 910B 官方不支持在普通虚拟机中直通使用。即使配置了 PCIe 直通(VFIO),也极易因中断、IOMMU、固件兼容性等问题导致设备初始化失败。


✅ 判断结论

项目状态说明
硬件识别✅ 成功lspcidmesg 显示 NPU 设备已加载
驱动加载⚠️ 部分成功vnpu 模块注册成功,但 UDA 层初始化失败
NPU 可用性❌ 不可用无法执行 MindSpore 或 Ascend C 程序
根本原因虚拟机环境 + 驱动/固件不兼容最可能原因

🛠 建议解决方案

首选方案:迁移到物理服务器(裸金属环境)
  • 昇腾 910B 官方仅支持在物理机上部署
  • 虚拟机中的 PCIe 直通对 NPU 这类复杂设备支持极差,华为未提供 VMware/QEMU 虚拟化方案。
🔧 若必须在当前环境调试(临时方案):
  1. 确认 CANN 版本兼容性

    • 你使用的是 CANN 25.0.rc1.1(RC 预发布版),可能存在 Bug。
    • 建议降级到 CANN 7.0.RC1 或 7.0 正式版(需匹配 MindSpore 版本)。
  2. 检查驱动与固件版本匹配

    npu-smi info -t common      # 查看驱动版本
    npu-smi info -t product     # 查看固件版本
    
    • 确保驱动、CANN、固件三者版本在华为兼容性列表中匹配。
  3. 尝试重启驱动

    sudo rmmod ascend_npu hccn hisi_hpre
    sudo modprobe ascend_npu
    
  4. 查看详细错误日志

    cat /var/log/npu/slog/host-0/*.log | grep -i "error\|fail\|timeout"
    

📌 总结

不是“没安装”,而是“安装了但初始化失败”
根本原因极大概率是:你在虚拟机中运行昇腾 910B,而该芯片不支持虚拟化环境。

强烈建议:将项目迁移到物理服务器(裸金属)环境重新部署 CANN + MindSpore。

如需进一步帮助(如检查 CANN 安装日志、版本兼容性表),请提供:

  • cat /var/log/npu/installer/*.log
  • pip show mindspore
  • cat /etc/os-release

🔗 参考文档

  • 华为昇腾社区 - npu-smi 使用指南
  • 《CANN 7.0 工具指南》
http://www.dtcms.com/a/540158.html

相关文章:

  • Spring JDBC实战:参数处理与嵌入式数据库
  • 图片转PPT:用Java高效处理PowerPoint的秘籍
  • Custom Animations for PPT (PowerPoint)
  • 沈阳网站哪家做的好做视频网站设备需求
  • 【数据工程】16. Notions of Time in Stream Processing
  • AOI在传统汽车制造领域中的应用
  • 搭建网站复杂吗微信公众号怎么做链接网站
  • 网站优化推广招聘wordpress后台打开超慢
  • Linux软件编程笔记三——标准IO(二进制)文件IO
  • 如何使用 TinyEditor 快速部署一个协同编辑器
  • pgsql常用函数
  • 企业落地 NL2SQL,需要的是 AI-ready data 和小模型
  • 最好的购物网站排名厦门的推广公司有哪些
  • PyTorch2 Python深度学习 - 初识PyTorch2,实现一个简单的线性神经网络
  • 外贸网站建设gif制作软件app
  • 我回来了,依然关注新能源汽车研发测试,
  • Go 语言数组
  • Go语言-->sync.WaitGroup 详细解释
  • 从“造机器”到“造生态”:中国智能时代的系统跃迁——从宇树实训平台到视频神经系统的启示
  • YOLOV5_TensorRT_C++部署
  • 海南省住房和城乡建设官方网站网站域名不备案
  • 网络空间引擎
  • VANCHIP射频芯片:智能汽车的“第六感”觉醒
  • C++——二叉搜索树——数据结构进阶——附加超详细解析过程/代码实现
  • 网站页面两侧漂浮的怎样做电商网站前端页面内容编写
  • PCIE学习
  • API Key 管理与计费系统模块(API Gateway 模块)需求文档
  • 2024-2025年技术发展趋势深度分析:AI、前端与后端开发的革新之路
  • vue3 实现贪吃蛇 电脑版01
  • 做网站带后台多少钱东莞做网站 动点官网