【昇腾】Atlas 500 A2智能小站M.2 SATA盘启动Ubuntu22.04系统莫名丢卡问题处理_20250815
一、问题现象
先说说这个奇怪的问题吧,Atlas 500 A2智能小站通过M.2 SATA盘启动Ubuntu22.04,基于Ascend_HDK_20.0.0版本的正式版制作的M.2 SATA盘启动盘
然后在某一天突然发现之前跑的好好的vdec_sample的demo就跑不起来了,一通乱查都没找到原因,结果执行一下npu-smi info命令-8006,丢卡了,天真的要塌了
执行reboot命令重启小站后npu-smi info是不报-8006,但这个解决办法指标不治本,因为操作二三十分钟后又出现了这个-8006丢卡
后来就干脆设备重启不做任何操作,结果发现一段时间之后,还是-8006丢卡了
于是开始通过htop命令来跟踪,发现此问题与之前写的博客《【昇腾】Atlas 500 A2智能小站M.2 SATA盘启动Ubuntu22.04系统CPU占用过高问题处理_20250723》有着异曲同工之妙,似曾相识dmp_daemon进程异常,数量越来越多,占满CPU最终导致无法与npu-smi交互,超时了,反馈错误码是-8006
二、解决方案
2.1 dmp_daemon进程异常
dmp_daemon进程是一个常驻进程,有且仅有一个,这里肯定是有问题的
2.2 升级驱动与固件解决
需要安装Ascend_HDK_24.1.0.3或更高版本的固件与驱动才能解决该问题
2.2.1 固件的安装
# 切到root用户
su
# 输入密码Mind@123
chmod +x Ascend-hdk-310b-npu-firmware-soc_7.5.0.2.220.run
./Ascend-hdk-310b-npu-firmware-soc_7.5.0.2.220.run --full
2.2.2 驱动的安装
chmod +x Ascend-hdk-310b-npu-driver-soc_24.1.0_linux-aarch64.run
./Ascend-hdk-310b-npu-driver-soc_24.1.0_linux-aarch64.run --full
安装成功后重启问题修复