昇腾NPU节点软件版本检查与升级方法
一、问题背景
当我们需要在节点部署DeepSeek大模型时,需要检查昇腾云配套的版本驱动和固件版本,如果发现节点版本不配套建议升级到配套版本。
检查方法:
npu-smi info -t board -i 1 | egrep -i "software|firmware"
二、升级方法
需要注意的是,一定要先升级固件,再升级驱动;如果需要降级版本,流程与升级一样。
一般而言,固件包是带有firmware关键字,驱动包带有dirver关键字。
2.1 下载固件与驱动
- 固件驱动下载地址
2.2 升级固件
1、登录机器
这里我们以root账户登录到机器中。
2、上传文件
这里,需要将软件包上传到机器中,可以直接使用xFtp完成。
3、更改软件包权限
这里,我们需要将软件包权限修改为可执行。
chmod +x Ascend-hdk-910b-npu-firmware_7.1.0.7.220.run
4、检查一致性与完整性
执行命令:
./Ascend-hdk-910b-npu-firmware_7.1.0.7.220.run --check
如果出现如下字样,表示升级成功:
Verifying archive integrity… 100% SHA256 checksums are OK. All good.
5、执行升级
执行命令:
./Ascend-hdk-910b-npu-firmware_7.1.0.7.220.run --upgrade
如果出现如下字样,则表示升级成功:
Firmware package upgraded successfully!
6、检查升级版本号
执行命令:
/usr/local/Ascend/driver/tools/upgrade-tool --device_index -1 --component -1 --version
若与目标版本一致,则说明升级成功。
2.3 升级驱动
1、登录机器
这里我们以root账户登录到机器中。
2、上传文件
这里,需要将软件包上传到机器中,可以直接使用xFtp完成。
3、更改软件包权限
这里,我们需要将软件包权限修改为可执行。
chmod +x Ascend-hdk-910b-npu-driver_23.0.5_linux-aarch64.run
4、检查一致性与完整性
执行命令:
./Ascend-hdk-xxx-npu-driver_x.x.x_linux-{arch}.run --check
如果出现如下字样,表示升级成功:
Verifying archive integrity… 100% SHA256 checksums are OK. All good.
5、执行升级
执行命令:
./Ascend-hdk-910b-npu-driver_23.0.5_linux-aarch64.run --upgrade
如果出现如下字样,则表示升级成功:
Driver package upgraded successfully!
6、检查升级版本号
执行命令:
/usr/local/Ascend/driver/tools/upgrade-tool --device_index -1 --system_version
若与目标版本一致,则说明升级成功。
2.4 重启机器
在升级完固件和驱动的节点上执行reboot
,等到机器重启后,再执行下述命令检查版本号即可:
npu-smi info -t board -i 1 | egrep -i "software|firmware"