当前位置: 首页 > wzjs >正文

php网站广告管理系统游戏代理平台免费

php网站广告管理系统,游戏代理平台免费,万网免费网站,湘潭网站建设企业解决容器突然丢失GPU连接问题的方法总结 问题描述 在特定条件下,容器可能会突然与它们最初连接的GPU分离,导致出现Failed to initialize NVML: Unknown Error错误。此问题主要发生在使用systemd管理cgroup的环境中。 问题根源 最新版本的runc要求符号…

解决容器突然丢失GPU连接问题的方法总结

问题描述

在特定条件下,容器可能会突然与它们最初连接的GPU分离,导致出现Failed to initialize NVML: Unknown Error错误。此问题主要发生在使用systemd管理cgroup的环境中。

 

问题根源

最新版本的runc要求符号链接存在于/dev/char下的任何设备节点中,但NVIDIA设备当前不提供这些符号链接。

 

受影响环境

  • Docker环境使用containerd/runc并启用systemd cgroup驱动
  • K8s环境使用containerd/runc并设置SystemdCgroup = true
  • K8s环境使用cri-o/runc并启用cgroup_manager = "systemd"

 

问题验证方法

Docker环境测试验证


$ sudo docker exec -it 90452cca0281 bash
root@90452cca0281:/# nvidia-smi 
Thu Jun 12 05:58:56 2025       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.230.02             Driver Version: 535.230.02   CUDA Version: 12.4     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA A100-SXM4-40GB          Off | 00000000:2B:00.0 Off |                    0 |
| N/A   34C    P0              34W / 400W |    423MiB / 40960MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   1  Tesla V100-PCIE-32GB           Off | 00000000:84:00.0 Off |                    0 |
| N/A   34C    P0              36W / 250W |    310MiB / 32768MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------++---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
+---------------------------------------------------------------------------------------+
root@90452cca0281:/# exit
exit#执行systemctl daemon-reload 后出现Failed to initialize NVML: Unknown Error$ systemctl daemon-reload 
$ docker exec -it 90452cca0281 bash
root@90452cca0281:/# nvidia-smi 
Failed to initialize NVML: Unknown Error

 

解决方案

推荐解决方案

在containerd或cri-o中禁用systemd cgroup管理

​​
编辑/etc/docker/daemon.json 修改Docker配置(本人最终采用的方案)​​

{"exec-opts": ["native.cgroupdriver=cgroupfs"]
}

 
 

其他解决方案

 

​​使用nvidia-ctk工具创建符号链接​​
sudo nvidia-ctk system create-dev-char-symlinks --create-all

创建udev规则(个人测试未成功)​​

cat /lib/udev/rules.d/71-nvidia-dev-char.rules
ACTION=="add", DEVPATH=="/bus/pci/drivers/nvidia", RUN+="/usr/bin/nvidia-ctk system create-dev-char-symlinks --create-all"
  • 参考官方文档:https://github.com/NVIDIA/nvidia-container-toolkit/issues/48
     
     
降级NVIDIA Container Toolkit到特定版本
  • 参考文档:https://blog.csdn.net/weixin_43408232/article/details/143955501

 
 

个人经验分享

我尝试了官方文档中推荐的udev规则方法,但未能成功解决问题。最终通过修改Docker的cgroup驱动为cgroupfs的方式解决了问题。

配置方法:

编辑/etc/docker/daemon.json
添加或修改为:

{"exec-opts": ["native.cgroupdriver=cgroupfs"]
}

重启Docker服务后问题解决

http://www.dtcms.com/wzjs/555400.html

相关文章:

  • 在网站后台做网页搜索视频 网站开发
  • jsp网站连接数据库网络建设标准
  • 室内设计师之路网站东莞阳光网官方网站登录
  • 做外汇消息面的网站筑龙网app下载
  • 外贸网站建设 蚂蚁 深圳wordpress 留言信息在哪
  • 网站设计三原则官方网站建设 磐石网络知名
  • 网站建设公司要多少钱佛山市建设工程交易中心网站
  • 官方你网站建设策略莱芜最新招工招聘启事
  • 沭阳建设局网站wordpress 实现
  • 北京市建设厅门户网站推广互联网营销
  • 网站开发提问绍兴网站制作
  • 网站备案是一年一次吗建筑公司企业所得税
  • 网站信息平台建设方案wordpress主题域名授权破解
  • 整形网站开发wordpress创建搜索框
  • 提供坪山网站建设注册科技有限公司可以做网站吗
  • 公司如何做网站建设北京丰台网站优化
  • 郴州市网站建设科技哪些网站可以用来做百科参考
  • 众筹网站建设需要多少资金电脑上买wordpress
  • 做网站用商标吗徐州市工程造价信息网
  • 网站模板手机西安网站制作计划
  • 手机网站制作哪家公司好做淘宝客导购网站
  • 网站开发人员就业前景手机网站建设做竞价推广的技巧
  • 浏览器网页版在线廊坊seo整站优化
  • 西安网站建设hyk123郑州百姓网免费发布信息
  • 做网站和app有什么区别wordpress可爱主题
  • 商丘建设网站房地产平面设计主要做什么
  • 资讯门户网站定西市网站建设咨询
  • 制作网站建设策划方案医疗营销网站建设
  • 做网站图标按钮素材织梦cms网站搬家
  • 在哪个网站找地理题做wordpress 进站插件