当前位置: 首页 > wzjs >正文

网站首页文案模板google网站搜索

网站首页文案模板,google网站搜索,可以推广发广告的app,购物网站订单状态模板解决容器突然丢失GPU连接问题的方法总结 问题描述 在特定条件下,容器可能会突然与它们最初连接的GPU分离,导致出现Failed to initialize NVML: Unknown Error错误。此问题主要发生在使用systemd管理cgroup的环境中。 问题根源 最新版本的runc要求符号…

解决容器突然丢失GPU连接问题的方法总结

问题描述

在特定条件下,容器可能会突然与它们最初连接的GPU分离,导致出现Failed to initialize NVML: Unknown Error错误。此问题主要发生在使用systemd管理cgroup的环境中。

 

问题根源

最新版本的runc要求符号链接存在于/dev/char下的任何设备节点中,但NVIDIA设备当前不提供这些符号链接。

 

受影响环境

  • Docker环境使用containerd/runc并启用systemd cgroup驱动
  • K8s环境使用containerd/runc并设置SystemdCgroup = true
  • K8s环境使用cri-o/runc并启用cgroup_manager = "systemd"

 

问题验证方法

Docker环境测试验证


$ sudo docker exec -it 90452cca0281 bash
root@90452cca0281:/# nvidia-smi 
Thu Jun 12 05:58:56 2025       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.230.02             Driver Version: 535.230.02   CUDA Version: 12.4     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA A100-SXM4-40GB          Off | 00000000:2B:00.0 Off |                    0 |
| N/A   34C    P0              34W / 400W |    423MiB / 40960MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   1  Tesla V100-PCIE-32GB           Off | 00000000:84:00.0 Off |                    0 |
| N/A   34C    P0              36W / 250W |    310MiB / 32768MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------++---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
+---------------------------------------------------------------------------------------+
root@90452cca0281:/# exit
exit#执行systemctl daemon-reload 后出现Failed to initialize NVML: Unknown Error$ systemctl daemon-reload 
$ docker exec -it 90452cca0281 bash
root@90452cca0281:/# nvidia-smi 
Failed to initialize NVML: Unknown Error

 

解决方案

推荐解决方案

在containerd或cri-o中禁用systemd cgroup管理

​​
编辑/etc/docker/daemon.json 修改Docker配置(本人最终采用的方案)​​

{"exec-opts": ["native.cgroupdriver=cgroupfs"]
}

 
 

其他解决方案

 

​​使用nvidia-ctk工具创建符号链接​​
sudo nvidia-ctk system create-dev-char-symlinks --create-all

创建udev规则(个人测试未成功)​​

cat /lib/udev/rules.d/71-nvidia-dev-char.rules
ACTION=="add", DEVPATH=="/bus/pci/drivers/nvidia", RUN+="/usr/bin/nvidia-ctk system create-dev-char-symlinks --create-all"
  • 参考官方文档:https://github.com/NVIDIA/nvidia-container-toolkit/issues/48
     
     
降级NVIDIA Container Toolkit到特定版本
  • 参考文档:https://blog.csdn.net/weixin_43408232/article/details/143955501

 
 

个人经验分享

我尝试了官方文档中推荐的udev规则方法,但未能成功解决问题。最终通过修改Docker的cgroup驱动为cgroupfs的方式解决了问题。

配置方法:

编辑/etc/docker/daemon.json
添加或修改为:

{"exec-opts": ["native.cgroupdriver=cgroupfs"]
}

重启Docker服务后问题解决

http://www.dtcms.com/wzjs/286704.html

相关文章:

  • 做学校教务处网站nba在线直播免费观看直播
  • 北京市住房和城乡建设部网站官网小吃培训2000元学6项
  • 网站建设及解决方案淘宝关键词排名是怎么做的
  • wordpress polylang百度怎么优化网站排名
  • logo设计制作网seo描述快速排名
  • 建站优化内容网络营销方案
  • 宁波做网站优化哪家好全球网站流量排名查询
  • 茂名建站价格海阳seo排名优化培训
  • 竟标网站源码公司网站建设方案
  • 怎样自学做网站需要多少钱百度引擎搜索推广
  • 徐州模板建站系统网站关键词排名软件推荐
  • 黑科技涨粉app广州网站优化推广
  • 移动端网站开发流程乐陵seo外包
  • wordpress restapi接口seo和点击付费的区别
  • 个人做网站需要备案吗网络营销推广方案模板
  • 女性做网站b2b网站有哪些
  • 湖南做网站360o搜索最全的搜索引擎
  • wordpress网站图片加载速度慢企业营销案例
  • 如何网站建设平台全国疫情高峰感染进度
  • 驻马店市住房和城乡建设局网站首页软文素材
  • 定制高端网站建设报价网站交易网
  • 做网站需要多少钱呢seo点击软件
  • 网站开发开发公司排名行业关键词词库
  • 做最精彩的绳艺网站百度小说排行榜2019
  • 网站如何做seo排名今天全国31个省疫情最新消息
  • 网页制作与网站开发从入门到精通 下载网站首页制作
  • 做网站虚拟主机和云服务器教育培训机构平台
  • 德国站有哪些做站外秒杀的网站什么是网络推广员
  • 网页制作作品欣赏百度seo关键词外包
  • 网站的费用多少网店代运营正规公司