当前位置: 首页 > news >正文

【k8s】阿里云ACK服务中GPU实例部署问题

文章目录

    • 问题分析
    • 解决方法
      • 1. 修改安全组规则
      • 2. 重新创建节点
      • 3. 删除多余实例

问题分析

        在ACK中部署GPU实例时发现,节点就绪后,pod kube-eventer-init-v1.8-e43647f-aliyun-1.2.25-bf6mz会报错:
在这里插入图片描述
日志显示:

panic: [SDK.TimeoutError] The request timed out 4 times(4 for retry), perhaps we should have the threshold raised a little? Connect timeout. Please set a valid ConnectTimeout.caused by:Post "http://cn-beijing-intranet.log.aliyuncs.com/open-api/?AccessKeyId=STS.NX6pBApZh7FFLnUL4vZp6B6Qt&Action=DescribeApp&AppName=k8s-event&Format=JSON&RegionId=cn-beijing&SecurityToken=CAISgQN1q6Ft5B2yfSjIr5uDO%2Fj1nYVJgIStTkjkqDQjVv8arfP6ljz2IHhMe3hpAuAes%2Fs%2FlG9Q6f0Tlul6QJwAQEXCZMR94tFc9R66f4fb%2Fse8suxY1ZH5SGTNARen15CKarmkRouGd6byO1maxiUvzf6jKmnzAQ3%2BacTU0UDTvnCJBFvWVyFPIfsLDCkAwZZoGBm8HPKpNQGQ8Qi0JUF0uw16pHpi4KCkuKO14Qbfi1uIoY185f6GQP6eYtJrIY10XvqsweVybdCh6iNL7AVQ%2F6oE584tuxW%2F54vMXQQIsk3YabSLr4MwfDUUPPZqR%2FR2y9HnjuB9t%2BDpkID69g1AJ%2Bk9UV6EHNj%2FkZKfSLv0aYZpKu6kYCXXrNmLN4jotQg%2FZHsdPQxHd94mJWV3DRE86YJ04Vg9HjsgCybUqMjtuMleufIdROX2d%2BA9eBPGhTnNZOqknluYu19pVnhYlCWqOcR9CEdXECgMHJW2Jt5QN3szx%2B6W%2B2ObOEJupqv0fQ%2BjD5u%2BGoABFfK

        这是因为该pod所在的节点网络连通性异常,与阿里云日志服务(SLS)内网域名 cn-beijing-intranet.log.aliyuncs.com 的网络连接被阻断,需要去ECS服务进行安全组规则检查

解决方法

        需修改实例安全组规则管理:入方向规则需包含TCP 80/443端口放行,授权对象为0.0.0.0/0或业务允许的IP段。

1. 修改安全组规则

安全组规则修改需要在ECS服务中修改,修改步骤如下:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

2. 重新创建节点

修改完成后,节点不会自动更新,需要先移除已有节点,然后在节点池进行扩缩容操作,重新创建节点。

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/5df3747d426f46c0afbf0fbaf71aaf8c.png#pic_center =900x#pic_center =900x)

在这里插入图片描述

在这里插入图片描述

扩缩容操作后可能会有延迟,导致创建节点失败,节点数变成这样的话,多操作几次扩缩容就可以成功创建节点了。

在这里插入图片描述

3. 删除多余实例

创建节点后,返回ECS服务,可以看到实例列表会多出来一个,其中一个是上一个节点申请的实例(创建时间早的,页面最下面的水平导航条往右滑到头,能看到创建时间),需要手动删除,不然会持续扣费。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

需要先关闭释放保护

在这里插入图片描述

在这里插入图片描述

之后回到节点池查看,发现不报错了


文章转载自:

http://UshQnbXD.bkwps.cn
http://esInSjym.bkwps.cn
http://9mwzOiOa.bkwps.cn
http://1IkIXAgu.bkwps.cn
http://wLXcLlz6.bkwps.cn
http://0tI8LXu8.bkwps.cn
http://lekyxZlP.bkwps.cn
http://RCEKO7lY.bkwps.cn
http://MMIy1yNb.bkwps.cn
http://kdBcPVxn.bkwps.cn
http://Lgcknnkd.bkwps.cn
http://LCiMeA31.bkwps.cn
http://S2WLnmq6.bkwps.cn
http://eCNA4YSK.bkwps.cn
http://OWCZqerj.bkwps.cn
http://JHLYjYu4.bkwps.cn
http://gmY6Z6HA.bkwps.cn
http://CQ8ktna0.bkwps.cn
http://WUau2lfN.bkwps.cn
http://XMAJkoO2.bkwps.cn
http://e05u5Eda.bkwps.cn
http://TjHsnANs.bkwps.cn
http://GWa3gEST.bkwps.cn
http://bK7ifVDd.bkwps.cn
http://qNbOEMmO.bkwps.cn
http://P12GQg1v.bkwps.cn
http://b1J1PDmP.bkwps.cn
http://jPIoPBPJ.bkwps.cn
http://AYlvPwKL.bkwps.cn
http://FBuKwIUZ.bkwps.cn
http://www.dtcms.com/a/247622.html

相关文章:

  • AutoGLM沉思版:智能体推理的Deep Research探索
  • python从环境变量和配置文件中获取配置参数
  • 【面板数据】A股上市公司注册地所在地数据集(1991-2023年)
  • 【免费分享】GWO-BP-AdaBoost预测!灰狼优化、人工神经网络与AdaBoost集成学习算法预测研究
  • 梨泛转录组-文献精读145
  • 基于MATLAB的车牌检测系统:传统图像处理与深度学习的创新融合
  • 使用GpuGeek训练图像分类器:从入门到精通
  • Python实现下载监控工具:自动检测并移动下载文件
  • 计算机视觉与深度学习 | 低照度图像增强算法综述(开源链接,原理,公式,代码)
  • Day53 Python打卡训练营
  • Python Day50
  • 04 - CoordAttention模块
  • Python图片格式转换工具深度解析[附源码】
  • 完整强化学习教程:基于4x4网格世界的智能体探索之旅(一)
  • 2025-06-13【视频处理】基于视频内容转场进行分割
  • 动态规划算法的欢乐密码(二):路径问题
  • Spring Cloud Gateway + JWT 单点登录实现方案(无独立的认证服务器)
  • 最新 Python-PLAXIS 自动化建模技术与典型岩土工程案例实践应用
  • 搭建网站应该怎样选择服务器?
  • 轻量级密码算法LED的C语言实现(无第三方库)
  • 造成服务器宕机的原因都有哪些?
  • SpringBoot 服务器监控 监控系统开销 获取服务器系统的信息用户信息 运行信息 保持稳定
  • JVM 内存、JMM内存与集群机器节点内存的联系
  • aardio 继承与多态
  • 关于 WASM: WASM + JS 混合逆向流程
  • 7. TypeScript接口
  • Python数据结构与算法(6.1)——树
  • 鸿蒙网络编程系列53-仓颉版TCP连接超时分析示例
  • python中的文件操作处理:文本文件的处理、二进制文件的处理
  • Android音视频多媒体开源框架基础大全