当前位置: 首页 > news >正文

【k8s】阿里云ACK服务中GPU实例部署问题

文章目录

    • 问题分析
    • 解决方法
      • 1. 修改安全组规则
      • 2. 重新创建节点
      • 3. 删除多余实例

问题分析

        在ACK中部署GPU实例时发现,节点就绪后,pod kube-eventer-init-v1.8-e43647f-aliyun-1.2.25-bf6mz会报错:
在这里插入图片描述
日志显示:

panic: [SDK.TimeoutError] The request timed out 4 times(4 for retry), perhaps we should have the threshold raised a little? Connect timeout. Please set a valid ConnectTimeout.caused by:Post "http://cn-beijing-intranet.log.aliyuncs.com/open-api/?AccessKeyId=STS.NX6pBApZh7FFLnUL4vZp6B6Qt&Action=DescribeApp&AppName=k8s-event&Format=JSON&RegionId=cn-beijing&SecurityToken=CAISgQN1q6Ft5B2yfSjIr5uDO%2Fj1nYVJgIStTkjkqDQjVv8arfP6ljz2IHhMe3hpAuAes%2Fs%2FlG9Q6f0Tlul6QJwAQEXCZMR94tFc9R66f4fb%2Fse8suxY1ZH5SGTNARen15CKarmkRouGd6byO1maxiUvzf6jKmnzAQ3%2BacTU0UDTvnCJBFvWVyFPIfsLDCkAwZZoGBm8HPKpNQGQ8Qi0JUF0uw16pHpi4KCkuKO14Qbfi1uIoY185f6GQP6eYtJrIY10XvqsweVybdCh6iNL7AVQ%2F6oE584tuxW%2F54vMXQQIsk3YabSLr4MwfDUUPPZqR%2FR2y9HnjuB9t%2BDpkID69g1AJ%2Bk9UV6EHNj%2FkZKfSLv0aYZpKu6kYCXXrNmLN4jotQg%2FZHsdPQxHd94mJWV3DRE86YJ04Vg9HjsgCybUqMjtuMleufIdROX2d%2BA9eBPGhTnNZOqknluYu19pVnhYlCWqOcR9CEdXECgMHJW2Jt5QN3szx%2B6W%2B2ObOEJupqv0fQ%2BjD5u%2BGoABFfK

        这是因为该pod所在的节点网络连通性异常,与阿里云日志服务(SLS)内网域名 cn-beijing-intranet.log.aliyuncs.com 的网络连接被阻断,需要去ECS服务进行安全组规则检查

解决方法

        需修改实例安全组规则管理:入方向规则需包含TCP 80/443端口放行,授权对象为0.0.0.0/0或业务允许的IP段。

1. 修改安全组规则

安全组规则修改需要在ECS服务中修改,修改步骤如下:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

2. 重新创建节点

修改完成后,节点不会自动更新,需要先移除已有节点,然后在节点池进行扩缩容操作,重新创建节点。

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/5df3747d426f46c0afbf0fbaf71aaf8c.png#pic_center =900x#pic_center =900x)

在这里插入图片描述

在这里插入图片描述

扩缩容操作后可能会有延迟,导致创建节点失败,节点数变成这样的话,多操作几次扩缩容就可以成功创建节点了。

在这里插入图片描述

3. 删除多余实例

创建节点后,返回ECS服务,可以看到实例列表会多出来一个,其中一个是上一个节点申请的实例(创建时间早的,页面最下面的水平导航条往右滑到头,能看到创建时间),需要手动删除,不然会持续扣费。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

需要先关闭释放保护

在这里插入图片描述

在这里插入图片描述

之后回到节点池查看,发现不报错了

相关文章:

  • AutoGLM沉思版:智能体推理的Deep Research探索
  • python从环境变量和配置文件中获取配置参数
  • 【面板数据】A股上市公司注册地所在地数据集(1991-2023年)
  • 【免费分享】GWO-BP-AdaBoost预测!灰狼优化、人工神经网络与AdaBoost集成学习算法预测研究
  • 梨泛转录组-文献精读145
  • 基于MATLAB的车牌检测系统:传统图像处理与深度学习的创新融合
  • 使用GpuGeek训练图像分类器:从入门到精通
  • Python实现下载监控工具:自动检测并移动下载文件
  • 计算机视觉与深度学习 | 低照度图像增强算法综述(开源链接,原理,公式,代码)
  • Day53 Python打卡训练营
  • Python Day50
  • 04 - CoordAttention模块
  • Python图片格式转换工具深度解析[附源码】
  • 完整强化学习教程:基于4x4网格世界的智能体探索之旅(一)
  • 2025-06-13【视频处理】基于视频内容转场进行分割
  • 动态规划算法的欢乐密码(二):路径问题
  • Spring Cloud Gateway + JWT 单点登录实现方案(无独立的认证服务器)
  • 最新 Python-PLAXIS 自动化建模技术与典型岩土工程案例实践应用
  • 搭建网站应该怎样选择服务器?
  • 轻量级密码算法LED的C语言实现(无第三方库)
  • 代理加盟微信网站建设/2024年重大新闻简短
  • 深圳网站建设公司的英文名是/百度站长工具seo综合查询
  • 武汉建站公司/网站seo批量查询工具
  • 基本网络架构图/seo网站推广案例
  • 企业网站建设合同/在百度怎么免费发布广告
  • 做网站学哪个语言最好/seo技术优化整站