当前位置: 首页 > news >正文

k8s 实战 常见异常事件 event 及解决方案分享

k8s 实战 常见异常事件 event 及解决方案分享

集群相关

Coredns容器或local-dns容器

  • 重启集群中的coredns组件发生重启(重新创建),一般是由于coredns组件压力较大导致oom,请检查业务是否异常,是否存在应用容器无法解析域名的异常。
  • 如果是local-dns重启,说明local-dns的性能也不够了,需要优化

Pod was OOM killed

  • 云应用容器实例发生OOM,请检查云应用是否正常。一般地,如果云应用配置了健康检查,当进程OOM了,健康检查如果失败,集群会自动重启容器。
  • OOM问题排查步骤:
  • 检查应用进程内存配置,如Java的jvm参数,对比应用监控-基础监控中的
  • 内存指标,判断是否是参数设置低导致进程内存不够用,适当进行参数优化

Out of memory: Kill process

Memory cgroup out of memory: Kill process

System OOM encountered

failed to garbage collect required amount of images

Attempting to xxxx

  • 节点资源不足(EvictionThresholdMet),一般是节点资源将要达到阈值,可能会触发Pod驱逐。如 Attempting to reclaim ephemeral-storage

  • 原因描述:

  • ephemeral storage是临时存储空间,当磁盘空间使用率达到阈值,会触发临时存储空间的回收任务。回收任务会尝试回收系统日志,以及没有正在使用的镜像缓存等数据。当磁盘空间占用率持续增长(超过90%),会导致该节点上的所有容器被驱逐,也就是当前节点由于磁盘压力不再对外提供服务,直到磁盘空间释放。

  • 解决方案:
  • 请注意磁盘空间的使用:

    1. 避免使用“空目录”类型的挂载方式;
    2. 使用NAS或者其他类似方式替代。尽量避免使用“宿主机目录”类型的挂载方式,以便于保证容器是无状态的,可以迁移的。
    3. 要注意避免在容器内大量写文件,而导致容器运行时可写数据层过大(imagefs)。

NTP service is not running

节点PLEG异常

节点PID不足

Docker Hung

节点磁盘资源不足 InvalidDiskCapacity

应用相关

Container Restart

The node had condition: [XXX]

K8S Pod Pending

Readiness probe failed

Liveness probe failed

Container runtime did not kill the pod within specified grace period.

Back-off restarting failed container

  • 原因描述:
  • 此事件表示容器启动失败,而被再次拉起尝试启动。通常常见与应用发布过程中的容器启动失败。具体的原因常见为镜像拉取失败,或者容器启动失败(容器没有打到running状态)。

  • 解决方案:

  • 需要在发布页查看容器启动日志或者调度日志,进一步定位容器启动失败的原因。

The node was low on resource: xxxx

集群DNS性能瓶颈

背景

  • 集群中的容器实例,DNS解析均依赖集群内的DNS组件,应用中业务请求的地址都需要经过集群DNS组件。例如,代码中访问RDS、REDIS、TOP api等。如果集群dns性能不足,会出现业务请求失败的问题。
  • 集群DNS组件:
    • 默认已安装的集群组件为coredns,副本数为2
    • 可选的高性能组件为localdns

是否有性能瓶颈

  • 应用有大量DNS请求的场景(比如连接rds,凡是涉及到域名地址解析的)
  • PHP等语言自身没有连接池特性的,或者应用自身没有DNS缓存的
  • 偶尔出现域名地址无法解析错误的

解决方案

  • 集群默认已安装的coredns组件,进行扩容。扩容比例为1/5的节点数(如15台ecs,那么coredns数量为3)
  • 为集群安装更高性能的localdns组件(该组件为daemonset,会在每个ECS节点起一个本地缓存)
  • 一般来说,如果业务量小,扩容下coredns就足够了;如果业务量大(域名地址解析QPS高,比如访问RDS),特别是php等不带连接池的开发语言,建议直接上localdns。如果是java等配置了连接池的应用,可以先扩容coredns观察,如果仍然有解析问题,再上localdns。

localdns缓存原理

  • NodeLocalDNS 是一个 DaemonSet,会在Kubernetes集群的每个节点上运行一个专门处理 DNS 查询请求的 Pod,该 Pod 会将集群内部域名查询请求发往 CoreDNS;将集群外部请求直接发往外部域名解析服务器。同时能够Cache所有请求。可以被看作是节点级别的高效DNS 缓存,能够大幅提高集群整体 DNS 查询的 QPS。
  • NodeLocalDNS 会在集群的每个节点上创建一个专用的虚拟接口(接口绑定的 IP 需要通过 local_dns_ip 这个值来指定),节点上所有发往该 IP 的 DNS 查询请求都会被拦截到 NodeLocalDNS Pod 内进行处理;通过集群原有的 kube-dns 服务(该服务的 clusterIP 值需要通过kube_dns_ip来指定)来与CoreDNS进行通信。

-----------------------------------------------------------------------------------

offer突击训练营简介:

1:针对不知道怎么面试,面试没有信心的小伙伴,我们会给你一个offer保障。

2:我们会监督你15-20天内把面试体系技术点掌握至少7成,这样足够你去找到满意的工作了。

3:我们是面向面试学习指导,不会带你们去写代码,会把项目真实开发的迭代过程和技术细节如何实现业务功能都详细教清楚,你能在面试中流畅表达清楚就行了,项目经验你不用担心(技术老师提供的真实项目经验肯定拿的出手),自己学和别人带着系统学,效率完全不一样。

详情请点击这里:offer突击训练营,给你一个offer的保障,求职跳槽的看过来!

相关文章:

  • 059:mapboxGL监听键盘事件,通过eastTo控制左右旋转
  • 解决方法:从客户端(---<A href=“http://l...“)中检测到有潜在危险的 Request.Form 值。
  • 前端--性能优化【上篇】--网络优化与页面渲染优化
  • Android之播放本地视频和Url视频方法
  • Kotlin中的选择结构语句
  • BC v1.2充电规范
  • 缩短cin时间
  • 【Linux】进程概念与进程状态
  • C进阶-语言文件操作
  • 购药不烦恼:线上购药小程序的快捷方式
  • uniapp(uncloud) 使用生态开发接口详情2(使用 schema创建数据, schema2code创建页面, iconfont 引入项目)
  • 百度OCR识别图片文本字符串——物联网上位机软件
  • Hadoop3教程(十六):MapReduce中的OutputFormat
  • 亚马逊云科技多项新功能与服务,助力各种规模的组织拥抱生成式 AI
  • 网络解析(二)
  • 京东店铺公司名爬虫
  • WebGPU-初识各名词概念Adapters与Device
  • Pytest测试框架搭建的关键6个知识点(建议收藏)
  • CronJob运行自动化任务
  • 驱动day2 字符设备驱动 LED亮灯
  • 五部门:开展新就业形态劳动者劳动权益保障水平提升专项行动
  • “乐购浦东”消费券明起发放,多个商家同期推出折扣促销活动
  • 深入贯彻中央八项规定精神学习教育中央指导组培训会议召开
  • 青海省林业和草原局副局长旦增主动投案,正接受审查调查
  • 国家发改委下达今年第二批810亿超长期特别国债资金,支持消费品以旧换新
  • 伊朗港口爆炸死亡人数升至70人