当前位置: 首页 > news >正文

使用Kubernetes实现零停机部署

#作者:曹付江

文章目录

  • 前言
  • 1. 滚动更新策略: 基础知识(和陷阱)
  • 2. 准备就绪探测器: 准备就绪前不要服务
  • 3. PodDisruptionBudgets: 防止自愿驱逐
  • 4. 优雅关机: 不要在请求中中断
  • 5. 将它们组合在一起: 零停机蓝图
  • 6.结论

前言

深入了解就绪探针、PodDisruptionBudgets 和滚动更新,确保您的部署顺利、可控,并且不会导致应用程序宕机。

本文将分析如何使用 readinessProbes、preStop、termininationGracePeriodSeconds、rollingUpdate 策略和 PodDisruptionBudgets 在 Kubernetes 上实现零宕机部署。附带的 YAML 示例可根据实际使用情况进行修改。
为什么“滚动更新 ”并不总是安全的:Kubernetes 以其滚动更新而闻名,应用一个新版本,pod 就会被逐个替换。理论上,这应该意味着零停机时间。但实际上呢?宕机还是会发生。

如果您的应用程序启动缓慢,在部分负载下出现故障,或者不能干净利落地关闭,您的用户就会感觉到。滚动更新并非灵丹妙药。如果没有正确的保障措施,Kubernetes 会将流量导向不健康的 pod、一次性杀死过多 pod 或在最糟糕的时候允许中断。

本篇文章介绍如何利用三个功能强大(但经常被误解)的工具,深入探讨真正零停机
部署的机制:

  • 就绪探测器
  • PodDisruption 预算
  • 滚动更新策略

1. 滚动更新策略: 基础知识(和陷阱)

默认情况下,Kubernetes 会使用 RollingUpdate 策略用新的 pod 替换旧的 pod。具体如下

strategy:type: RollingUpdaterollingUpdate:maxSurge: 1maxUnavailable: 1

这意味着Kubernetes 会在更新过程中额外启动 1 个 pod(maxSurge) 在推出过程中,每次会关闭 1 个 pod(maxUnavailable)
问题所在Kubernetes 默认认为 pod 已 “就绪”,除非您另有指示。因此,它可能会提前开始将流量路由到您的 pod:

  • 应用程序在某个端口上监听
  • 数据库连接已建立
  • 缓存预热

2. 准备就绪探测器: 准备就绪前不要服务

准备就绪探测器告诉 Kubernetes:“先不要向这里发送流量”。这是部署工具包中最简单却最强大的工具之一。
下面是一个例子:

readinessProbe:httpGet:path: /healthzport: 8080initialDelaySeconds: 5periodSeconds: 10failureThreshold: 3

该配置每 10 秒检查一次 /healthz。如果它连续失败 3 次,Kubernetes 就会停止路由流量到 pod。

最佳实践:

  • 将就绪状态与实际应用就绪状态挂钩: 数据库连接、缓存、依赖关系。
  • 除非应用程序真的准备就绪,否则不要只返回 200 OK。
  • 在不同环境中使用相同的 /healthz 端点以保持一致性。

3. PodDisruptionBudgets: 防止自愿驱逐

PodDisruptionBudget (PDB) 可确保在自愿中断期间(如节点耗尽或滚动部署)有最低数量的 pod 可用。

apiVersion: policy/v1
kind: PodDisruptionBudget
metadata:name: my-app-pdb
spec:minAvailable: 2selector:matchLabels:app: my-app

该配置每 10 秒检查一次 /healthz。如果它连续失败 3 次,Kubernetes 就会停止路由流量到 pod。

该 PDB 保证至少有 2 个 pod 始终可用。如果可用的 pod 较少,Kubernetes 会延迟中断。为何重要:如果没有 PDB,节点耗尽可能会一次性驱逐所有 pod。再加上糟糕的就绪状态探测,就会导致宕机。

4. 优雅关机: 不要在请求中中断

当 Kubernetes 决定停止一个 pod 时,它会发送 SIGTERM 信号
等待终止时间(termininationGracePeriodSeconds)如果应用程序没有及时退出,则发送 SIGKILL 信号,您可以添加一个 preStop 钩子来延迟关闭,直到处理完飞行中的请求:

lifecycle:,preStop:exec:command: ["sh", "-c", "sleep 10"]
terminationGracePeriodSeconds: 15

Kubernetes 发送 SIGTERM → 开始 15 秒倒计时,preStop 休眠 10 秒,在 Kubernetes 发送 SIGKILL 之前,应用程序现在还有 5 秒钟时间优雅关闭,替换休眠以耗尽连接、耗尽飞行中请求并清理。

5. 将它们组合在一起: 零停机蓝图

让我们将所有内容整合到一个经过实战检验的部署策略中,在不影响推出安全性的前提下优先考虑可用性。

strategy:type: RollingUpdaterollingUpdate:maxSurge: 1maxUnavailable: 0readinessProbe:httpGet:path: /healthzport: 8080initialDelaySeconds: 5periodSeconds: 10lifecycle:preStop:exec:command: ["sh", "-c", "sleep 10"]
terminationGracePeriodSeconds: 30
添加一个 PodDisruptionBudget:
apiVersion: policy/v1
kind: PodDisruptionBudget
metadata:name: my-app-pdb
spec:minAvailable: 2selector:matchLabels:app: my-app

逐步说明:
•maxSurge:1:推出期间只创建一个额外的 pod,允许新版本在不影响当前流量的情况下启动。
•maxUnavailable: 0:确保在新的 pod 完全启动和就绪之前,不会移除任何 pod,从而保证零停机时间。
•readinessProbe: 充当看门人。只有当 pod 通过健康检查时,它才会开始接收流量,从而保护用户免受半初始化容器的影响。
•preStop + terminationGracePeriodSeconds: 关闭时,每个 pod 会获得 30 秒的缓冲时间。preStop 钩子会在这 30 秒宽限期内引入一个延迟(睡眠 10 秒),以允许:
•完成飞行中的请求
•负载平衡器从容脱离
•必要时执行清理任务
•PodDisruptionBudget: 通过确保至少 2 个 pod 始终处于就绪状态,在节点耗尽、群集自动缩放和手动驱逐期间确保可用性。
为何有效,这种配置实现了平衡:
•平滑推出(滚动更新,而不是一次性更新)
•可预测的行为(限制浪涌和中断)
•零未处理流量损失(得益于就绪探测器+预停止钩子)
•保证最低可用性(PDB 可防止意外中断)
•如果你的目标是在部署过程中实现零用户停机时间,即使节点正在回收、自动扩展或更新,你也希望在生产中采用这种设置。

6.结论

零停机时间并不只是巧妙的配置,而是要为 Kubernetes 完成其工作安排合适的条件。通过分层
•准备就绪探测器,发出真正准备就绪的信号。
•PodDisruptionBudgets 可避免有风险的中断。
•经过深思熟虑的激增/不可用滚动策略。
•生命周期钩子,实现优雅停机。
…您可以自信地说,您的推出不会导致应用程序宕机。

相关文章:

  • 内核链表中offsetof 和container_of的一些理解
  • Jackson 使用问题记录(持续更新)
  • 《Effective Python》第1章 Pythonic 思维总结——编写优雅、高效的 Python 代码
  • 数据结构(2)线性表-顺序表
  • 腾讯优化DeepSeek的DeepEP通信框架:开启AI大模型训练新时代
  • 运行Spark程序-在shell中运行 --SparkConf 和 SparkContext
  • 基于FPGA的视频接口之千兆网口(六GigE纯逻辑)
  • 深入理解BLP安全模型:信息安全中的“守密者”
  • 【力扣】K个一组翻转链表
  • 使用 百度云大模型平台 做 【提示词优化】
  • OpenMCU(七):STM32F103开发环境搭建
  • 如何选择与构建高效的网络流量分析平台
  • 【设备管理—磁盘调度算法】
  • 17.责任链模式:思考与解读
  • .Net HttpClient 处理错误与异常
  • Vue3+uniapp 封装axios
  • 计网实验笔记(一)CS144 Lab
  • 《猜拳游戏》
  • solidwors插件 开发————仙盟创梦IDE
  • uniapp开发4--实现耗时操作的加载动画效果
  • 赖清德为“临阵脱逃”作准备,国台办:绝不会任“台独”祸首逍遥法外
  • 法治日报整版聚焦:儿童能否成为短视频主角?该如何监管?
  • 京东一季度净利增长五成,营收增速创近三年新高,称外卖业务取得显著进展
  • “11+2”复式票,宝山购彩者领走大乐透1170万头奖
  • 乌方:泽连斯基只接受与普京会谈,拒见其他俄代表
  • “救护车”半路加价?陕西卫健委已介入,记者调查:黑救护车挤占市场