当前位置：首页 > news >正文

Kubernetes生产环境健康检查自动化指南

news 2025/8/12 17:09:11

核心脚本功能：

一键检查集群核心组件状态
自动化扫描节点/Pod异常
存储与网络关键指标检测
风险分级输出（红/黄/绿标识）

一、自动化巡检脚本 (`k8s-health-check.sh`)

#!/bin/bash
# Desc: Kubernetes全维度健康检查脚本
# 执行要求：kubectl配置+Popeye安装# 核心组件检查
check_core_components() {echo "===== 集群核心组件检查 [高风险] ====="kubectl get componentstatuses | awk '$2 != "Healthy" {printf "\033[31mCRITICAL\033[0m: %s 状态异常\n", $1; exit 1}{printf "\033[32mPASS\033[0m: %s 状态正常\n", $1}'# ETCD集群检测 (需提前配置etcdctl证书)etcdctl endpoint health 2>&1 | grep -v "health: true" && \echo -e "\033[31mCRITICAL\033[0m: ETCD节点异常" || \echo -e "\033[32mPASS\033[0m: ETCD集群健康"
}# 节点健康检查
check_nodes() {echo "===== 节点健康巡检 ====="# 节点就绪状态kubectl get nodes --no-headers | awk '$2 != "Ready" {count++}END {if(count>=2) {printf "\033[31mCRITICAL\033[0m: %d个节点NotReady\n", count; exit 1}else if(count>0) {printf "\033[33mWARN\033[0m: %d个节点NotReady\n", count}else {print "\033[32mPASS\033[0m: 所有节点Ready"}}'# 资源使用率（依赖metrics-server）kubectl top nodes --no-headers | awk '{cpu=$3; mem=$5;sub(/%/, "", cpu); sub(/%/, "", mem);if (cpu>=95 || mem>=95) {printf "\033[31mCRITICAL\033[0m: 节点%s CPU=%d%% MEM=%d%%\n", $1, cpu, mem}else if (cpu>=85 || mem>=85) {printf "\033[33mWARN\033[0m: 节点%s CPU=%d%% MEM=%d%%\n", $1, cpu, mem}}'
}# 工作负载检查
check_workloads() {echo "===== Pod状态检查 ====="# 异常Pod检测kubectl get pods --all-namespaces --field-selector=status.phase!=Running,status.phase!=Completed -o wide | grep -v "No resources" && \echo -e "\033[31mCRITICAL\033[0m: 存在异常Pod" || \echo -e "\033[32mPASS\033[0m: 无Pending/CrashLoopBackOff状态Pod"# 容器重启次数kubectl get pods --all-namespaces -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.status.containerStatuses[].restartCount}{"\n"}{end}' | \awk '$2>5 {printf "\033[33mWARN\033[0m: Pod %s 重启%d次\n", $1, $2}'
}# 存储系统检查
check_storage() {echo "===== 存储健康检查 ====="# PVC绑定状态kubectl get pvc --all-namespaces | awk '$2 != "Bound" {print $0; exit 1}' && \echo -e "\033[31mCRITICAL\033[0m: 存在未绑定PVC" || \echo -e "\033[32mPASS\033[0m: PVC均正常绑定"# PostgreSQL连接数示例 (需替换实际参数)PG_POD=$(kubectl get pod -n db -l app=postgres -o name | head -1)kubectl exec -n db $PG_POD -- psql -U postgres -c "SELECT count(*) FROM pg_stat_activity" | \awk 'NR==3 && $1>1024 {printf "\033[33mWARN\033[0m: 数据库连接数过高(%d)\n", $1}'
}# 网络检查
check_network() {echo "===== 网络服务检查 ====="# DNS解析延迟测试kubectl run dns-test --image=busybox:1.28 --rm -it --restart=Never -- \sh -c "time nslookup kubernetes.default" 2>&1 | grep real | \awk -F'm' '{print $2*60+$3}' | awk '$1>5 {printf "\033[33mWARN\033[0m: DNS解析延迟%.2fs\n", $1}'
}# 证书过期检查
check_certs() {echo "===== 证书有效期检查 [高风险] ====="kubectl config view --raw -o jsonpath='{..certificate-data}' | base64 -d | \openssl x509 -enddate -noout | awk -F'=' '$1=="notAfter" {cmd="date -d \""$2"\" +%s";cmd | getline exp;close(cmd);now=systime();diff=(exp-now)/86400;if(diff<90) printf "\033[31mCRITICAL\033[0m: 证书将在%.0f天后过期\n", diff}'
}### 执行所有检查 ###
check_core_components
check_nodes
check_workloads
check_storage
check_network
check_certs# 使用Popeye做深度扫描
echo "===== 运行Popeye集群扫描 ====="
popeye --out=html > /tmp/popeye-report.html && \echo "报告已保存: /tmp/popeye-report.html"

二、关键巡检项说明与阈值

检查维度	自动化实现方式	风险阈值
API Server健康	`kubectl get componentstatuses`	非Healthy状态即高风险
节点资源使用率	`kubectl top nodes`	CPU/Mem ≥85% 告警，≥95% 严重
Pod重启次数	Pod注解`restartCount`	>5次为异常
PVC绑定状态	`kubectl get pvc`	非Bound状态即高风险
DNS解析延迟	临时Pod执行`nslookup`	>5s 警告
证书有效期	解析Kubeconfig证书	有效期<90天高风险

三、自动化部署建议

定时任务配置（每日巡检）：

# 将脚本加入CronJob
kubectl create cronjob k8s-daily-check --image=bitnami/kubectl:latest \--scheme="0 8 * * *" \-- /bin/sh -c "curl -sL https://raw.githubusercontent.com/ops/k8s-health-check.sh | bash && aws s3 cp /tmp/popeye-report.html s3://my-bucket/reports/"

Prometheus关键告警规则（示例）：

# 内存泄漏检测
- alert: NodeMemoryPressureexpr: (1 - node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes) * 100 > 85for: 10mlabels:severity: warningannotations:summary: "节点内存压力 ({{ $labels.instance }})"

四、紧急事件处理流程

当脚本输出 CRITICAL（红色） 时：

Master组件异常：立即检查kube-apiserver/etcd日志

节点NotReady：

kubectl cordon <NODE_NAME>    # 停止调度
kubectl drain <NODE_NAME>     # 驱逐Pod

证书即将过期：

kubeadm certs renew all       # 使用kubeadm更新证书

最佳实践补充：

探针配置：Java应用设置initialDelaySeconds: 120避免频繁重启
存储扩容：当PVC使用率>80%时自动触发扩容（需配置CSI StorageClass）
日志跟踪：集成ELK过滤ERROR日志并统计占比（>5%触发告警）

查看全文

http://www.dtcms.com/a/326848.html