云原生周刊:K8s 故障排查秘籍
云原生热点
Perses v0.52.0 发布
Perses 是一个面向可观测性(observability)的开源仪表盘 / 可视化工具,作为 CNCF 的 Sandbox 级别项目。
近日,Perses 宣布了其 0.52.0 版本的发布,带来了多个重大特性与增强,其中包括:对持续性能剖析(continuous profiling)的支持(新增 Pyroscope 数据源插件与 Flame Chart 可视化面板)、日志探索能力(Loki 数据源插件 + 日志面板)、Prometheus 直方图的热力图面板、Quick Query Viewer、面板组变量重复、用户资料页初步上线、编辑修改时的“放弃更改”提示、资源浏览器改进,以及 CLI 层面的优化(新增 percli plugin test-schema 命令、增强 percli plugin start 自动重载 schema 与插件取消注册逻辑)。该版本显著扩展了 Perses 在可观测性(observability)领域的能力和用户体验。
Cloud Hypervisor v48.0 重磅更新:性能提升 + 新硬件支持
Cloud Hypervisor 是一个开源的虚拟机监控器(VMM),构建于 Rust 语言之上,专注于现代云工作负载的执行。
近日,Cloud Hypervisor 发布了 v48.0 版本,带来了多项重要更新:新增实验性 fw_cfg 设备支持(用于从宿主机向虚拟机传递启动配置文件),以及实验性的 ivshmem 设备(支持虚拟机间共享内存);在 riscv64 平台上增加固件启动支持;将 x86_64/KVM 平台的最大 vCPU 数从 254 提高到 8192;改进了小块(≤ 16 KB)virtio-blk 性能(通过异步 I/O 批处理);加快带有大量 vCPU 时 VM 的暂停(pause)速度;更新了 Windows 客机的文档(增加对 Windows 11 的说明)。
技术实践
文章推荐
在 Kubernetes 中管理硬件:Working Group Device Management 与动态资源分配
本文讲述了 Kubernetes 社区中新成立的 Working Group Device Management 的角色与使命,重点讨论其正在推进的关键功能 动态资源分配 (Dynamic Resource Allocation, DRA)。在访谈中,John Belamaric 解释了该工作组如何在多个 SIG(如 Node、Scheduling、Autoscaling 等)之间进行协作,以支持 AI 加速器、网络设备等难以抽象的硬件资源,让用户以声明式方式申请设备(例如指定型号、容量等属性),由 Kubernetes 平台做匹配、分配与配置,同时还兼顾可扩展性与对云平台的整合。
用 vCluster 破解 Kubernetes 多租户隔离难题
在构建内部开发平台(IDP)时,为多个团队提供 Kubernetes 服务时,原生的命名空间、RBAC、资源配额、网络策略等机制虽可提供基本隔离,但在面对集群级资源(如 CRD)时常常力不从心。文章介绍了 vCluster 这一方案:它在一台物理集群上创建多个虚拟 Kubernetes 集群,每个租户可在其虚拟集群中独立安装 CRD、部署应用,同时平台方仍可通过同步机制对实际工作负载进行监控和策略管控。vCluster 能有效提升控制平面的隔离性,与 Falco、Kyverno 等平台组件兼容,但也需注意同步范围与策略一致性等挑战。
Kubernetes 故障排查实战:资深工程师都在用的技巧
作者深入探讨了 Kubernetes 在复杂场景下的故障排查方法,包括:解决 PVC 挂起(Pending)问题时应检查 PersistentVolume、StorageClass 配置与资源匹配;借助 Kubernetes 事件(Events)与审计日志(Audit Logs)追踪操作过程与 API 层行为;使用可视化仪表盘(如 Kubernetes Dashboard)辅助诊断资源、日志和依赖关系;合理配置健康检查 Probe(liveness / readiness / startup)以早期捕获异常;以及在极端或线上环境下引入 临时容器(Ephemeral Containers)、kubectl debug 等高级调试能力,在不中断主流程的前提下深入排查网络、性能、节点级问题。作者强调:基础工具(kubectl、events、日志)是日常排错核心,而高级技巧能在关键时刻大幅缩短排障时间,提升集群可靠性与响应效率。
开源项目推荐
Flux2
Flux2 是一个面向 Kubernetes 的开源持续交付 (CD) 解决方案,基于 GitOps 原则构建,旨在使集群配置与应用状态始终与版本控制仓库保持同步。它由 GitOps Toolkit 提供驱动,采用 Kubernetes 自定义资源 (CRD) 和控制器的方式工作,支持多租户、管理多个 Git 仓库、集成 Helm、Kustomize、自动镜像更新等能力,并已在云原生环境中得到广泛的生产级应用。
Tetragon
Tetragon 是 Cilium 团队提供的一个基于 eBPF 的安全可观测与运行时强制执行工具。它能实时监控系统的关键安全事件(如进程执行、系统调用、I/O 操作等),并结合 Kubernetes 上下文(命名空间、Pod 等)进行语义关联;同时支持在检测到违规行为时采取响应措施,从而在云原生环境中提供细粒度的安全可观察性与防护能力。
prowler
Prowler 是一个开源的云安全平台工具,用于自动化执行各类云环境(包括 AWS、Azure、GCP、Kubernetes 等)的安全评估、审计、持续监控、合规检测、系统加固与取证准备。它内建了大量安全检查(覆盖 CIS、NIST、PCI-DSS、GDPR、HIPAA 等多个标准与规范),能够帮助组织实现云资源的安全态监控、违规检测与响应能力。
KubeSphere 社区版即将发布!
👩💻 开发者的福利来了!
KubeSphere 社区版,一款永久免费、开箱即用的云原生容器平台,为开发者和企业提供完整的容器管理与运维体验。
四大亮点:
✅ 永久免费:零成本无忧使用,持续迭代升级,构建云原生基石。
✅ 简易安装:支持任意环境,在线/离线一键部署,扩容升级更省心。
✅ 功能全面:多租户、可观测性、应用生命周期、DevOps 一应俱全。
✅ 灵活扩展:可插拔架构,轻松集成主流开源工具,像搭积木一样扩展能力。
📌 KubeSphere 社区版即将发布,国庆后和大家见面!敬请期待!