当前位置: 首页 > news >正文

云原生周刊:K8s 故障排查秘籍

云原生热点

Perses v0.52.0 发布

Perses 是一个面向可观测性(observability)的开源仪表盘 / 可视化工具,作为 CNCF 的 Sandbox 级别项目。

近日,Perses 宣布了其 0.52.0 版本的发布,带来了多个重大特性与增强,其中包括:对持续性能剖析(continuous profiling)的支持(新增 Pyroscope 数据源插件与 Flame Chart 可视化面板)、日志探索能力(Loki 数据源插件 + 日志面板)、Prometheus 直方图的热力图面板、Quick Query Viewer、面板组变量重复、用户资料页初步上线、编辑修改时的“放弃更改”提示、资源浏览器改进,以及 CLI 层面的优化(新增 percli plugin test-schema 命令、增强 percli plugin start 自动重载 schema 与插件取消注册逻辑)。该版本显著扩展了 Perses 在可观测性(observability)领域的能力和用户体验。

Cloud Hypervisor v48.0 重磅更新:性能提升 + 新硬件支持

Cloud Hypervisor 是一个开源的虚拟机监控器(VMM),构建于 Rust 语言之上,专注于现代云工作负载的执行。

近日,Cloud Hypervisor 发布了 v48.0 版本,带来了多项重要更新:新增实验性 fw_cfg 设备支持(用于从宿主机向虚拟机传递启动配置文件),以及实验性的 ivshmem 设备(支持虚拟机间共享内存);在 riscv64 平台上增加固件启动支持;将 x86_64/KVM 平台的最大 vCPU 数从 254 提高到 8192;改进了小块(≤ 16 KB)virtio-blk 性能(通过异步 I/O 批处理);加快带有大量 vCPU 时 VM 的暂停(pause)速度;更新了 Windows 客机的文档(增加对 Windows 11 的说明)。

技术实践

文章推荐

在 Kubernetes 中管理硬件:Working Group Device Management 与动态资源分配

本文讲述了 Kubernetes 社区中新成立的 Working Group Device Management 的角色与使命,重点讨论其正在推进的关键功能 动态资源分配 (Dynamic Resource Allocation, DRA)。在访谈中,John Belamaric 解释了该工作组如何在多个 SIG(如 Node、Scheduling、Autoscaling 等)之间进行协作,以支持 AI 加速器、网络设备等难以抽象的硬件资源,让用户以声明式方式申请设备(例如指定型号、容量等属性),由 Kubernetes 平台做匹配、分配与配置,同时还兼顾可扩展性与对云平台的整合。

用 vCluster 破解 Kubernetes 多租户隔离难题

在构建内部开发平台(IDP)时,为多个团队提供 Kubernetes 服务时,原生的命名空间、RBAC、资源配额、网络策略等机制虽可提供基本隔离,但在面对集群级资源(如 CRD)时常常力不从心。文章介绍了 vCluster 这一方案:它在一台物理集群上创建多个虚拟 Kubernetes 集群,每个租户可在其虚拟集群中独立安装 CRD、部署应用,同时平台方仍可通过同步机制对实际工作负载进行监控和策略管控。vCluster 能有效提升控制平面的隔离性,与 Falco、Kyverno 等平台组件兼容,但也需注意同步范围与策略一致性等挑战。

Kubernetes 故障排查实战:资深工程师都在用的技巧

作者深入探讨了 Kubernetes 在复杂场景下的故障排查方法,包括:解决 PVC 挂起(Pending)问题时应检查 PersistentVolume、StorageClass 配置与资源匹配;借助 Kubernetes 事件(Events)与审计日志(Audit Logs)追踪操作过程与 API 层行为;使用可视化仪表盘(如 Kubernetes Dashboard)辅助诊断资源、日志和依赖关系;合理配置健康检查 Probe(liveness / readiness / startup)以早期捕获异常;以及在极端或线上环境下引入 临时容器(Ephemeral Containers)、kubectl debug 等高级调试能力,在不中断主流程的前提下深入排查网络、性能、节点级问题。作者强调:基础工具(kubectl、events、日志)是日常排错核心,而高级技巧能在关键时刻大幅缩短排障时间,提升集群可靠性与响应效率。

开源项目推荐

Flux2

Flux2 是一个面向 Kubernetes 的开源持续交付 (CD) 解决方案,基于 GitOps 原则构建,旨在使集群配置与应用状态始终与版本控制仓库保持同步。它由 GitOps Toolkit 提供驱动,采用 Kubernetes 自定义资源 (CRD) 和控制器的方式工作,支持多租户、管理多个 Git 仓库、集成 Helm、Kustomize、自动镜像更新等能力,并已在云原生环境中得到广泛的生产级应用。

Tetragon

Tetragon 是 Cilium 团队提供的一个基于 eBPF 的安全可观测与运行时强制执行工具。它能实时监控系统的关键安全事件(如进程执行、系统调用、I/O 操作等),并结合 Kubernetes 上下文(命名空间、Pod 等)进行语义关联;同时支持在检测到违规行为时采取响应措施,从而在云原生环境中提供细粒度的安全可观察性与防护能力。

prowler

Prowler 是一个开源的云安全平台工具,用于自动化执行各类云环境(包括 AWS、Azure、GCP、Kubernetes 等)的安全评估、审计、持续监控、合规检测、系统加固与取证准备。它内建了大量安全检查(覆盖 CIS、NIST、PCI-DSS、GDPR、HIPAA 等多个标准与规范),能够帮助组织实现云资源的安全态监控、违规检测与响应能力。

KubeSphere 社区版即将发布!

👩‍💻 开发者的福利来了!

KubeSphere 社区版,一款永久免费、开箱即用的云原生容器平台,为开发者和企业提供完整的容器管理与运维体验。

四大亮点:
✅ 永久免费:零成本无忧使用,持续迭代升级,构建云原生基石。
✅ 简易安装:支持任意环境,在线/离线一键部署,扩容升级更省心。
✅ 功能全面:多租户、可观测性、应用生命周期、DevOps 一应俱全。
✅ 灵活扩展:可插拔架构,轻松集成主流开源工具,像搭积木一样扩展能力。

📌 KubeSphere 社区版即将发布,国庆后和大家见面!敬请期待!

http://www.dtcms.com/a/410131.html

相关文章:

  • D017 vue+django+neo4j音乐知识图谱推荐可视化分析系统|带管理员角色+爬虫
  • 设计模式(C++)详解——迭代器模式(1)
  • 怎么知道网站有没有做301重定向建立网站商城建议
  • 仁寿建设局网站青岛专业网站排名推广
  • Notepad++ 本地提权漏洞|复现|分析
  • HCIP-IoT 真题详解(章节D),嵌入式基础与南向开发 /Part1
  • JavaEE初阶3.0
  • 【网络协议】IoT 设备入网认证机制
  • 微信小程序学习(二)
  • 微信小程序里 uni.navigateTo 用的多了, 容易报错,
  • LabVIEW通知器实现一对多数据分发
  • LabVIEW 流量检测
  • 海豚一键做淘宝网站wordpress数字链接出现404
  • 测试转C++开发面经(华为OD)
  • 新版Pycharm添加导入anaconda的python解释器
  • java_error_in_pycharm64.hprof 文件解析:作用、风险与处理建议
  • 基于微信小程序的扶贫助农系统【2026最新】
  • 免费开源的企业建站系统电子商务平台内的自然人经营者
  • Selenium+python自动化1-环境搭建
  • 大模型实时响应,通话告别预加载!
  • 解决Flexbox布局中元素无法居中的常见问题
  • AI时代:呼叫中心的存续与呼叫中心软件的蝶变
  • 基于单片机的按摩椅系统的设计(论文+源码)
  • 什么网站建设wordpress 显示文章固定链接
  • 学做沪江网站要多久广告设计培训班学校有哪些
  • pandas 基础:pandas.DataFrame.apply
  • uni-app 自定义 Android 插件详解
  • Spring IOC源码篇五 核心方法obtainFreshBeanFactory.doLoadBeanDefinitions
  • kafka和rocketmq的副本机制区别: isr 主从模式,Dledger模式
  • HTTP的持续与非持续连接,HTTP报文格式