当前位置: 首页 > news >正文

云原生周刊:在 Kubernetes 上运行机器学习

云原生热点

KGateway v2.1:面向 AI 场景的高可用网关全新升级

KGateway 是一个面向云原生和 AI 场景的高性能网关,支持多租户、统一接入、智能路由与推理服务集成,兼容 Kubernetes Gateway API 标准。

在最新的 v2.1 版本中,KGateway 引入了 agentgateway 组件,增强了 AI 推理和多租户路由能力;全面支持 Gateway API v1.3.0 和 Inference Extension v1.0.0;新增全局策略挂载、加权路由、Pod 模板定制、请求头修改、会话亲和及自动扩缩容等功能。同时优化了监控与健康检查机制,并启用 Leader 选举以提升高可用性。本次更新还废弃旧版 Envoy AI Gateway 与 Inference Extension,为 v2.2 的架构升级做准备。

Cosign 3.0 发布:软件签名工具全面升级,安全与兼容性再提升

Cosign 是 Sigstore 项目下的开源命令行工具,主要用于对容器镜像、软件包等进行签名与验证,以增强软件供应链的安全性。

近日,Cosign v3.0 版本正式发布,Cosign 将若干过去需要通过可选标志才能使用的新功能(如捆绑格式、可信根管理、签名配置支持)设为默认开启,从而加强与 Sigstore 生态中主流部署(如 Homebrew、PyPI、Maven Central 等) 的兼容性。与此同时,Cosign 围绕简化 CLI 及移除旧功能进行了规划,为未来 v4.0 版本的重大改动做好铺垫。

技术实践

文章推荐

在 Kubernetes 上运行机器学习:信任而非技术是最大门槛

本文介绍了,在将机器学习工作负载迁移至 Kubernetes 环境时,真正最大的挑战往往不是技术复杂性本身,而是 信任问题——包括数据质量、模型行为可预测性、团队间协作以及基础设施是否可靠。作者指出,尽管 Kubernetes 提供了强大的调度、扩缩容和资源管理能力,但若数据科学团队、平台团队及运维团队之间缺乏信任支撑、模型生命周期管理松散、监控与反馈机制不完善,那么技术能力再强也难以落地。为此,文章建议优先构建治理和审计流程、搭建可观察模型行为的反馈机制、明确责任边界,从而为 AI 在 Kubernetes 上的可靠运行奠定信任基础。

Kubernetes 7 大常见陷阱及其规避技巧

在这篇文章中,作者从自己在生产环境中管理 Kubernetes 的经验出发,列举了七类常见的部署与运维陷阱——包括未设置资源 requests/limits、忽视 liveness/readiness 探针、单靠 kubectl logs 进行排错、开发与生产配置一模一样、遗留无用资源、缺乏日志/监控机制、以及环境隔离不足等——并针对每个陷阱提供了实践建议,如从小量资源开始、使用自动扩缩容、统一日志监控管道、为不同环境提供差异化配置等,以帮助运维工程师提升集群稳定性、可观察性与效率。

云与 DevOps 趋势:整合治理与智能化转型再加速

本文介绍了 InfoQ 近日发布的《Cloud & DevOps Trends Report 2025》,探讨了云计算与 DevOps 在智能化、平台化及治理领域的最新发展趋势。报告指出,AI 驱动的自动化与智能代理正逐步融入运维与交付流程,推动从“人驱动”向“协同智能”转变;平台工程持续升温,企业更加关注通过统一开发者平台(IDP)提升开发体验与交付效率;混合云与多云架构成为主流实践,以兼顾灵活性与成本控制。与此同时,FinOps 和可观察性 进入成熟期,组织从单纯关注工具选型转向构建端到端的治理与可持续运营体系。总体来看,2025 年的云与 DevOps 发展已从技术演进迈向体系化建设阶段,重点在于“整合、优化与赋能”,以支撑更高效、安全、可控的数字化交付体系。

开源项目推荐

Proton

Proton 是由 Timeplus 开发的一款高性能流处理与分析的 SQL 引擎,采用 C++ 实现并内嵌 ClickHouse 引擎,目标为替代 Apache Flink 与 ksqlDB。它支持从 Kafka、Redpanda、ClickHouse 等多种源头采集数据,提供多流 JOIN、增量物化视图、时间窗口、水印、CDC 等实时流计算功能,同时具备查询历史数据的能力。特点包括:单二进制部署、无 JVM/ZooKeeper 依赖、低延迟高吞吐。适用于流式 ETL、实时分析、监控告警、推荐系统等场景。

Fission

Fission 是一个开源、Kubernetes 原生的 Serverless 函数框架,聚焦“只关心代码”的开发体验:通过 Functions、Environments 与 Triggers 三大概念,把 HTTP、消息队列与定时任务等事件与函数解耦,支持多语言(如 Node.js、Python、Go 等),并提供自动伸缩与极低冷启动(官方称典型约 100ms)以便在 Kubernetes 上快速上线函数与应用。

Rook

Rook 是一个开源的云原生存储编排平台,专为 Ceph 分布式存储系统在 Kubernetes 中的原生化部署、管理、扩缩容而设计。它通过 Operator 模式自动化执行部署、配置、供给、监控、升级、灾难恢复等流程,使存储服务实现自管理、自修复、自扩展。Rook 支持文件、块、对象三种存储模式,适用于生产环境的大规模集群。

Traefik

Traefik 是一个现代开源反向代理和负载均衡器,专为微服务架构设计,能无缝集成诸如 Docker、Kubernetes、Consul、Etcd 等多种编排和服务发现平台,并能通过自动配置来动态处理路由。它支持 HTTP/1-3、TCP、UDP、WebSocket、gRPC 等协议,内置中间件、自动 TLS、服务发现与指标监控等功能,使得在容器化、动态伸缩的环境下运行服务更加简洁高效。

http://www.dtcms.com/a/540427.html

相关文章:

  • nacos多个实例,如果让多个实例同时更新缓存 实现方案
  • Redis连接超时排查与优化指南
  • 织梦小说网站模板下载地址做手机网站用什么软件
  • 网站怎么添加链接代码网站的倒计时怎么做
  • 1472. 设计浏览器历史记录
  • ETCD 集群备份与恢复
  • ETCD 常用命令
  • 低空经济网络安全风险
  • 【音视频】B站的流媒体协议
  • GVHMR——基于重力-视角坐标的人体运动恢复:从RGB视频中提取人的SMPL轨迹(包含人体姿态估计WHAM、手势估计HaMeR的详解)
  • 【ROS2】驱动开发-通过控制器访问硬件(Hardware Access through Controllers)
  • 智能网联汽车网络发展总体目标:构建“泛在接入、能力协同、安全可信“的立体化体系
  • 网站可以备案先提交类别后来改么网站如何被百度快速收录
  • 【软考架构】案例分析:状态图和活动图的定义以及区别
  • 制作营销网站公司有没有做网站的
  • HarmonyOS 性能优化与安全开发:打造高效且安全的智能应用
  • 从TSX到JS:深入解析npm run build背后的完整构建流程
  • NAS助手 — 纯血鸿蒙时代的 NAS 文件分享新方案
  • HarmonyOS应用性能调优与内存管理实战
  • pulsar与kafka的架构原理异同点
  • 做火锅加盟哪个网站好五屏网站建设平台
  • 帮别人做网站违法大秦建设集团有限责任公司官方网站
  • 地轨的定义与用途
  • 使用Docker轻松搭建WordPress博客:完整指南
  • 电路学习——4个IO口控制12个LED(2025.10.28)
  • 【学习笔记】Ubuntu Linux使用过程问题记录
  • 机器学习/深度学习 信号处理 评估指标速查表
  • 惠州做网站的公司有哪些做电子元器件销售什么网站好
  • “LangChain 版化工厂危险行为告警系统”的完整项目
  • 【React的Fiber及中断-重启逻辑的设计】