Gartner《AI Infrastructure WithKubernetes参考架构》学习心得
一、Kubernetes 在 AI 基础设施中的重要性
随着 AI 技术的发展,企业对于能够支持 AI 和生成式 AI(GenAI)工作负载的基础设施需求不断增加。尽管通常建议优先选择公有云来运行 AI 工作负载,但某些场景下需要自托管基础设施。据预测,到 2028 年,超过 20% 的企业会在本地数据中心运行 AI 工作负载,而 2025 年初这一比例还不到 2%。这凸显了像 Kubernetes 这样厂商中立的平台的重要性,它能够为 AI 工作负载提供可移植性。云原生倡议推动企业构建可扩展且可靠的 AI 支持基础设施,而 Kubernetes 作为基础,其在支持数据科学、AI 和机器学习(ML)方面的重要性也得到了 Magic Quadrant for Data Science and Machine Learning Platforms 中各供应商的印证,多数供应商都利用 Kubernetes 来增强其云或本地产品。
二、Kubernetes 支持的 AI 基础设施架构用例
-
平台适应性 :Kubernetes 的可扩展性使集群能够根据 AI 工作负载类型被设计和实施成专门平台,通过多种专门操作符和全面工具链抽象其复杂性,提高用户体验和生产力,让集群能快速重新用于不同 AI 工作负载。
-
数据探索、原型设计和实验 :支持 AI 价值流的所有阶段,可提供现成的开发环境,方便获取专门硬件,以自助方式为编码、评估、基准测试或测试目的提供开发环境。
-
可扩展的 AI 训练 :能够为训练工作负载构建强大且弹性的执行环境,支持优化调度和自动扩展。其行业认可度高,通过专门驱动程序可与高速、低延迟网络技术集成,满足 AI 训练数据密集型和计算密集型需求。
-
多功能的 GenAI 推理 :到 2027 年,超过 60% 的 AI 加速器将支持公有云和本地的推理模型。采用 Kubernetes 等厂商中立平台,可为预训练模型提供可移植性,并利用丰富框架和操作符生态系统来执行和提供预训练模型供最终用户使用。
-
强大的 AI 服务 :模型服务是将预训练模型暴露给生产环境,使其可供实时预测或推理使用。大多数推理框架虽具备服务功能,但并非所有实现都可被视为生产级。借助 Kubernetes,可通过启用大型语言模型(LLM)路由和实施 AI 网关及安全护栏,来丰富 AI 服务体验。
三,基于 Kubernetes 的 AI 架构
1. 架构示意图的呈现
图 1(Architecture Diagram)展示了以 Kubernetes 为基础构建的 AI 基础设施的参考架构,包含多个不同领域的生产级 AI 基础设施组件,以支持 AI 工作负载。
2. 核心组件及其作用
-
AI Compute(AI 计算