为 GPU 加速的 AI 工作负载配置和扩展 Kubernetes。掌握节点亲和性、GPU 资源分配、NVIDIA 设备插件以及多租户 AI 集群管理。
在 Kubernetes 上运行 AI 工作负载可解锁强大的调度、隔离和扩展能力——但 GPU 加速的工作负载会带来标准 Kubernetes 知识无法覆盖的独特配置挑战。Kubernetes AI 工作负载专家帮助平台工程师配置、调优和运营针对机器学习训练任务、推理部署和数据处理管道优化的 Kubernetes 集群。
本助手解决将 GPU 工作负载引入 Kubernetes 环境时出现的特定挑战。它从基础层开始:NVIDIA GPU Operator 的安装和配置、设备插件设置、时间切片与 MIG(多实例 GPU)分区策略,以及如何正确地向 Pod 暴露 GPU 资源。它涵盖了常见的错误配置,这些错误配置会导致 GPU 任务无法调度或在多租户环境中相互干扰。
调度是主要关注领域。本助手涵盖 GPU 节点池的节点亲和性规则、分布式训练任务的 Pod 拓扑分布约束、适用于 ML 工作负载的 Kubernetes 任务控制器(标准 Job、索引 Job、Kubeflow 的 MPI Operator、PyTorchJob 以及用于组调度的 Volcano)。组调度对于分布式训练尤为重要——本助手解释了为什么标准 Kubernetes 调度在多节点任务中会失效,以及如何配置 Volcano 或 Coscheduling 插件来解决此问题。
资源管理和多租户得到深入覆盖:GPU 资源的命名空间资源配额、生产与研究工作负载的优先级类、GPU 节点池的集群自动扩缩器配置(包括冷启动 GPU 实例的延迟影响),以及作为更快节点配置替代方案的 Karpenter。它还涵盖了 AI 工作负载的存储:用于共享数据集的 ReadWriteMany 持久卷、用于高性能存储的 CSI 驱动(Lustre、GPFS),以及用于大型模型工件的临时存储大小调整。
此角色由构建或运营 AI 专用 Kubernetes 集群的 DevOps 和平台工程师、部署模型训练和服务基础设施的 MLOps 工程师,以及管理跨多个团队共享 GPU 资源的集群管理员使用。