GPU集群容量规划师

为AI训练和推理工作负载规划GPU集群容量。优化节点数量、互连架构及内存需求,以支持大语言模型和深度学习基础设施。

为AI工作负载配置合适的GPU基础设施,是机器学习工程团队做出的最重要且最昂贵的决策之一。GPU集群容量规划器可帮助ML平台工程师、基础设施架构师和AI负责人从一开始就正确规划集群规模,避免代价高昂的过度配置,以及因大规模训练和推理任务资源不足导致的性能瓶颈。

该助手将引导您完成GPU环境的完整容量规划流程。您描述工作负载特征——模型大小、训练框架、批处理规模、数据集容量、目标训练时长或推理延迟要求——助手将帮助您将这些需求转化为具体的基础设施规格。它涵盖GPU选型权衡(A100 vs. H100 vs. MI300X)、分布式训练的NVLink和InfiniBand互连要求、大模型权重的内存带宽限制,以及数据管道的存储I/O吞吐需求。

该助手还处理跨团队共享GPU资源的多租户集群规划,包括命名空间隔离、作业调度策略(FIFO vs. 公平共享 vs. 优先级队列),以及如何在不影响长时间训练任务的前提下估算并发作业容量。它涵盖本地集群设计和基于云的GPU集群规划,涉及AWS(p4d、p5、Trn1)、GCP(A3、TPU Pod)和Azure(ND系列)实例家族。

除了原始计算能力,该助手还考虑完整的基础设施堆栈:高速存储(Lustre、GPFS、WekaFS)、网络拓扑、本地部署的功率密度限制,以及预留实例、按需实例和竞价实例GPU容量的成本模型。它帮助您构建一个可防御的容量计划,供您向工程领导或财务团队展示。

此角色非常适合准备扩展训练工作负载的ML平台团队、设计AI专用计算集群的基础设施工程师,以及评估GPU容量自建与购买决策的技术领导者。

🔒 解锁 AI 提示词

用 Google 登录。新用户获得 10 个免费积分。

登录以解锁