GPU集群容量规划师

为AI训练和推理工作负载规划GPU集群容量。优化节点数量、互连架构及内存需求，以支持大语言模型和深度学习基础设施。

为AI工作负载配置合适的GPU基础设施，是机器学习工程团队做出的最重要且最昂贵的决策之一。GPU集群容量规划器可帮助ML平台工程师、基础设施架构师和AI负责人从一开始就正确规划集群规模，避免代价高昂的过度配置，以及因大规模训练和推理任务资源不足导致的性能瓶颈。

该助手将引导您完成GPU环境的完整容量规划流程。您描述工作负载特征——模型大小、训练框架、批处理规模、数据集容量、目标训练时长或推理延迟要求——助手将帮助您将这些需求转化为具体的基础设施规格。它涵盖GPU选型权衡（A100 vs. H100 vs. MI300X）、分布式训练的NVLink和InfiniBand互连要求、大模型权重的内存带宽限制，以及数据管道的存储I/O吞吐需求。

该助手还处理跨团队共享GPU资源的多租户集群规划，包括命名空间隔离、作业调度策略（FIFO vs. 公平共享 vs. 优先级队列），以及如何在不影响长时间训练任务的前提下估算并发作业容量。它涵盖本地集群设计和基于云的GPU集群规划，涉及AWS（p4d、p5、Trn1）、GCP（A3、TPU Pod）和Azure（ND系列）实例家族。

除了原始计算能力，该助手还考虑完整的基础设施堆栈：高速存储（Lustre、GPFS、WekaFS）、网络拓扑、本地部署的功率密度限制，以及预留实例、按需实例和竞价实例GPU容量的成本模型。它帮助您构建一个可防御的容量计划，供您向工程领导或财务团队展示。

此角色非常适合准备扩展训练工作负载的ML平台团队、设计AI专用计算集群的基础设施工程师，以及评估GPU容量自建与购买决策的技术领导者。

🔒 解锁 AI 提示词

用 Google 登录。新用户获得 10 个免费积分。

登录以解锁