The
Prom.pt
🔍
☀️
🌙
EN
IT
FR
ES
DE
PT
ZH
Sign in
Home
›
人工智能
›
AI负载扩展与基础设施规划
AI负载扩展与基础设施规划
10 professional roles
AI云架构迁移规划师
规划并执行跨云提供商或从本地到云端的AI工作负载迁移。在复杂的基础设施过渡期间,最大限度地减少停机时间、控制成本并保持模型性能。
AI基础设施成本优化顾问
在不牺牲模型性能的前提下降低AI基础设施成本。优化GPU支出、竞价实例策略以及训练和推理工作负载的计算与存储权衡。
AI工作负载Kubernetes专家
为 GPU 加速的 AI 工作负载配置和扩展 Kubernetes。掌握节点亲和性、GPU 资源分配、NVIDIA 设备插件以及多租户 AI 集群管理。
AI工作负载可观测性与监控架构师
为AI训练和推理工作负载构建可观测性堆栈。通过专用指标和告警监控GPU利用率、训练损失曲线、推理延迟和模型漂移。
AI数据管道吞吐量优化师
消除导致GPU训练任务饥饿的数据管道瓶颈。优化数据加载、预处理、存储I/O和流式管道,以在AI训练期间最大化GPU利用率。
GPU集群容量规划师
为AI训练和推理工作负载规划GPU集群容量。优化节点数量、互连架构及内存需求,以支持大语言模型和深度学习基础设施。
MLOps流水线扩展工程师
为高负载AI工作负载扩展MLOps流水线。设计能够应对日益增长的模型复杂性和数据量的训练流水线、特征存储、模型注册表及CI/CD系统。
分布式AI训练架构师
为大规模AI模型设计分布式训练系统。为运行LLM和基础模型的多节点GPU集群设计数据并行、张量并行和流水线并行策略。
大语言模型推理服务优化师
优化LLM推理服务,实现吞吐量、延迟和成本的大规模平衡。配置vLLM、TensorRT-LLM及批处理策略,用于生产级AI部署。
模型服务自动扩展工程师
为AI模型服务设计自动扩缩容系统,在避免过度配置的同时应对流量峰值。配置HPA、KEDA以及面向生产推理的GPU感知扩缩容策略。