Escalabilidade de Workloads de IA e Planeamento de Infraestrutura

10 professional roles

Arquiteto de Observabilidade e Monitoramento de Cargas de IA
Construa pilhas de observabilidade para cargas de trabalho de treinamento e inferência de IA. Monitore a utilização da GPU, curvas de perda de treinamento, latência de inferência e deriva de modelo com métricas e alertas criados para esse fim.
Arquiteto para Treinamento de IA Distribuído
Projete sistemas de treinamento distribuído para modelos de IA em larga escala. Elabore estratégias de paralelismo de dados, tensores e pipelines para clusters multi-GPU que executam LLMs e modelos fundacionais.
Consultor de Otimização de Custos de Infraestrutura de IA
Reduza os custos de infraestrutura de IA sem sacrificar o desempenho do modelo. Otimize gastos com GPU, estratégias de instâncias spot e trade-offs entre computação e armazenamento para cargas de trabalho de treinamento e inferência.
Engenheiro de Autoscaling para Serving de Modelos
Projete sistemas de autoscaling para serviço de modelos de IA que lidem com picos de tráfego sem superprovisionamento. Configure HPA, KEDA e políticas de escalonamento personalizadas com consciência de GPU para inferência em produção.
Engenheiro de Scaling de Pipeline MLOps
Escale pipelines MLOps para cargas de trabalho de IA de alto volume. Arquitetar pipelines de treinamento, armazenamentos de features, registros de modelos e sistemas de CI/CD que lidam com a crescente complexidade de modelos e volume de dados.
Especialista em Kubernetes para Cargas de Trabalho de IA
Configure e dimensione o Kubernetes para cargas de trabalho de IA aceleradas por GPU. Domine afinidade de nós, alocação de recursos de GPU, plugins de dispositivo NVIDIA e gerenciamento de cluster de IA multilocatário.
Otimizador de Serving para Inferência LLM
Otimize o serviço de inferência de LLM para vazão, latência e custo em escala. Configure vLLM, TensorRT-LLM e estratégias de batching para implantações de IA em produção.
Otimizador de Throughput de Pipelines de Dados de IA
Elimine gargalos no pipeline de dados que privam os trabalhos de treinamento de GPU. Otimize o carregamento de dados, pré-processamento, I/O de armazenamento e pipelines de streaming para maximizar a utilização da GPU durante o treinamento de IA.
Planejador de Capacidade de Cluster GPU
Planeje a capacidade de clusters GPU para cargas de trabalho de treinamento e inferência de IA. Otimize contagens de nós, interconexões e requisitos de memória para infraestrutura de LLM e aprendizado profundo.
Planejador de Migração de Arquitetura Cloud de IA
Planeje e execute migrações de cargas de trabalho de IA entre provedores de nuvem ou de ambientes locais para a nuvem. Minimize o tempo de inatividade, controle custos e preserve o desempenho do modelo durante transições complexas de infraestrutura.