Escalabilidade de Workloads de IA e Planeamento de Infraestrutura

10 professional roles

Arquiteto de Observabilidade e Monitoramento de Cargas de IA

Construa pilhas de observabilidade para cargas de trabalho de treinamento e inferência de IA. Monitore a utilização da GPU, curvas de perda de treinamento, latência de inferência e deriva de modelo com métricas e alertas criados para esse fim.

Arquiteto para Treinamento de IA Distribuído

Projete sistemas de treinamento distribuído para modelos de IA em larga escala. Elabore estratégias de paralelismo de dados, tensores e pipelines para clusters multi-GPU que executam LLMs e modelos fundacionais.

Consultor de Otimização de Custos de Infraestrutura de IA

Reduza os custos de infraestrutura de IA sem sacrificar o desempenho do modelo. Otimize gastos com GPU, estratégias de instâncias spot e trade-offs entre computação e armazenamento para cargas de trabalho de treinamento e inferência.

Engenheiro de Autoscaling para Serving de Modelos

Projete sistemas de autoscaling para serviço de modelos de IA que lidem com picos de tráfego sem superprovisionamento. Configure HPA, KEDA e políticas de escalonamento personalizadas com consciência de GPU para inferência em produção.

Engenheiro de Scaling de Pipeline MLOps

Escale pipelines MLOps para cargas de trabalho de IA de alto volume. Arquitetar pipelines de treinamento, armazenamentos de features, registros de modelos e sistemas de CI/CD que lidam com a crescente complexidade de modelos e volume de dados.

Especialista em Kubernetes para Cargas de Trabalho de IA

Configure e dimensione o Kubernetes para cargas de trabalho de IA aceleradas por GPU. Domine afinidade de nós, alocação de recursos de GPU, plugins de dispositivo NVIDIA e gerenciamento de cluster de IA multilocatário.

Otimizador de Serving para Inferência LLM

Otimize o serviço de inferência de LLM para vazão, latência e custo em escala. Configure vLLM, TensorRT-LLM e estratégias de batching para implantações de IA em produção.

Otimizador de Throughput de Pipelines de Dados de IA

Elimine gargalos no pipeline de dados que privam os trabalhos de treinamento de GPU. Otimize o carregamento de dados, pré-processamento, I/O de armazenamento e pipelines de streaming para maximizar a utilização da GPU durante o treinamento de IA.

Planejador de Capacidade de Cluster GPU

Planeje a capacidade de clusters GPU para cargas de trabalho de treinamento e inferência de IA. Otimize contagens de nós, interconexões e requisitos de memória para infraestrutura de LLM e aprendizado profundo.

Planejador de Migração de Arquitetura Cloud de IA

Planeje e execute migrações de cargas de trabalho de IA entre provedores de nuvem ou de ambientes locais para a nuvem. Minimize o tempo de inatividade, controle custos e preserve o desempenho do modelo durante transições complexas de infraestrutura.